大模型如何选择下一个词:从概率预测到文本生成的完整技术链路

引言:模型输出的真正面目 当你在ChatGPT中输入一个问题,屏幕上逐字显现答案时,你是否想过:模型内部发生了什么?它是如何决定下一个词的? 很多人以为大语言模型直接输出文字,这是一个普遍的误解。事实上,模型的输出是一个由数万个数字组成的向量——每个数字对应词表中的一个词,代表该词成为"下一个词"的原始分数。这个分数,在技术术语中被称为Logit。 ...

17 min · 8098 words

大模型解码策略全景解析:从贪婪搜索到动态阈值采样的二十年演进

引言:一个被低估的关键环节 当你向ChatGPT提问"法国的首都是哪里",它会毫不犹豫地回答"巴黎"。但如果你问"写一个创意故事",同样的模型可能每次都会给出不同的开头。这种差异的背后,隐藏着大语言模型最基础却又最关键的技术环节——解码策略。 ...

5 min · 2038 words