解码策略 | Answer

大模型如何选择下一个词：从概率预测到文本生成的完整技术链路

引言：模型输出的真正面目当你在ChatGPT中输入一个问题，屏幕上逐字显现答案时，你是否想过：模型内部发生了什么？它是如何决定下一个词的？很多人以为大语言模型直接输出文字，这是一个普遍的误解。事实上，模型的输出是一个由数万个数字组成的向量——每个数字对应词表中的一个词，代表该词成为"下一个词"的原始分数。这个分数，在技术术语中被称为Logit。 ...

大模型解码策略全景解析：从贪婪搜索到动态阈值采样的二十年演进

引言：一个被低估的关键环节当你向ChatGPT提问"法国的首都是哪里"，它会毫不犹豫地回答"巴黎"。但如果你问"写一个创意故事"，同样的模型可能每次都会给出不同的开头。这种差异的背后，隐藏着大语言模型最基础却又最关键的技术环节——解码策略。 ...

自回归生成：为什么大模型必须逐词输出

当你向大语言模型提问时，可能注意过一个现象：模型的回答是逐字逐句流式出现的，而不是瞬间生成整段文本。这并非产品设计的"打字机效果"，而是大模型生成机制的本质特性。 ...

大模型为何会陷入无限循环：从自注意力机制到训练数据的重复诅咒

一个训练了数千亿参数、在海量文本上学习了数十万小时的模型，面对"请列出以A开头的名字"这样一个简单问题，却陷入了这样的怪圈： ...