Top-P

大模型如何选择下一个词：从概率预测到文本生成的完整技术链路

引言：模型输出的真正面目当你在ChatGPT中输入一个问题，屏幕上逐字显现答案时，你是否想过：模型内部发生了什么？它是如何决定下一个词的？很多人以为大语言模型直接输出文字，这是一个普遍的误解。事实上，模型的输出是一个由数万个数字组成的向量——每个数字对应词表中的一个词，代表该词成为"下一个词"的原始分数。这个分数，在技术术语中被称为Logit。 ...

大模型解码策略全景解析：从贪婪搜索到动态阈值采样的二十年演进

引言：一个被低估的关键环节当你向ChatGPT提问"法国的首都是哪里"，它会毫不犹豫地回答"巴黎"。但如果你问"写一个创意故事"，同样的模型可能每次都会给出不同的开头。这种差异的背后，隐藏着大语言模型最基础却又最关键的技术环节——解码策略。 ...