Temperature=0为什么不等于确定性输出:大模型推理非确定性的完整技术解析

一个被广泛接受的观点是:只要将大模型的Temperature参数设为0,就能获得确定性的输出。这个直觉看起来很合理——Temperature=0意味着贪婪采样,模型总是选择概率最高的那个token,没有随机性,结果应该可复现。 ...

22 min · 10883 words

为什么大模型每次回答都不一样:从温度参数到批次不变性的完整技术解析

当你向ChatGPT连续两次提出相同的问题,大概率会得到两个不同的回答。很多人知道这是温度参数在作怪,但把温度调到0就能保证确定性吗?答案是否定的。即使temperature=0,OpenAI的API仍然可能返回不同的结果,而你自己部署的开源模型在vLLM或SGLang上推理时,输出同样不稳定。 ...

18 min · 8901 words

大模型如何选择下一个词:从概率预测到文本生成的完整技术链路

引言:模型输出的真正面目 当你在ChatGPT中输入一个问题,屏幕上逐字显现答案时,你是否想过:模型内部发生了什么?它是如何决定下一个词的? 很多人以为大语言模型直接输出文字,这是一个普遍的误解。事实上,模型的输出是一个由数万个数字组成的向量——每个数字对应词表中的一个词,代表该词成为"下一个词"的原始分数。这个分数,在技术术语中被称为Logit。 ...

17 min · 8098 words

大模型解码策略全景解析:从贪婪搜索到动态阈值采样的二十年演进

引言:一个被低估的关键环节 当你向ChatGPT提问"法国的首都是哪里",它会毫不犹豫地回答"巴黎"。但如果你问"写一个创意故事",同样的模型可能每次都会给出不同的开头。这种差异的背后,隐藏着大语言模型最基础却又最关键的技术环节——解码策略。 ...

5 min · 2038 words
Blog Cover

Temperature 参数如何控制大模型的"创造性"与"确定性"

每个使用过大语言模型 API 的人都会遇到一个名为 Temperature 的参数。大多数时候,我们要么忽略它,要么随意调一下。但这个看似简单的数字,实际上决定了模型是"一本正经"还是"天马行空"。 ...

9 min · 4263 words