Temperature

Temperature=0为什么不等于确定性输出：大模型推理非确定性的完整技术解析

一个被广泛接受的观点是：只要将大模型的Temperature参数设为0，就能获得确定性的输出。这个直觉看起来很合理——Temperature=0意味着贪婪采样，模型总是选择概率最高的那个token，没有随机性，结果应该可复现。 ...

为什么大模型每次回答都不一样：从温度参数到批次不变性的完整技术解析

当你向ChatGPT连续两次提出相同的问题，大概率会得到两个不同的回答。很多人知道这是温度参数在作怪，但把温度调到0就能保证确定性吗？答案是否定的。即使temperature=0，OpenAI的API仍然可能返回不同的结果，而你自己部署的开源模型在vLLM或SGLang上推理时，输出同样不稳定。 ...

大模型如何选择下一个词：从概率预测到文本生成的完整技术链路

引言：模型输出的真正面目当你在ChatGPT中输入一个问题，屏幕上逐字显现答案时，你是否想过：模型内部发生了什么？它是如何决定下一个词的？很多人以为大语言模型直接输出文字，这是一个普遍的误解。事实上，模型的输出是一个由数万个数字组成的向量——每个数字对应词表中的一个词，代表该词成为"下一个词"的原始分数。这个分数，在技术术语中被称为Logit。 ...

大模型解码策略全景解析：从贪婪搜索到动态阈值采样的二十年演进

引言：一个被低估的关键环节当你向ChatGPT提问"法国的首都是哪里"，它会毫不犹豫地回答"巴黎"。但如果你问"写一个创意故事"，同样的模型可能每次都会给出不同的开头。这种差异的背后，隐藏着大语言模型最基础却又最关键的技术环节——解码策略。 ...

Temperature 参数如何控制大模型的"创造性"与"确定性"

每个使用过大语言模型 API 的人都会遇到一个名为 Temperature 的参数。大多数时候，我们要么忽略它，要么随意调一下。但这个看似简单的数字，实际上决定了模型是"一本正经"还是"天马行空"。 ...