大模型如何选择下一个词:从概率预测到文本生成的完整技术链路
引言:模型输出的真正面目 当你在ChatGPT中输入一个问题,屏幕上逐字显现答案时,你是否想过:模型内部发生了什么?它是如何决定下一个词的? 很多人以为大语言模型直接输出文字,这是一个普遍的误解。事实上,模型的输出是一个由数万个数字组成的向量——每个数字对应词表中的一个词,代表该词成为"下一个词"的原始分数。这个分数,在技术术语中被称为Logit。 ...
引言:模型输出的真正面目 当你在ChatGPT中输入一个问题,屏幕上逐字显现答案时,你是否想过:模型内部发生了什么?它是如何决定下一个词的? 很多人以为大语言模型直接输出文字,这是一个普遍的误解。事实上,模型的输出是一个由数万个数字组成的向量——每个数字对应词表中的一个词,代表该词成为"下一个词"的原始分数。这个分数,在技术术语中被称为Logit。 ...
当你向大语言模型提问时,可能注意过一个现象:模型的回答是逐字逐句流式出现的,而不是瞬间生成整段文本。这并非产品设计的"打字机效果",而是大模型生成机制的本质特性。 ...
一个拥有1750亿参数的语言模型,每次生成一个token都需要从内存读取超过700GB的权重数据——但实际执行的计算量却让GPU大部分时间处于空闲状态。这种"内存等待计算"的倒挂现象,是大模型推理速度的根本瓶颈。 ...