Exposure Bias的数学本质:为什么误差会以二次方速度累积

引言:一个被忽视了三十年的问题 2015年,Samy Bengio和Oriol Vinyals在NIPS上发表了一篇看似平凡的论文,提出了Scheduled Sampling方法。这篇论文的开头写道:“序列预测模型在训练和推理时使用不同的输入——训练时使用真实的前序token,推理时使用模型自己的预测。这种不匹配会导致错误累积。“这个被命名为Exposure Bias的问题,此后成为了序列生成领域最常被引用、却也最容易被误解的概念之一。 ...

10 min · 4753 words

为什么大模型每次回答都不一样:从温度参数到批次不变性的完整技术解析

当你向ChatGPT连续两次提出相同的问题,大概率会得到两个不同的回答。很多人知道这是温度参数在作怪,但把温度调到0就能保证确定性吗?答案是否定的。即使temperature=0,OpenAI的API仍然可能返回不同的结果,而你自己部署的开源模型在vLLM或SGLang上推理时,输出同样不稳定。 ...

18 min · 8901 words

FFN如何成为大模型的"知识仓库":从键值存储到知识编辑的技术真相

当GPT-4被问到"法国的首都是哪里"时,它能准确回答"巴黎"。这个看似简单的过程背后,隐藏着一个深刻的问题:大模型是如何"记住"这些事实的?是参数随机分布,还是有组织的存储? ...

11 min · 5480 words

大模型解码策略全景解析:从贪婪搜索到动态阈值采样的二十年演进

引言:一个被低估的关键环节 当你向ChatGPT提问"法国的首都是哪里",它会毫不犹豫地回答"巴黎"。但如果你问"写一个创意故事",同样的模型可能每次都会给出不同的开头。这种差异的背后,隐藏着大语言模型最基础却又最关键的技术环节——解码策略。 ...

5 min · 2038 words

为什么大模型连简单的加法都会算错?从分词陷阱到算术推理的技术困境

2024年7月,一个看似荒谬的问题在社交媒体上疯传:「9.11和9.9哪个更大?」 当用户把这个问题抛给ChatGPT时,答案令人瞠目——AI一本正经地回答「9.11更大」。这不是个案。同样的测试在不同时间、不同用户那里重复了上千次,错误率高达50%。 ...

8 min · 4007 words