大模型原理

Exposure Bias的数学本质：为什么误差会以二次方速度累积

引言：一个被忽视了三十年的问题 2015年，Samy Bengio和Oriol Vinyals在NIPS上发表了一篇看似平凡的论文，提出了Scheduled Sampling方法。这篇论文的开头写道：“序列预测模型在训练和推理时使用不同的输入——训练时使用真实的前序token，推理时使用模型自己的预测。这种不匹配会导致错误累积。“这个被命名为Exposure Bias的问题，此后成为了序列生成领域最常被引用、却也最容易被误解的概念之一。 ...

为什么大模型每次回答都不一样：从温度参数到批次不变性的完整技术解析

当你向ChatGPT连续两次提出相同的问题，大概率会得到两个不同的回答。很多人知道这是温度参数在作怪，但把温度调到0就能保证确定性吗？答案是否定的。即使temperature=0，OpenAI的API仍然可能返回不同的结果，而你自己部署的开源模型在vLLM或SGLang上推理时，输出同样不稳定。 ...

FFN如何成为大模型的"知识仓库"：从键值存储到知识编辑的技术真相

当GPT-4被问到"法国的首都是哪里"时，它能准确回答"巴黎"。这个看似简单的过程背后，隐藏着一个深刻的问题：大模型是如何"记住"这些事实的？是参数随机分布，还是有组织的存储？ ...

大模型解码策略全景解析：从贪婪搜索到动态阈值采样的二十年演进

引言：一个被低估的关键环节当你向ChatGPT提问"法国的首都是哪里"，它会毫不犹豫地回答"巴黎"。但如果你问"写一个创意故事"，同样的模型可能每次都会给出不同的开头。这种差异的背后，隐藏着大语言模型最基础却又最关键的技术环节——解码策略。 ...

为什么大模型连简单的加法都会算错？从分词陷阱到算术推理的技术困境

2024年7月，一个看似荒谬的问题在社交媒体上疯传：「9.11和9.9哪个更大？」当用户把这个问题抛给ChatGPT时，答案令人瞠目——AI一本正经地回答「9.11更大」。这不是个案。同样的测试在不同时间、不同用户那里重复了上千次，错误率高达50%。 ...