序列生成 | Answer

Exposure Bias的数学本质：为什么误差会以二次方速度累积

引言：一个被忽视了三十年的问题 2015年，Samy Bengio和Oriol Vinyals在NIPS上发表了一篇看似平凡的论文，提出了Scheduled Sampling方法。这篇论文的开头写道：“序列预测模型在训练和推理时使用不同的输入——训练时使用真实的前序token，推理时使用模型自己的预测。这种不匹配会导致错误累积。“这个被命名为Exposure Bias的问题，此后成为了序列生成领域最常被引用、却也最容易被误解的概念之一。 ...

EOS Token：为什么这个特殊标记决定了大模型的说话边界

当你在 ChatGPT 中输入一个问题，模型生成一段流畅的回答后优雅地停下——这个看似简单的"停止"动作背后，隐藏着一个被大多数人忽视却至关重要的机制：EOS Token。这个特殊的词汇表条目，像一个隐形的句号，决定了大模型何时该闭嘴。 ...

Teacher Forcing：为什么这个"作弊"技术统治了序列模型训练三十年

训练一个能够生成文本的模型，听起来是一个简单的任务：给它看很多文本，让它学会预测下一个词。但真正动手实现时，一个根本性的问题会摆在面前——训练时模型应该看到什么？ ...

Beam Search：为什么这个「折中」算法统治了序列生成三十年

1997年，IBM的研究人员在开发统计机器翻译系统时遇到了一个棘手的问题：如何在庞大的搜索空间中找到最优的翻译序列？穷举搜索计算量太大，贪婪搜索又太短视。他们最终选择了一个折中方案——Beam Search。二十多年过去了，这个算法不仅没有被淘汰，反而成为了Transformer、GPT等现代大模型的标准配置。一个「妥协」的产物为何能统治序列生成领域如此之久？ ...