Exposure Bias的数学本质:为什么误差会以二次方速度累积

引言:一个被忽视了三十年的问题 2015年,Samy Bengio和Oriol Vinyals在NIPS上发表了一篇看似平凡的论文,提出了Scheduled Sampling方法。这篇论文的开头写道:“序列预测模型在训练和推理时使用不同的输入——训练时使用真实的前序token,推理时使用模型自己的预测。这种不匹配会导致错误累积。“这个被命名为Exposure Bias的问题,此后成为了序列生成领域最常被引用、却也最容易被误解的概念之一。 ...

10 min · 4753 words

Teacher Forcing:为什么这个"作弊"技术统治了序列模型训练三十年

训练一个能够生成文本的模型,听起来是一个简单的任务:给它看很多文本,让它学会预测下一个词。但真正动手实现时,一个根本性的问题会摆在面前——训练时模型应该看到什么? ...

21 min · 10413 words