Exposure Bias的数学本质:为什么误差会以二次方速度累积

引言:一个被忽视了三十年的问题 2015年,Samy Bengio和Oriol Vinyals在NIPS上发表了一篇看似平凡的论文,提出了Scheduled Sampling方法。这篇论文的开头写道:“序列预测模型在训练和推理时使用不同的输入——训练时使用真实的前序token,推理时使用模型自己的预测。这种不匹配会导致错误累积。“这个被命名为Exposure Bias的问题,此后成为了序列生成领域最常被引用、却也最容易被误解的概念之一。 ...

10 min · 4753 words