文本生成 | Answer

Beam Search：为什么这个「折中」算法统治了序列生成三十年

1997年，IBM的研究人员在开发统计机器翻译系统时遇到了一个棘手的问题：如何在庞大的搜索空间中找到最优的翻译序列？穷举搜索计算量太大，贪婪搜索又太短视。他们最终选择了一个折中方案——Beam Search。二十多年过去了，这个算法不仅没有被淘汰，反而成为了Transformer、GPT等现代大模型的标准配置。一个「妥协」的产物为何能统治序列生成领域如此之久？ ...

大模型为何会陷入无限循环：从自注意力机制到训练数据的重复诅咒

一个训练了数千亿参数、在海量文本上学习了数十万小时的模型，面对"请列出以A开头的名字"这样一个简单问题，却陷入了这样的怪圈： ...