机器翻译 | Answer

自注意力与交叉注意力：Transformer如何用两种机制处理「同一序列」与「两个世界」

2017年，Vaswani等人在论文《Attention Is All You Need》中提出了Transformer架构。这篇论文的核心洞察可以用一句话概括：循环神经网络并非处理序列数据的唯一途径，注意力机制本身就足够了。 ...

Beam Search：为什么这个「折中」算法统治了序列生成三十年

1997年，IBM的研究人员在开发统计机器翻译系统时遇到了一个棘手的问题：如何在庞大的搜索空间中找到最优的翻译序列？穷举搜索计算量太大，贪婪搜索又太短视。他们最终选择了一个折中方案——Beam Search。二十多年过去了，这个算法不仅没有被淘汰，反而成为了Transformer、GPT等现代大模型的标准配置。一个「妥协」的产物为何能统治序列生成领域如此之久？ ...