Attention

2016年9月，Google宣布将生产环境的翻译系统从基于短语的统计机器翻译全面切换到神经机器翻译。这个决定背后，是近二十年序列建模技术的积累与突破。从IBM的统计翻译模型，到Sutskever等人的LSTM Seq2Seq，再到Bahdanau的注意力机制，最终汇聚成Transformer这一改变NLP格局的架构。理解这段演进历程，不仅能帮助我们把握技术脉络，更能看清现代大语言模型处理序列任务的设计哲学。 ...

Attention

序列到序列学习的二十年演进：从统计方法到Transformer的革命

自注意力与交叉注意力：Transformer如何用两种机制处理「同一序列」与「两个世界」