位置编码的二十年演进:从Sinusoidal到RoPE,Transformer如何理解「位置」

把"我 爱 北 京"四个字打乱顺序,变成"北 京 我 爱",意思完全变了。但对Transformer的自注意力机制来说,这两个输入几乎没有区别——它会以完全相同的方式计算每个词与其他词的关联度。 ...

13 min · 6275 words