相对位置偏置如何改变Transformer的序列理解能力:从Shaw到ALiBi的七年技术演进

2017年,Vaswani等人在《Attention Is All You Need》中提出了Transformer架构,用纯粹的注意力机制取代了循环神经网络。然而,这个革命性的架构有一个致命缺陷:自注意力机制天生不知道顺序。 ...

16 min · 7669 words