长度外推 | Answer

位置编码外推性：为什么Transformer无法处理比训练时更长的序列

一个被忽视的基本问题 2017年，当Vaswani等人在论文《Attention is All You Need》中提出Transformer架构时，他们做出了一个看似合理的假设：模型应该能够外推到比训练时更长的序列。原论文中写道：“我们推测它可能外推到比训练时遇到的序列更长的序列。” ...

2017年，Vaswani等人在《Attention Is All You Need》中提出了Transformer架构，用纯粹的注意力机制取代了循环神经网络。然而，这个革命性的架构有一个致命缺陷：自注意力机制天生不知道顺序。 ...

当你在 ChatGPT 中输入一个问题，模型生成一段流畅的回答后优雅地停下——这个看似简单的"停止"动作背后，隐藏着一个被大多数人忽视却至关重要的机制：EOS Token。这个特殊的词汇表条目，像一个隐形的句号，决定了大模型何时该闭嘴。 ...