Self-Attention

Self-Attention计算全解：从矩阵乘法到梯度流动的完整技术解析

2017年，Vaswani等人在论文《Attention Is All You Need》中提出了Transformer架构。这个标题本身就是一个宣言：注意力机制不再需要循环神经网络或卷积神经网络的辅助，它足以独立承担序列建模的全部任务。 ...

自注意力与交叉注意力：Transformer如何用两种机制处理「同一序列」与「两个世界」

2017年，Vaswani等人在论文《Attention Is All You Need》中提出了Transformer架构。这篇论文的核心洞察可以用一句话概括：循环神经网络并非处理序列数据的唯一途径，注意力机制本身就足够了。 ...

Transformer 的注意力机制究竟在计算什么？从 QKV 到多头的完整解析

2017年，Google Research 团队发表论文《Attention Is All You Need》，提出了一种名为 Transformer 的神经网络架构。论文标题是一个明确的判断——在此之前的神经机器翻译模型依赖于循环神经网络（RNN）和卷积神经网络（CNN）的组合，而 Transformer 仅使用注意力机制就达到了当时的最优性能。 ...