多头注意力

2017年，Vaswani等人在论文《Attention Is All You Need》中提出了Transformer架构。这个标题本身就是一个宣言：注意力机制不再需要循环神经网络或卷积神经网络的辅助，它足以独立承担序列建模的全部任务。 ...