Transformer架构

2017年，Google在论文《Attention Is All You Need》中提出了Transformer架构。在这篇开创性论文中，设计者在每个子层之后放置了层归一化（Layer Normalization），这种设计被称为Post-LN。然而，当研究者们尝试将Transformer堆叠得更深时，发现这种设计会带来严重的训练不稳定问题。 ...