前馈网络 | Answer

翻开任何一篇介绍Transformer的文章，注意力机制总是占据C位。“Attention Is All You Need”——这篇2017年的论文标题本身就暗示着注意力是主角。但如果把目光从聚光灯下移开，看向模型的参数分布，会发现一个反直觉的事实：在GPT-3的1750亿参数中，前馈网络（Feed-Forward Network，FFN）占据了约三分之二。 ...