FFN | Answer

FFN如何成为大模型的"知识仓库"：从键值存储到知识编辑的技术真相

当GPT-4被问到"法国的首都是哪里"时，它能准确回答"巴黎"。这个看似简单的过程背后，隐藏着一个深刻的问题：大模型是如何"记住"这些事实的？是参数随机分布，还是有组织的存储？ ...

Transformer的前馈层：为什么这个"配角"占据了模型三分之二的参数

翻开任何一篇介绍Transformer的文章，注意力机制总是占据C位。“Attention Is All You Need”——这篇2017年的论文标题本身就暗示着注意力是主角。但如果把目光从聚光灯下移开，看向模型的参数分布，会发现一个反直觉的事实：在GPT-3的1750亿参数中，前馈网络（Feed-Forward Network，FFN）占据了约三分之二。 ...

SwiGLU为何成为大模型的标配：从ReLU到门控激活函数的十五年演进

2017年，Transformer论文发表时，作者选择了一个看似平淡无奇的组件作为前馈神经网络（FFN）的激活函数：ReLU。这个在2011年被重新发现的函数，因其计算简单、梯度稳定而成为深度学习的标配。然而，到了2023年，几乎所有新发布的大语言模型——LLaMA、PaLM、Mistral——都在FFN层抛弃了ReLU，转而采用一个名字拗口的组合：SwiGLU。 ...