FFN如何成为大模型的"知识仓库":从键值存储到知识编辑的技术真相
当GPT-4被问到"法国的首都是哪里"时,它能准确回答"巴黎"。这个看似简单的过程背后,隐藏着一个深刻的问题:大模型是如何"记住"这些事实的?是参数随机分布,还是有组织的存储? ...
当GPT-4被问到"法国的首都是哪里"时,它能准确回答"巴黎"。这个看似简单的过程背后,隐藏着一个深刻的问题:大模型是如何"记住"这些事实的?是参数随机分布,还是有组织的存储? ...
翻开任何一篇介绍Transformer的文章,注意力机制总是占据C位。“Attention Is All You Need”——这篇2017年的论文标题本身就暗示着注意力是主角。但如果把目光从聚光灯下移开,看向模型的参数分布,会发现一个反直觉的事实:在GPT-3的1750亿参数中,前馈网络(Feed-Forward Network,FFN)占据了约三分之二。 ...
2017年,Transformer论文发表时,作者选择了一个看似平淡无奇的组件作为前馈神经网络(FFN)的激活函数:ReLU。这个在2011年被重新发现的函数,因其计算简单、梯度稳定而成为深度学习的标配。然而,到了2023年,几乎所有新发布的大语言模型——LLaMA、PaLM、Mistral——都在FFN层抛弃了ReLU,转而采用一个名字拗口的组合:SwiGLU。 ...