ReLU | Answer

2017年，Transformer论文发表时，作者选择了一个看似平淡无奇的组件作为前馈神经网络（FFN）的激活函数：ReLU。这个在2011年被重新发现的函数，因其计算简单、梯度稳定而成为深度学习的标配。然而，到了2023年，几乎所有新发布的大语言模型——LLaMA、PaLM、Mistral——都在FFN层抛弃了ReLU，转而采用一个名字拗口的组合：SwiGLU。 ...