激活函数 | Answer

万能逼近定理：为什么两层神经网络能逼近任意函数

一个被误解的定理在深度学习面试中，经常会出现这样一个问题：为什么神经网络需要非线性激活函数？很多人会回答"因为线性函数的组合仍然是线性的"。但这个回答虽然正确，却只触及了问题的表面。更深层次的问题是：为什么加上非线性激活函数后，神经网络就能逼近任意复杂的函数？ ...

Sigmoid与Softmax：多分类与多标签任务的激活函数选择逻辑

打开任何一本深度学习教材，或者浏览机器学习面试题库，几乎都会遇到这个问题：多分类任务应该用Sigmoid还是Softmax？答案似乎很简单——多分类用Softmax，二分类用Sigmoid。但当面试官追问"为什么"时，很多人就卡住了。更麻烦的是多标签分类场景：一个样本同时属于多个类别，这时候该用什么？ ...

梯度消失与梯度爆炸：为什么深层神经网络曾经只能堆叠五层？

1986年，David Rumelhart、Geoffrey Hinton和Ronald Williams发表了那篇改变整个机器学习领域的论文——《Learning representations by back-propagating errors》。反向传播算法让多层神经网络的训练成为可能，研究者们兴奋地开始堆叠越来越多的层，期待更深的网络能学习更复杂的特征。 ...

SwiGLU为何成为大模型的标配：从ReLU到门控激活函数的十五年演进

2017年，Transformer论文发表时，作者选择了一个看似平淡无奇的组件作为前馈神经网络（FFN）的激活函数：ReLU。这个在2011年被重新发现的函数，因其计算简单、梯度稳定而成为深度学习的标配。然而，到了2023年，几乎所有新发布的大语言模型——LLaMA、PaLM、Mistral——都在FFN层抛弃了ReLU，转而采用一个名字拗口的组合：SwiGLU。 ...