万能逼近定理:为什么两层神经网络能逼近任意函数
一个被误解的定理 在深度学习面试中,经常会出现这样一个问题:为什么神经网络需要非线性激活函数? 很多人会回答"因为线性函数的组合仍然是线性的"。但这个回答虽然正确,却只触及了问题的表面。更深层次的问题是:为什么加上非线性激活函数后,神经网络就能逼近任意复杂的函数? ...
一个被误解的定理 在深度学习面试中,经常会出现这样一个问题:为什么神经网络需要非线性激活函数? 很多人会回答"因为线性函数的组合仍然是线性的"。但这个回答虽然正确,却只触及了问题的表面。更深层次的问题是:为什么加上非线性激活函数后,神经网络就能逼近任意复杂的函数? ...
打开任何一本深度学习教材,或者浏览机器学习面试题库,几乎都会遇到这个问题:多分类任务应该用Sigmoid还是Softmax?答案似乎很简单——多分类用Softmax,二分类用Sigmoid。但当面试官追问"为什么"时,很多人就卡住了。更麻烦的是多标签分类场景:一个样本同时属于多个类别,这时候该用什么? ...
1986年,David Rumelhart、Geoffrey Hinton和Ronald Williams发表了那篇改变整个机器学习领域的论文——《Learning representations by back-propagating errors》。反向传播算法让多层神经网络的训练成为可能,研究者们兴奋地开始堆叠越来越多的层,期待更深的网络能学习更复杂的特征。 ...
2017年,Transformer论文发表时,作者选择了一个看似平淡无奇的组件作为前馈神经网络(FFN)的激活函数:ReLU。这个在2011年被重新发现的函数,因其计算简单、梯度稳定而成为深度学习的标配。然而,到了2023年,几乎所有新发布的大语言模型——LLaMA、PaLM、Mistral——都在FFN层抛弃了ReLU,转而采用一个名字拗口的组合:SwiGLU。 ...