权重初始化

为什么高斯分布统治了机器学习的隐空间：从中心极限定理到扩散模型的数学真相

为什么高斯分布统治了机器学习的隐空间：从中心极限定理到扩散模型的数学真相打开任何一个深度学习模型，你会发现高斯分布无处不在：权重初始化服从$\mathcal{N}(0, \sqrt{2/n})$，VAE的隐变量被约束为$\mathcal{N}(\mu, \sigma^2)$，扩散模型的前向过程逐步添加高斯噪声，连随机梯度下降的噪声都被近似为高斯分布。这不是巧合，也不是习惯使然——高斯分布对机器学习的统治，源于数学深处的必然性。 ...

梯度消失与梯度爆炸：为什么深层神经网络曾经只能堆叠五层？

1986年，David Rumelhart、Geoffrey Hinton和Ronald Williams发表了那篇改变整个机器学习领域的论文——《Learning representations by back-propagating errors》。反向传播算法让多层神经网络的训练成为可能，研究者们兴奋地开始堆叠越来越多的层，期待更深的网络能学习更复杂的特征。 ...

权重初始化：为什么一行代码能决定神经网络的生死

2010年，Xavier Glorot和Yoshua Bengio在AISTATS会议上发表了一篇论文，标题是《Understanding the difficulty of training deep feedforward neural networks》。这篇论文揭示了一个困扰深度学习社区多年的问题：为什么深层神经网络在随机初始化下难以训练？他们提出了一种新的初始化方案，后来被称为Xavier初始化。五年后，何恺明等人针对ReLU激活函数提出了He初始化。这两种初始化方法至今仍是现代神经网络训练的基础。 ...