梯度爆炸 | Answer

梯度裁剪：为什么这个"简单"技巧能拯救你的深度学习模型

训练大语言模型时，你是否遇到过这样的情况：损失函数曲线突然出现莫名其妙的尖峰，模型仿佛"失忆"了一般，之前学到的知识瞬间消失？或者在训练循环神经网络时，梯度变成了NaN，整个训练过程直接崩溃？这些问题的背后，往往隐藏着一个共同的罪魁祸首——梯度爆炸。 ...

梯度消失与梯度爆炸：为什么深层神经网络曾经只能堆叠五层？

1986年，David Rumelhart、Geoffrey Hinton和Ronald Williams发表了那篇改变整个机器学习领域的论文——《Learning representations by back-propagating errors》。反向传播算法让多层神经网络的训练成为可能，研究者们兴奋地开始堆叠越来越多的层，期待更深的网络能学习更复杂的特征。 ...

权重初始化：为什么一行代码能决定神经网络的生死

2010年，Xavier Glorot和Yoshua Bengio在AISTATS会议上发表了一篇论文，标题是《Understanding the difficulty of training deep feedforward neural networks》。这篇论文揭示了一个困扰深度学习社区多年的问题：为什么深层神经网络在随机初始化下难以训练？他们提出了一种新的初始化方案，后来被称为Xavier初始化。五年后，何恺明等人针对ReLU激活函数提出了He初始化。这两种初始化方法至今仍是现代神经网络训练的基础。 ...