训练稳定性

偏置项的消亡：为什么现代大模型删除了这个看似必不可少的参数

一个反直觉的设计选择如果你在2018年告诉一个深度学习研究者，未来最先进的大语言模型会删除所有线性层的偏置项，他们可能会觉得你疯了。毕竟，偏置项是神经网络最基础的组成部分之一——从单层感知机到深度卷积网络，几乎每一个神经元的输出都包含一个偏置参数。 ...

梯度裁剪：为什么这个"简单"技巧能拯救你的深度学习模型

训练大语言模型时，你是否遇到过这样的情况：损失函数曲线突然出现莫名其妙的尖峰，模型仿佛"失忆"了一般，之前学到的知识瞬间消失？或者在训练循环神经网络时，梯度变成了NaN，整个训练过程直接崩溃？这些问题的背后，往往隐藏着一个共同的罪魁祸首——梯度爆炸。 ...

Transformer为何选择LayerNorm而不是BatchNorm：从序列数据特性到梯度稳定性的深度解析

2015年，Sergey Ioffe和Christian Szegedy在论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》中提出了批归一化（Batch Normalization）。这项技术在ImageNet分类任务上将训练步数减少了14倍，迅速成为计算机视觉领域的标配。然而，当Transformer架构在2017年横空出世时，论文作者们却选择了另一种归一化方式——层归一化（Layer Normalization）。这个选择并非偶然，背后隐藏着NLP数据与CV数据的本质差异，以及深度网络训练稳定性的深刻洞见。 ...