BatchNorm

归一化层的双重身份：为什么BatchNorm在训练和推理时判若两人

2017年，一个深度学习团队在部署图像分类模型时遇到了诡异的现象：模型在验证集上的准确率比训练时低了近5个百分点。他们检查了数据预处理、超参数设置、模型架构，一切看起来都正常。最后，一位细心的工程师发现了一个被忽视的细节——在验证循环中，他们忘记了调用model.eval()。 ...

大模型的归一化层：从BatchNorm到RMSNorm的十年技术演进

2015年，Sergey Ioffe和Christian Szegedy在ICML上发表了一篇论文，提出了Batch Normalization。这篇论文后来成为深度学习领域被引用最多的工作之一。但很少有人注意到，这项最初为计算机视觉设计的技术，在自然语言处理领域却"水土不服"——Transformer选择了完全不同的Layer Normalization。 ...

Transformer为何选择LayerNorm而不是BatchNorm：从序列数据特性到梯度稳定性的深度解析

2015年，Sergey Ioffe和Christian Szegedy在论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》中提出了批归一化（Batch Normalization）。这项技术在ImageNet分类任务上将训练步数减少了14倍，迅速成为计算机视觉领域的标配。然而，当Transformer架构在2017年横空出世时，论文作者们却选择了另一种归一化方式——层归一化（Layer Normalization）。这个选择并非偶然，背后隐藏着NLP数据与CV数据的本质差异，以及深度网络训练稳定性的深刻洞见。 ...