梯度裁剪：为什么这个"简单"技巧能拯救你的深度学习模型

训练大语言模型时，你是否遇到过这样的情况：损失函数曲线突然出现莫名其妙的尖峰，模型仿佛"失忆"了一般，之前学到的知识瞬间消失？或者在训练循环神经网络时，梯度变成了NaN，整个训练过程直接崩溃？这些问题的背后，往往隐藏着一个共同的罪魁祸首——梯度爆炸。

而梯度裁剪，这个看似简单到只有几行代码的技术，正是应对这一问题的标准解决方案。从2012年首次被系统性地提出至今，它已经成为深度学习训练管线中不可或缺的组成部分。但你是否想过：为什么限制梯度的大小就能解决问题？为什么几乎所有的深度学习框架都把默认的裁剪阈值设为1？这个"魔法数字"背后究竟隐藏着怎样的数学原理？

从一个训练事故说起

假设你正在训练一个Transformer模型。一切进展顺利，损失稳步下降，直到某个时刻——loss突然飙升，然后可能恢复正常，也可能直接变成NaN。查看日志，你发现梯度范数（gradient norm）在那个时刻达到了一个天文数字。

这不是偶然。深度神经网络的损失景观（loss landscape）远比我们想象的复杂。想象你正在下山，大多数时候脚下的路是平缓的，但偶尔会遇到悬崖峭壁。在参数空间的高维世界中，这些"悬崖"可能比你想象的更加陡峭——梯度可以达到$10^6$甚至更高。

flowchart TD
    A[训练开始] --> B[损失稳步下降]
    B --> C{梯度范数检查}
    C -->|正常| D[参数正常更新]
    D --> B
    C -->|爆炸| E[梯度达到天文数字]
    E --> F[参数剧烈跳跃]
    F --> G{能否恢复?}
    G -->|能| B
    G -->|不能| H[Loss变成NaN]
    H --> I[训练崩溃]
    
    style E fill:#ff6b6b
    style H fill:#ff6b6b
    style I fill:#ff0000,color:#fff

当梯度达到这样的量级时，即使学习率很小，参数更新也会变成一次剧烈的"跳跃"。模型可能直接跳到一个完全不同的区域，之前学到的知识荡然无存。更糟糕的是，如果梯度中出现了无穷大或NaN，整个训练就会彻底崩溃。

梯度爆炸的数学本质

要理解梯度裁剪为什么有效，首先需要理解梯度爆炸是怎么发生的。

考虑一个简单的多层网络，其输出可以表示为：

$$y = f_L(f_{L-1}(...f_1(x)...))$$

在反向传播过程中，梯度通过链式法则逐层传递：

$$\frac{\partial \mathcal{L}}{\partial W_1} = \frac{\partial \mathcal{L}}{\partial y} \cdot \prod_{i=2}^{L} \frac{\partial f_i}{\partial f_{i-1}} \cdot \frac{\partial f_1}{\partial W_1}$$

如果中间的雅可比矩阵的谱范数（spectral norm）大于1，那么梯度就会以指数速度增长。对于具有$L$层的网络，如果每层的放大因子为$\lambda > 1$，最终梯度的量级可能达到$\lambda^L$。

graph LR
    subgraph 正向传播
        X[输入 x] --> L1[Layer 1]
        L1 --> L2[Layer 2]
        L2 --> L3[...]
        L3 --> LN[Layer L]
        LN --> Y[输出 y]
    end
    
    subgraph 反向传播
        direction LR
        GY[∂L/∂y] -->|×J_L| GLN[∂L/∂f_L-1]
        GLN -->|×J_L-1| GL3[...]
        GL3 -->|×J_2| GL2[∂L/∂f_1]
        GL2 -->|×J_1| GW1[∂L/∂W_1]
    end
    
    style GW1 fill:#ff6b6b

这个问题的严重性在循环神经网络中尤为突出。RNN在处理长序列时会进行时间步展开，一个处理100个时间步的RNN，实际上相当于一个100层的深度网络。2012年，Razvan Pascanu、Tomas Mikolov和Yoshua Bengio在论文《On the difficulty of training Recurrent Neural Networks》中首次系统性地分析了这个问题，并提出了梯度裁剪作为解决方案。

梯度裁剪的两种方法

Pascanu等人在论文中提出的核心思想是：当梯度过大时，对其进行限制。具体来说，有两种主流的实现方式。

按值裁剪（Clipping by Value）

最直接的方法是对梯度的每个元素进行裁剪：

$$g_i^{clipped} = \begin{cases} \tau & \text{if } g_i > \tau \\ -\tau & \text{if } g_i < -\tau \\ g_i & \text{otherwise} \end{cases}$$

这种方法简单直观，但存在一个明显的问题：它会改变梯度的方向。想象梯度是一个指向最优解的向量，按值裁剪后，这个向量可能指向完全不同的方向。

按范数裁剪（Clipping by Norm）

更优雅的方法是保持梯度方向不变，只缩放其大小：

$$\mathbf{g}^{clipped} = \begin{cases} \mathbf{g} & \text{if } \|\mathbf{g}\| \leq \tau \\ \frac{\tau}{\|\mathbf{g}\|} \mathbf{g} & \text{if } \|\mathbf{g}\| > \tau \end{cases}$$

这里$\|\mathbf{g}\|$是梯度的全局范数（Global Gradient Norm），即将模型所有参数的梯度拼接成一个长向量后计算的L2范数。当梯度范数超过阈值$\tau$时，我们将其缩放到恰好等于$\tau$，同时保持方向不变。

flowchart LR
    subgraph 原始梯度
        G1["g = (3, 4)<br/>||g|| = 5"]
    end
    
    subgraph 按值裁剪 τ=2
        V1["g' = (2, 2)<br/>方向改变!"]
    end
    
    subgraph 按范数裁剪 τ=1
        N1["g' = (0.6, 0.8)<br/>方向不变"]
    end
    
    G1 -->|"按值裁剪"| V1
    G1 -->|"按范数裁剪"| N1
    
    style V1 fill:#ffa94d
    style N1 fill:#69db7c

为什么这种方法更受欢迎？因为它保留了梯度下降的关键信息——前进的方向。当模型站在"悬崖边"时，它仍然知道应该往哪个方向走，只是步伐更加谨慎了。

graph TD
    subgraph 损失景观俯视图
        A["."] --> B["."]
        B --> C["."]
        C --> D["Optimal"]
        A -.->|"原始梯度<br/>方向+大小"| D
        A ==>|"按范数裁剪<br/>方向不变，大小受限"| E["沿正确方向<br/>小步前进"]
        A ~~~|"按值裁剪<br/>方向改变"| F["偏离正确方向"]
    end
    
    style D fill:#51cf66
    style E fill:#69db7c
    style F fill:#ffa94d

为什么默认阈值是1？

如果你翻阅PyTorch、TensorFlow等主流框架的文档和教程，会发现梯度裁剪的默认阈值几乎都是1。这并非巧合，也不仅仅是"复制粘贴"的结果。2025年1月，苏剑林在科学空间发表了一篇深入分析文章，揭示了背后的数学原理。

考虑梯度下降的参数更新：

$$\theta_{t+1} = \theta_t - \eta \mathbf{g}_t$$

损失函数的变化量可以近似为：

$$\Delta \mathcal{L} \approx -\eta \|\mathbf{g}_t\|^2$$

这说明损失的变化量与梯度模长的平方成正比。对于一个能够正常收敛的模型，每步的损失下降量通常应该小于学习率$\eta$，即$|\Delta \mathcal{L}| < \eta$。由此可以推导出$\|\mathbf{g}_t\| < 1$。

换句话说，$\|\mathbf{g}_t\| < 1$是一个能正常收敛的模型的长期表现。如果梯度模长持续远大于1，说明训练过程不够平稳，模型可能正在"激进"地进行更新，这往往会导致收敛到较差的局部最优。

graph LR
    A["正常收敛的模型"] --> B["||g|| < 1"]
    B --> C["损失平稳下降"]
    
    D["梯度模长持续 > 1"] --> E["训练不稳定"]
    E --> F["可能收敛到较差解"]
    
    style B fill:#69db7c
    style D fill:#ff6b6b
    style E fill:#ffa94d

这个解释得到了实验数据的支持。在Giles Thomas的LLM训练实验中，当设置裁剪阈值为1时，几乎每个训练步骤都在进行裁剪，这说明实际梯度范数通常在1-3之间。当阈值调整到3.5时，裁剪不再频繁触发，训练过程更加平稳。

梯度裁剪为何能加速训练

传统观点认为，梯度裁剪只是一种"安全机制"，防止训练崩溃。但2020年MIT发表在ICLR上的一篇满分论文《Why gradient clipping accelerates training: A theoretical justification for adaptivity》提出了一个更深刻的解释。

论文的核心洞察是：传统的Lipschitz光滑性假设在许多实际问题中并不成立。传统理论假设损失函数满足：

$$\|\nabla f(\theta + \Delta\theta) - \nabla f(\theta)\| \leq L\|\Delta\theta\|$$

但作者通过实验发现，损失函数的光滑程度实际上与梯度模长呈线性相关关系。基于这一观察，他们提出了一个更宽松的假设——(L₀, L₁)-smooth条件：

$$\|\nabla f(\theta + \Delta\theta) - \nabla f(\theta)\| \leq (L_0 + L_1\|\nabla f(\theta)\|)\|\Delta\theta\|$$

graph TD
    subgraph 传统假设 L-smooth
        A1["光滑程度恒定 = L"] --> B1["最优学习率 = 1/L"]
    end
    
    subgraph MIT发现 L0,L1-smooth
        A2["光滑程度随梯度变化"] --> B2["最优学习率 = 1/(L0 + L1||g||)"]
        B2 --> C2["自然导出梯度裁剪形式!"]
    end
    
    style C2 fill:#69db7c

在这个新假设下，最优学习率变为：

$$\eta^* = \frac{1}{L_0 + L_1\|\nabla f(\theta)\|}$$

这恰恰导出了梯度裁剪的形式！更重要的是，论文证明了在这种条件下，使用梯度裁剪可以保证每一步都使损失下降，从而加速收敛。

这篇论文揭示了一个重要事实：梯度裁剪不仅仅是一个"补丁"，它在理论上具有加速训练的能力，特别是在损失景观存在"悬崖"的情况下。

在大模型训练中的实际应用

梯度裁剪在现代大语言模型训练中已经成为标准配置。在PyTorch中，使用torch.nn.utils.clip_grad_norm_函数：

loss.backward()
torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)
optimizer.step()

但实际应用中，有几个关键细节值得注意。

与自动混合精度的配合

现代大模型训练几乎都会使用自动混合精度（AMP）来加速训练和节省显存。但AMP与梯度裁剪的配合需要特别注意顺序：

with torch.amp.autocast(device_type='cuda', dtype=torch.float16):
    logits = model(inputs)
    loss = criterion(logits, targets)
scaler.scale(loss).backward()
scaler.unscale_(optimizer)  # 必须先unscale
torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)
scaler.step(optimizer)
scaler.update()

sequenceDiagram
    participant F as Forward Pass
    participant B as Backward Pass
    participant S as GradScaler
    participant C as Clip Grad Norm
    participant O as Optimizer Step
    
    F->>B: 计算损失
    B->>S: scale(loss).backward()
    S->>S: 梯度自动缩放
    S->>C: unscale_(optimizer)
    Note over C: 恢复真实梯度值
    C->>C: clip_grad_norm_(max_norm=1.0)
    C->>O: scaler.step(optimizer)
    O->>S: scaler.update()

关键点在于：梯度裁剪必须在unscale_之后、step之前进行。这是因为AMP会自动缩放梯度以防止FP16下的数值下溢，而裁剪需要基于真实的梯度值进行判断。

处理无穷梯度和NaN

当梯度出现无穷大或NaN时，PyTorch的clip_grad_norm_函数默认会返回这些非有限值，而不是抛出错误。这可能导致模型参数被污染。

有趣的是，当使用AMP时，GradScaler会自动检测非有限梯度并跳过优化步骤。这解释了一个看似奇怪的现象：即使出现梯度爆炸，使用AMP的训练有时仍能继续——因为scaler在默默"保护"着模型。

对于更严谨的处理，可以设置error_if_nonfinite=True，让系统在遇到非有限梯度时抛出异常：

torch.nn.utils.clip_grad_norm_(
    model.parameters(), 
    max_norm=1.0,
    error_if_nonfinite=True
)

阈值选择的实践经验

虽然默认阈值1在许多情况下表现良好，但并非放之四海而皆准。在实践中，阈值选择需要考虑以下因素：

mindmap
  root((梯度裁剪阈值))
    模型规模
      参数量越大
      梯度范数通常越大
      需要适当提高阈值
    批量大小
      大批量训练
      梯度更稳定
      可提高阈值
    学习率
      学习率越大
      裁剪需求越迫切
      可能需要降低阈值
    实践方法
      先观察梯度分布
      用99分位数或最大值
      作为阈值参考

模型规模：参数量越大，梯度范数通常越大，可能需要相应提高阈值
批量大小：大批量训练时，梯度通常更稳定，可以考虑提高阈值
学习率：学习率越大，对梯度裁剪的需求越迫切

一个实用的做法是：在正式训练前，先用一小部分数据跑几个step，观察梯度范数的分布，然后根据分布的99分位数或最大值来设置阈值。

潜在问题与陷阱

尽管梯度裁剪是防止训练崩溃的有效手段，但它并非没有代价。

信息损失

当频繁触发梯度裁剪时，模型实际上在"压抑"自己的学习意愿。梯度的大小本身携带了关于损失景观曲率的信息——梯度大通常意味着该区域比较"陡峭"，需要更谨慎的探索。一刀切地裁剪可能会丢失这些信息。

方向偏置

虽然按范数裁剪保持了梯度方向，但频繁的缩放实际上相当于在动态调整学习率。对于Adam等自适应优化器，这可能与优化器内部的适应性机制产生冲突。

欠拟合风险

如果裁剪阈值设置过低，模型可能无法进行足够大的参数更新来跳出局部最优。在某些任务上，过度的梯度裁剪会导致欠拟合。

graph LR
    subgraph 梯度裁剪的代价
        A[信息损失] --> A1[丢失曲率信息]
        B[方向偏置] --> B1[与Adam冲突]
        C[欠拟合风险] --> C1[难以跳出局部最优]
    end
    
    style A1 fill:#ffa94d
    style B1 fill:#ffa94d
    style C1 fill:#ffa94d

自适应梯度裁剪的最新进展

为了解决固定阈值的局限性，研究者们提出了多种自适应梯度裁剪方法。

AutoClip

2020年提出的AutoClip方法通过监控训练过程中梯度范数的历史分布，自动选择合适的裁剪阈值。具体来说，它维护一个梯度范数的滑动窗口，并使用历史数据的某个分位数（如75%）作为阈值。这样，阈值会随着训练进程自动调整。

StableAdamW

2022年提出的StableAdamW将Adafactor的更新裁剪机制引入AdamW。它不是直接裁剪梯度，而是在优化器内部对参数更新进行裁剪。这种方法被证明在大型视觉-语言模型训练中优于传统的梯度裁剪，同时避免了需要手动设置裁剪阈值的问题。

AdaGC

2025年提出的AdaGC（Adaptive Gradient Clipping）进一步细化了自适应策略，针对不同参数使用不同的裁剪阈值。通过指数移动平均跟踪每个参数的梯度统计量，实现了参数级别的自适应裁剪。

timeline
    title 梯度裁剪技术演进
    2012 : Pascanu等提出梯度裁剪<br/>解决RNN梯度爆炸
    2020 : Zhang等(MIT)证明<br/>裁剪可加速训练
    2020 : AutoClip提出<br/>自适应阈值选择
    2022 : StableAdamW将裁剪<br/>集成到优化器
    2025 : AdaGC实现<br/>参数级自适应裁剪

实践建议

基于以上分析，以下是使用梯度裁剪的实践建议：

基础设置：对于大多数任务，从阈值1开始是一个合理的起点。监控训练过程中的梯度范数分布，确保裁剪不会过于频繁（理想情况下，裁剪触发率应该在10%以下）。

调整策略：如果发现梯度范数持续大于阈值，首先检查数据是否存在异常样本、学习率是否过大。梯度裁剪应该作为最后的防线，而不是掩盖其他问题的手段。

与优化器配合：对于Adam等自适应优化器，梯度裁剪的作用可能不如SGD明显，因为优化器本身已经具有一定的适应性。在这种情况下，可以考虑使用StableAdamW等内置裁剪机制的优化器。

监控和日志：始终记录梯度范数的统计信息（最大值、平均值、裁剪触发率），这有助于诊断训练问题。如果发现梯度范数出现周期性波动，可能需要检查学习率调度策略。

分布式训练注意：在多GPU分布式训练中，梯度裁剪应该在梯度同步之后、优化器步骤之前进行。PyTorch的DDP会自动处理梯度平均，但裁剪需要显式调用。

flowchart TD
    A[开始训练] --> B{监控梯度范数}
    B --> C{裁剪触发率 > 10%?}
    C -->|是| D[检查数据和学习率]
    D --> E{问题存在?}
    E -->|是| F[修复根本问题]
    E -->|否| G[适当提高阈值]
    C -->|否| H[继续训练]
    F --> B
    G --> B
    H --> I[训练完成]
    
    style D fill:#74c0fc
    style F fill:#69db7c
    style I fill:#51cf66

结语

梯度裁剪看似是一个简单的技巧——几行代码就能实现，但它背后蕴含着深刻的数学原理和工程智慧。从2012年RNN时代的"救命稻草"，到今天Transformer大模型的标配组件，它见证了深度学习从"脆弱"走向"稳定"的历程。

理解梯度裁剪，本质上是理解深度学习的优化动力学。当损失景观存在悬崖峭壁时，我们需要的不是盲目的勇气（大步前进），而是谨慎的探索（控制步伐）。梯度裁剪正是这种谨慎的数学表达——它让模型知道何时该放慢脚步，避免因为一时的"冲动"而前功尽弃。

在深度学习日益追求规模的今天，训练稳定性变得愈发重要。梯度裁剪作为一个成熟的解决方案，必将继续在未来的大模型训练中发挥重要作用。而随着自适应裁剪技术的发展，我们有理由期待更加智能、更加鲁棒的训练方法的出现。

参考文献

Pascanu, R., Mikolov, T., & Bengio, Y. (2013). On the difficulty of training recurrent neural networks. In International conference on machine learning (pp. 1310-1318). PMLR.
Zhang, J., He, T., Sra, S., & Jadbabaie, A. (2020). Why gradient clipping accelerates training: A theoretical justification for adaptivity. In International Conference on Learning Representations.
Seetharaman, P., Wichern, G., Venkataramani, S., & Le Roux, J. (2020). AutoClip: Adaptive gradient clipping for source separation networks. In ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 361-365). IEEE.
Wortsman, M., et al. (2022). Stable and low-precision training for large-scale vision-language models. Advances in Neural Information Processing Systems, 35, 21746-21759.
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. Chapter 8.3.4: Clipping the Gradient.
PyTorch Documentation. torch.nn.utils.clip_grad_norm_. https://pytorch.org/docs/stable/generated/torch.nn.utils.clip_grad_norm_.html
苏剑林. (2025). 为什么梯度裁剪的默认模长是1？科学空间. https://spaces.ac.cn/archives/10657
苏剑林. (2020). 为什么梯度裁剪能加速训练过程？一个简明的分析. 科学空间. https://kexue.fm/archives/7469
Thomas, G. (2026). Writing an LLM from scratch, part 32b – Interventions: gradient clipping. https://www.gilesthomas.com/2026/02/llm-from-scratch-32b-interventions-gradient-clipping
NVIDIA. Mixed Precision Training Documentation. https://docs.nvidia.com/deeplearning/performance/mixed-precision-training/

从一个训练事故说起#

梯度爆炸的数学本质#

梯度裁剪的两种方法#

按值裁剪（Clipping by Value）#

按范数裁剪（Clipping by Norm）#

为什么默认阈值是1？#

梯度裁剪为何能加速训练#

在大模型训练中的实际应用#

与自动混合精度的配合#

处理无穷梯度和NaN#

阈值选择的实践经验#

潜在问题与陷阱#

信息损失#

方向偏置#

欠拟合风险#

自适应梯度裁剪的最新进展#

AutoClip#

StableAdamW#

AdaGC#

实践建议#

结语#

参考文献#

更多精彩内容

大模型为何普遍选择AdamW而非SGD：从自适应学习率到解耦权重衰减的技术解析

梯度累积真的能模拟大批量训练吗？从数学等价性到隐性成本的完整解析

梯度下降优化器：从SGD到AdamW，为什么这个选择能决定模型的命运

Batch Size的选择：为什么这个超参数能决定模型的生死

权重初始化：为什么一行代码能决定神经网络的生死