Softmax的数值稳定性：为什么一行简单的代码能让训练崩溃

你花了数天清洗数据，精心调参，终于启动了训练。Loss曲线漂亮地下降，一切似乎都很顺利。突然，屏幕上跳出一个刺眼的 nan——整个训练过程在瞬间崩溃。

这不是什么罕见的意外。在深度学习的生产环境中，数值稳定性问题是导致训练失败的头号杀手之一。而其中最隐蔽、最容易被忽视的，正是那个看似再简单不过的函数：Softmax。

从直觉上讲，Softmax确实极其简单：把一组数字转换成概率分布，确保所有值都在 $[0, 1]$ 之间且总和为 $1$。代码写出来也不过几行：

def softmax(x):
    return np.exp(x) / np.sum(np.exp(x))

然而，就是这个看似"不可能出错"的函数，在真实的大规模训练中却频繁制造灾难。理解其中的根本原因，不仅能帮助你写出更健壮的代码，更能让你深入理解现代深度学习框架的底层设计哲学。

浮点数的物理边界

要理解Softmax的问题，必须先回到更基础的问题：计算机如何表示数字。

在数学的世界里，实数可以无限大，也可以无限接近零。但在计算机的物理世界里，每一个数字都受到硬件的严格限制。IEEE 754标准定义了浮点数的表示方法，也定义了它们无法逾越的边界。

以最常用的FP32（单精度浮点数）为例：

graph LR
    A[FP32: 32位] --> B[符号位: 1位]
    A --> C[指数位: 8位]
    A --> D[尾数位: 23位]
    
    B --> E[决定正负]
    C --> F[决定范围<br/>约 ±3.4×10³⁸]
    D --> G[决定精度<br/>约7位有效数字]

FP32能表示的最大有限值约为 $1.8 \times 10^{308}$，最小正数约为 $1.2 \times 10^{-38}$。当计算结果超过这个范围时，就会发生溢出，结果变成 inf；当结果太小时，就会发生下溢，结果变成 0。

这两个问题看起来对称，但危害程度截然不同。

溢出的后果是灾难性的：一旦出现 inf，任何后续运算都可能产生 nan（比如 inf - inf = nan）。而 nan 具有"传染性"——任何与 nan 的运算结果都是 nan，它会迅速污染整个神经网络的参数。

下溢则相对温和：0 至少还是一个合法的数字，后续运算可以继续进行，只是损失了精度。但在某些场景下，下溢同样会引发连锁反应。

Softmax的溢出陷阱

现在回到Softmax。标准定义如下：

$$\text{softmax}(x)_i = \frac{e^{x_i}}{\sum_j e^{x_j}}$$

问题出在指数函数 $e^x$ 上。这个函数的增长速度是惊人的：当 $x = 100$ 时，$e^{100} \approx 2.7 \times 10^{43}$；当 $x = 1000$ 时，$e^{1000}$ 已经是一个天文数字。

在深度学习的实践中，神经网络的输出（logits）经过若干层的矩阵乘法和非线性变换，其数值范围可能相当大。假设一个简单的场景：

import numpy as np

x = np.array([1.0, 2.0, 1000.0])  # 最后一个位置的logit特别大
np.exp(x)
# 输出: [2.71828183e+000, 7.38905610e+001,           inf]

当计算 np.sum(np.exp(x)) 时，结果是 inf。然后执行除法 inf / inf，得到 nan。整个概率分布瞬间崩溃。

flowchart TD
    A[Logits: 1.0, 2.0, 1000.0] --> B[计算exp]
    B --> C[exp结果: e^1, e^2, inf]
    C --> D[求和: inf]
    D --> E[归一化: inf/inf]
    E --> F[结果: nan]
    
    style F fill:#ff6b6b

这不是一个理论上的担忧。在真实的Transformer训练中，logits的范数可能随着层数加深而增大；某些异常样本可能触发极端的激活值；混合精度训练中的数值表示本身就更加脆弱。任何一个环节的疏忽，都可能让训练在毫无预警的情况下崩溃。

减最大值：一个优雅的不变量

解决这个问题的方法出人意料地简单，却蕴含着深刻的数学洞察。

注意到Softmax有一个关键性质：对输入向量的所有元素加上同一个常数，输出结果不变。这个结论可以直接从数学上证明：

设 $c$ 为任意常数，则：

$$\text{softmax}(x + c)_i = \frac{e^{x_i + c}}{\sum_j e^{x_j + c}} = \frac{e^c \cdot e^{x_i}}{e^c \sum_j e^{x_j}} = \frac{e^{x_i}}{\sum_j e^{x_j}} = \text{softmax}(x)_i$$

这个性质的几何直觉是：概率分布只关心相对大小，不关心绝对位置。就像两座山的高度差是100米，无论它们的基准海拔是0米还是1000米，这个差值都不会改变。

利用这个不变量，可以选择一个特定的 $c$：让 $c = -\max(x)$，即减去输入向量中的最大值。这样做的效果是：

减去最大值后，至少有一个元素变成了 $0$（原来的最大值）
所有其他元素都变成了负数或零
指数函数 $e^x$ 对于负数输入永远不会溢出（因为 $e^x$ 的最大值是 $1$）
至少有一个指数值是 $e^0 = 1$，保证了分母至少为 $1$，避免了除零

这就得到了所谓的 Safe Softmax：

$$\text{softmax}(x)_i = \frac{e^{x_i - \max(x)}}{\sum_j e^{x_j - \max(x)}}$$

代码实现同样简洁：

def safe_softmax(x):
    x_max = np.max(x)
    exp_x = np.exp(x - x_max)
    return exp_x / np.sum(exp_x)

flowchart TD
    A[Logits: 1.0, 2.0, 1000.0] --> B[减去最大值1000]
    B --> C[结果: -999, -998, 0]
    C --> D[计算exp]
    D --> E[exp结果: ≈0, ≈0, 1]
    E --> F[归一化]
    F --> G[结果: 0, 0, 1]
    
    style G fill:#51cf66

现在，即使面对极端输入：

x = np.array([1.0, 2.0, 1000.0])
safe_softmax(x)
# 输出: [0., 0., 1.]

虽然结果不够精确（前两个位置因为下溢变成了0），但至少是一个合法的概率分布，训练可以继续进行。在某些场景下，这种"极端但合法"的结果甚至是预期的：当某个类别的logit远大于其他类别时，模型应该对该类别有接近100%的置信度。

下溢的隐忧

解决了溢出，并不意味着问题全部解决。下溢同样会制造麻烦，只是更隐蔽。

当所有输入值都非常小（比如 $x = [-1000, -1001, -1002]$），减去最大值后得到 $[0, -1, -2]$，指数化后得到 $[1, e^{-1}, e^{-2}] \approx [1, 0.37, 0.14]$，一切正常。

但当输入值都非常大且接近时（比如 $x = [10000, 10001, 10002]$），减去最大值后得到 $[0, 1, 2]$，指数化后得到 $[1, e, e^2]$。这时所有值都是合法的正数，看起来没有问题。

真正的问题出现在另一种情况：当输入值都非常负时。假设 $x = [-1000, -1001, -1002]$：

x = np.array([-1000, -1001, -1002])
safe_softmax(x)
# 输出: [1., 0., 0.]

问题在于，所有的 $e^{x_i - \max(x)}$ 都可能下溢为0，只是我们至少有一个1，所以分母至少是1。但如果因为数值精度问题导致本该是1的值也发生了问题呢？

这种情况在FP16等低精度格式中更为严重。FP16的动态范围比FP32小得多：最大值只有 65504，最小正数约为 $6 \times 10^{-5}$。这意味着在FP16训练中，数值稳定性问题会成倍放大。

graph TD
    A[FP32动态范围] --> B[约 10^-38 到 10^38]
    C[FP16动态范围] --> D[约 6×10^-5 到 6.5×10^4]
    
    B --> E[覆盖Softmax的大部分场景]
    D --> F[极易溢出或下溢]
    
    E --> G[训练相对稳定]
    F --> H[需要额外保护机制]
    
    style H fill:#ffd43b

交叉熵：为什么要合并计算

在分类任务中，Softmax的输出通常直接喂给交叉熵损失函数。标准形式是：

$$L = -\log(\text{softmax}(\hat{y})_y)$$

其中 $\hat{y}$ 是模型的logits输出，$y$ 是正确类别的索引。

如果分开计算，会经过两个步骤：

先计算 $p = \text{softmax}(\hat{y})$
再计算 $-\log(p_y)$

这看似合理，却埋下了一个隐患。考虑这样一个场景：正确类别的logit远小于其他类别。比如 $\hat{y} = [1000, 0]$，$y = 1$（第二个类别是正确答案）。

计算Softmax：

$\text{softmax}([1000, 0]) = [1.0, 0.0]$（因为 $e^{1000}$ 完全压制了 $e^0$）

然后计算交叉熵：

$-\log(0) = \text{inf}$

log(0) 是未定义的，在浮点数运算中返回负无穷。训练再次崩溃。

sequenceDiagram
    participant Logits
    participant Softmax
    participant CrossEntropy
    participant Result
    
    Logits->>Softmax: [1000, 0]
    Softmax->>CrossEntropy: [1.0, 0.0]
    CrossEntropy->>Result: -log(0) = inf
    Note over Result: 训练崩溃
    
    rect rgb(200, 230, 200)
        Note over Logits,CrossEntropy: 融合计算路径
        Logits->>CrossEntropy: 直接传入logits
        CrossEntropy->>Result: 2000.0 (稳定)
    end

解决方案是直接从logits计算对数概率，跳过中间的Softmax步骤。这就是 Log-Softmax：

$$\log(\text{softmax}(x)_i) = x_i - \max(x) - \log\left(\sum_j e^{x_j - \max(x)}\right)$$

这个形式的关键优势是：分母中的求和至少为 $e^0 = 1$（因为至少有一个元素减去最大值后是0），所以对数运算永远不会遇到 $\log(0)$ 的问题。

现代深度学习框架（PyTorch、TensorFlow等）都提供了 cross_entropy 或 nll_loss 函数，它们在内部完成了这种融合计算。用户只需要传入原始的logits，框架会自动处理所有的数值稳定性问题。

# 正确做法：使用框架提供的融合函数
import torch.nn.functional as F
loss = F.cross_entropy(logits, target)  # 直接传入logits

# 错误做法：分开计算
probs = F.softmax(logits, dim=-1)  # 数值不稳定
loss = F.nll_loss(torch.log(probs), target)  # 可能在log(0)处崩溃

Log-Sum-Exp：一个通用的稳定技巧

从Log-Softmax的推导中，可以抽象出一个更通用的技术：Log-Sum-Exp（LSE）。

在很多概率模型中，需要计算如下形式：

$$\log\left(\sum_i e^{x_i}\right)$$

这个表达式直接计算同样会面临溢出问题。利用相同的技巧：

$$\log\left(\sum_i e^{x_i}\right) = \log\left(e^c \sum_i e^{x_i - c}\right) = c + \log\left(\sum_i e^{x_i - c}\right)$$

选择 $c = \max(x)$，就得到了稳定的LSE：

$$\text{LSE}(x) = \max(x) + \log\left(\sum_i e^{x_i - \max(x)}\right)$$

graph LR
    A[原始LSE] --> B[问题: 可能溢出]
    
    C[稳定LSE] --> D[减去最大值]
    D --> E[计算log]
    E --> F[加回最大值]
    
    F --> G[结果: 数值稳定]
    
    style B fill:#ff6b6b
    style G fill:#51cf66

这个函数在深度学习中无处不在：Softmax的归一化项、注意力权重的计算、变分推断中的边缘化……任何需要在对数空间进行归一化的场景，都离不开它。

PyTorch提供了 torch.logsumexp 函数，封装了这个稳定实现：

def log_softmax_stable(x):
    return x - torch.logsumexp(x, dim=-1, keepdim=True)

混合精度训练：更脆弱的世界

随着模型规模的爆炸式增长，混合精度训练（Mixed Precision Training, MPT）成为标配技术。通过将部分计算从FP32降级到FP16，可以显著减少显存占用并加速训练。但这也带来了更严峻的数值稳定性挑战。

FP16的格式是：1位符号位，5位指数位，10位尾数位。这意味着：

最大表示值：约 65504
最小正数：约 $6.1 \times 10^{-5}$

对比FP32的动态范围（约 $10^{-38}$ 到 $10^{38}$），FP16的范围被极度压缩。

一个真实的生产数据来自NVIDIA的混合精度训练文档：在Multibox SSD检测器网络的测试中，31%的梯度在转换为FP16时变成了零，只有5.3%保持非零。训练最终完全发散。

pie title FP16梯度下溢分布 (Multibox SSD案例)
    "下溢为0" : 31
    "保持非零" : 5.3
    "其他问题" : 63.7

损失缩放：FP16的救星

针对FP16训练中的梯度下溢问题，业界发展出了**损失缩放（Loss Scaling）**技术。核心思想很简单：在计算梯度之前，先将损失乘以一个大常数 $S$（比如 $2^{16} = 65536$），让梯度"放大"到FP16的安全范围内；在更新参数之前，再把梯度除以 $S$。

$$\text{scaled\_grad} = S \cdot \text{grad} = S \cdot \frac{\partial L}{\partial w} = \frac{\partial (S \cdot L)}{\partial w}$$

损失缩放有两种模式：

静态缩放：使用固定的缩放因子。优点是简单，缺点是需要针对不同模型和任务手动调优。因子太小，梯度仍可能下溢；因子太大，梯度可能溢出。

动态缩放：在训练过程中自动调整缩放因子。框架会监控梯度中是否出现溢出或下溢，并相应地增大或减小缩放因子。这是现代框架（如PyTorch AMP、NVIDIA Apex）的默认策略。

stateDiagram-v2
    [*] --> 计算损失
    计算损失 --> 缩放损失: 乘以S
    缩放损失 --> 反向传播
    反向传播 --> 检查梯度
    
    检查梯度 --> 无溢出: 正常
    检查梯度 --> 有溢出: inf/nan
    
    无溢出 --> 缩放梯度: 除以S
    有溢出 --> 跳过更新
    
    缩放梯度 --> 更新参数
    更新参数 --> [*]
    
    跳过更新 --> 减小S
    减小S --> [*]

一个关键的技术细节：损失缩放只应用于损失函数的输出，不应用于Softmax的内部计算。Safe Softmax仍然是必要的——它保护的是前向传播；损失缩放保护的是反向传播。

BF16：一个更优雅的方案

FP16的动态范围问题如此严重，以至于GPU厂商设计了一种新的格式：BF16（Brain Float 16）。

BF16的设计哲学是"牺牲精度换范围"。它保留了与FP32相同的指数位长度（8位），只压缩尾数位（从23位压缩到7位）。这意味着：

动态范围：与FP32几乎相同（约 $10^{-38}$ 到 $10^{38}$）
精度：只有约3位有效数字，远低于FP32的约7位

graph TB
    subgraph FP32格式
        A1[符号: 1位] --> B1[指数: 8位]
        B1 --> C1[尾数: 23位]
    end
    
    subgraph FP16格式
        A2[符号: 1位] --> B2[指数: 5位]
        B2 --> C2[尾数: 10位]
    end
    
    subgraph BF16格式
        A3[符号: 1位] --> B3[指数: 8位]
        B3 --> C3[尾数: 7位]
    end
    
    FP32格式 --> D[范围广，精度高]
    FP16格式 --> E[范围窄，精度中]
    BF16格式 --> F[范围广，精度低]

在Softmax场景中，BF16展现出显著优势。由于其指数位与FP32相同，前向传播中的溢出问题基本消失——只要输入在FP32的安全范围内，BF16就不会溢出。这也意味着BF16训练通常不需要损失缩放。

但BF16并非完美。降低的精度意味着数值间的微小差异可能被抹平，这在某些精细的任务中（比如概率分布需要高分辨率）可能引入偏差。业界目前的共识是：

BF16：默认选择，免调参，适合大规模训练
FP16 + Loss Scaling：当需要更高精度时选择，需要更多调参

Flash Attention：在线Softmax的工程艺术

在Transformer的训练和推理中，Softmax的数值稳定性问题还有一个特殊维度：内存墙。

标准的Softmax实现需要两步：

计算所有 $e^{x_i}$ 并求和
对每个位置进行归一化

在Self-Attention中，这要求将整个注意力矩阵（$L \times L$，$L$ 是序列长度）存储在GPU的高带宽内存（HBM）中。当 $L$ 很大时，这会成为严重的瓶颈。

Flash Attention的核心洞察是：能否逐块计算Softmax，同时保持数值稳定性？

这就是**在线Softmax（Online Softmax）**算法。核心挑战是：分母的求和需要看到所有数据，如何在不存储全部数据的情况下计算？

答案在于一个精巧的递推公式。设 $m_i = \max(x_1, ..., x_i)$，$d_i = \sum_{j=1}^{i} e^{x_j - m_i}$，有如下递推关系：

$$m_i = \max(m_{i-1}, x_i)$$$$d_i = d_{i-1} \cdot e^{m_{i-1} - m_i} + e^{x_i - m_i}$$

第二个公式的直觉是：当我们看到新的最大值时，之前的求和项需要"缩水"（乘以 $e^{m_{i-1} - m_i} < 1$），以保持与新的最大值对齐。

flowchart LR
    A[输入块1] --> B[更新m1, d1]
    B --> C[输入块2]
    C --> D[更新m2, d2]
    D --> E[输入块3]
    E --> F[更新m3, d3]
    F --> G[...]
    G --> H[最终归一化]
    
    subgraph 内存占用
        I[只需要存储:<br/>当前m, d, 和输出O]
    end

利用这个递推，Flash Attention可以在一个流式过程中完成：

初始化 $m_0 = -\infty$，$d_0 = 0$
对于每个token $i$：
- 更新 $m_i$
- 更新 $d_i$
- 计算当前token的注意力权重 $a_i = e^{x_i - m_i} / d_i$

传统方法需要三次遍历：一次计算最大值，一次计算归一化项，一次计算最终输出。Flash Attention通过巧妙的块处理（Tiling），将遍历次数降到了一次，同时将内存占用从 $O(L^2)$ 降到了 $O(L)$。

graph TD
    subgraph 传统方法
        A1[遍历1: 计算max] --> B1[遍历2: 计算sum]
        B1 --> C1[遍历3: 归一化]
        C1 --> D1[内存: O L²]
    end
    
    subgraph Flash Attention
        A2[单次遍历] --> B2[在线更新m和d]
        B2 --> C2[同步归一化]
        C2 --> D2[内存: O L]
    end
    
    D1 --> E[存储完整注意力矩阵]
    D2 --> F[只存储状态和输出]

这个算法的稳定性和正确性已经被严格证明，并在实践中验证。它不仅解决了数值稳定性问题，更让长上下文Transformer成为可能——从数千token扩展到数十万token，Softmax始终是那块必须正确铺好的基石。

最佳实践：防御性编程的清单

理解原理之后，如何在实践中避免数值陷阱？以下是一份经过验证的清单：

模型代码层面：

永远使用融合损失函数。在PyTorch中，使用 F.cross_entropy(logits, targets)，不要分开调用 F.softmax 和 F.nll_loss。框架内部已经实现了所有稳定性保护。
注意混合精度的使用方式。如果使用自动混合精度（AMP），确保损失函数在FP32中计算，然后缩放。PyTorch的 torch.cuda.amp 会自动处理。
检查Logits的范围。如果模型输出的Logits范围异常（比如经常超过100或小于-100），这可能是梯度爆炸或初始化问题的信号，需要从根源解决。

框架配置层面：

选择正确的精度格式。对于大模型训练，优先使用BF16；如果硬件不支持，使用FP16 + 动态损失缩放。
设置合理的梯度裁剪。梯度裁剪不仅能缓解梯度爆炸，还能间接保护数值稳定性。典型值是 max_grad_norm = 1.0。
监控关键指标。训练时监控：
- 损失是否出现 nan 或 inf
- 梯度的范数是否突然暴涨
- 参数中是否出现 nan

flowchart TD
    A[训练开始] --> B{Loss出现NaN?}
    B -->|是| C[排查流程]
    B -->|否| D[继续训练]
    
    C --> E[学习率是否过大?]
    E -->|是| F[降低学习率10倍]
    E -->|否| G[输入数据是否合法?]
    
    G -->|否| H[检查NaN/极端值]
    G -->|是| I[损失函数是否融合?]
    
    I -->|否| J[使用融合函数]
    I -->|是| K[检查梯度范数]
    
    K --> L{梯度爆炸?}
    L -->|是| M[启用梯度裁剪]
    L -->|否| N[检查特定层Logits范围]
    
    F --> D
    H --> D
    J --> D
    M --> D
    N --> D

调试技巧：

如果训练出现 nan，按以下顺序排查：

学习率是否过大：尝试降低10倍
输入数据是否合法：检查是否有 nan 或极端值
损失函数是否正确：确认使用了融合版本
梯度是否爆炸：检查各层梯度的范数
特定层是否脆弱：在Softmax之前打印Logits的范围

写在最后

Softmax的数值稳定性问题，看似是一个简单的技术细节，实则是深度学习工程化过程中必须跨越的门槛。从理解浮点数的物理限制，到掌握Safe Softmax和Log-Sum-Exp技巧，再到深入Flash Attention的在线算法——这条技术链条连接了理论数学与工程实践。

现代深度学习框架在内部已经处理好了这些问题，让开发者可以专注于模型架构和业务逻辑。但理解这些底层机制的价值在于：

当框架的默认行为不够用时，你知道如何正确实现
当训练出现问题时，你知道从哪里开始排查
当需要优化性能时，你理解各种技术选择的权衡

数值计算的世界没有完美的解决方案，只有在特定约束下的最佳权衡。Safe Softmax牺牲了极端场景的精度，换取了普适的稳定性；BF16牺牲了精度，换取了更宽的动态范围；Flash Attention牺牲了一些计算效率，换取了内存效率。理解这些权衡的本质，才能在面对新的挑战时，做出正确的工程决策。

浮点数的物理边界#

Softmax的溢出陷阱#

减最大值：一个优雅的不变量#

下溢的隐忧#

交叉熵：为什么要合并计算#

Log-Sum-Exp：一个通用的稳定技巧#

混合精度训练：更脆弱的世界#

损失缩放：FP16的救星#

BF16：一个更优雅的方案#

Flash Attention：在线Softmax的工程艺术#

最佳实践：防御性编程的清单#

写在最后#

更多精彩内容

浮点数的深渊：深度学习数值稳定性的完整解析

Softmax的数值稳定性问题：从溢出下溢到Log-Sum-Exp技巧的完整解析

BF16为何正在取代FP16成为大模型训练的标准格式从动态范围陷阱到损失缩放的技术突围

浮点数为何会撒谎？从0.1+0.2不等于0.3到导弹拦截失败的技术真相

损失函数全景解析：从MSE到Focal Loss，如何为不同任务选择正确的优化目标