模型训练调试：从损失不下降到梯度爆炸的完整诊断指南

你花了三天时间设计了一个"完美"的神经网络架构，数据集准备好了，训练脚本也写好了。点击运行，满怀期待地盯着终端输出…

Epoch 1/100 - Loss: 2.3025
Epoch 2/100 - Loss: 2.3018
Epoch 3/100 - Loss: 2.3019
Epoch 4/100 - Loss: 2.3021
...

损失纹丝不动。或者更糟糕：

Epoch 47/100 - Loss: 0.3521
Epoch 48/100 - Loss: nan

这是每一个深度学习工程师都经历过的噩梦。与传统软件不同，神经网络的失败往往不是"崩溃"而是"不工作"——代码运行正常，但模型拒绝学习。

本文将系统性地梳理神经网络训练调试的方法论，从损失曲线诊断到梯度检查，帮助你快速定位问题根源。

一、损失曲线诊断：训练失败的第一信号

损失曲线是神经网络健康的"心电图"。不同的问题会在曲线上留下不同的痕迹。

1.1 损失不下降的六大原因

当损失值在高点停滞不动时，问题通常出在以下几个环节：

原因一：学习率设置不当

学习率过高会导致参数在最优解附近剧烈震荡，无法收敛；学习率过低则会使收敛速度极其缓慢。Karpathy在他的训练指南中建议，权重更新与权重的比值应该保持在10^-3左右：

update_ratio = ||Δw|| / ||w|| ≈ 10^-3

如果这个比值太大（>10^-2），说明学习率过高；如果太小（<10^-5），说明学习率过低。

原因二：数据未归一化

当输入特征的量级差异很大时（比如一个特征在0-1之间，另一个在0-10000之间），损失曲面会变得极其陡峭和不均匀，导致梯度下降难以找到最优解。

原因三：网络架构问题

模型可能过于简单（欠拟合）或者存在设计缺陷。一个常见的错误是在softmax层之前添加了激活函数，导致输出范围受限。

原因四：权重初始化不当

全零初始化会导致所有神经元学习相同的特征。不当的初始化还可能导致梯度消失或爆炸，使网络无法有效训练。

原因五：数据标签错误

这听起来很荒谬，但研究表明，即使标签完全随机，使用MSE损失的网络也能训练到损失接近零。这意味着你的模型可能正在"记忆"错误的模式。

原因六：激活函数选择不当

Sigmoid和tanh函数在深层网络中容易导致梯度消失。ReLU及其变体（Leaky ReLU、GELU）通常是更好的选择。

1.2 损失震荡的成因与对策

损失曲线呈现锯齿状波动，通常有以下原因：

flowchart TD
    A[损失震荡] --> B{震荡特征}
    B --> C[高频小幅度]
    B --> D[低频大幅度]
    C --> E[batch size太小]
    C --> F[学习率稍高]
    D --> G[学习率过高]
    D --> H[数据分布不均]
    E --> I[增大batch size]
    F --> J[降低学习率]
    G --> K[显著降低学习率]
    H --> L[shuffle训练数据]

batch size的影响：较小的batch size会引入更多梯度噪声，这在某些情况下有益于泛化，但过小的batch（如小于16）配合BatchNorm层时会导致性能下降。研究表明，当batch size小于16时，BatchNorm计算的批统计量无法很好地代表整体数据分布。

数据shuffle的必要性：如果训练数据按类别顺序排列且未打乱，模型会学习数据的排列顺序而非特征本身。每个epoch都应该重新打乱数据。

1.3 损失突然变为NaN的紧急诊断

NaN是训练崩溃的最严重信号。根据出现时机，诊断策略不同：

flowchart TD
    A[Loss出现NaN] --> B{出现时机}
    B -->|训练初期<br/>100轮内| C[学习率过高]
    B -->|训练中期| D{检查项目}
    D --> E[梯度爆炸]
    D --> F[损失函数<br/>log0问题]
    D --> G[数据异常值]
    D --> H[混合精度<br/>数值溢出]
    C --> I[降低学习率<br/>1-10倍]
    E --> J[梯度裁剪]
    F --> K[添加epsilon]
    G --> L[清洗数据]
    H --> M[切换BF16或<br/>调整Loss Scale]

训练初期（100轮迭代内）出现NaN

最可能的原因是学习率过高。解决方案：将学习率降低1-10倍。例如，如果当前学习率是0.01，尝试0.001或0.0001。

训练中期突然出现NaN

可能的原因：

梯度爆炸
损失函数计算中出现log(0)或除以零
数据中存在异常值（NaN、Inf）
混合精度训练中的数值溢出

诊断步骤：

# 方法一：检查输入数据
print(torch.isnan(inputs).any(), torch.isinf(inputs).any())

# 方法二：检查梯度
for name, param in model.named_parameters():
    if param.grad is not None:
        if torch.isnan(param.grad).any():
            print(f"NaN gradient in {name}")

# 方法三：使用PyTorch Lightning的NaN捕获回调
class NaNCapture(pl.Callback):
    def on_train_batch_end(self, trainer, pl_module, outputs, batch, batch_idx):
        if torch.isnan(outputs['loss']):
            print(f"NaN detected at batch {batch_idx}")
            # 保存诊断信息

log(0)问题的解决：在交叉熵等涉及对数的损失函数中，添加一个小的epsilon：

loss = -torch.log(prob + 1e-8)  # 防止log(0)

二、梯度问题诊断：神经网络的生命线

梯度是神经网络学习的唯一途径。梯度问题本质上分为两类：太小（消失）或太大（爆炸）。

2.1 梯度消失：当网络忘记如何学习

梯度消失发生在反向传播过程中，梯度随着层数增加而指数级衰减。

数学本质：考虑一个深度网络，第l层的梯度：

$$\frac{\partial L}{\partial W_l} = \frac{\partial L}{\partial a_L} \cdot \prod_{i=l}^{L-1} \frac{\partial a_{i+1}}{\partial a_i}$$

如果每项乘积都小于1，经过多层累积后，梯度会趋近于零。

检测方法：

for name, param in model.named_parameters():
    if param.grad is not None:
        grad_norm = param.grad.norm().item()
        print(f"{name}: grad_norm = {grad_norm}")

如果发现靠近输入层的梯度范数明显小于输出层，说明存在梯度消失。

解决方案：

使用ReLU替代Sigmoid：Sigmoid的导数最大值仅为0.25，而ReLU在正区间的导数恒为1。
添加残差连接：残差网络通过跳跃连接提供了一条梯度"高速公路"。
使用BatchNorm/LayerNorm：归一化层可以稳定每层的输入分布，缓解梯度消失。
合适的权重初始化：Xavier初始化（适用于tanh）和He初始化（适用于ReLU）根据层的维度调整初始化范围。

2.2 梯度爆炸：失控的学习信号

梯度爆炸是梯度消失的镜像问题——梯度在反向传播过程中指数级增长。

表现特征：

损失突然变为NaN或Inf
损失曲线出现剧烈尖峰
权重值变得极大

检测方法：监控全局梯度范数

total_norm = 0
for p in model.parameters():
    if p.grad is not None:
        total_norm += p.grad.data.norm(2).item() ** 2
total_norm = total_norm ** 0.5
print(f"Global gradient norm: {total_norm}")

解决方案一：梯度裁剪

梯度裁剪是最直接的解决方案。有两种主要方法：

flowchart LR
    A[梯度裁剪] --> B[按值裁剪]
    A --> C[按范数裁剪]
    B --> D["clip_by_value: 每个元素独立限制到[-v, v]"]
    C --> E["clip_by_norm: 保持方向，缩放整体梯度"]
    D --> F[可能改变梯度方向]
    E --> G[保持梯度方向不变]

按值裁剪：将每个梯度元素限制在[-v, v]范围内

torch.nn.utils.clip_grad_value_(model.parameters(), clip_value=1.0)

按范数裁剪：保持梯度方向，只缩放大小

torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)

按范数裁剪通常更优，因为它保持了梯度的方向信息。当梯度范数超过阈值时，梯度被缩放到阈值大小：

$$g' = g \cdot \frac{max\_norm}{||g||}$$

阈值选择建议：

Transformer模型常用1.0
RNN/LSTM常用5.0
建议先运行几个epoch观察梯度范数分布，将阈值设在75-90分位数

解决方案二：降低学习率

如果梯度爆炸频繁发生，可能是学习率过高与梯度裁剪配合不当。

解决方案三：权重正则化

添加L2正则化可以限制权重的增长：

optimizer = torch.optim.Adam(model.parameters(), lr=0.001, weight_decay=1e-4)

2.3 梯度的数值验证

当你怀疑自动微分实现有误时，可以使用数值方法验证梯度：

$$\frac{\partial f}{\partial x} \approx \frac{f(x+h) - f(x-h)}{2h}$$

使用中心差分而非前向差分，因为中心差分的误差是O(h²)，而前向差分是O(h)。

def numerical_gradient(model, loss_fn, x, y, h=1e-5):
    grads = {}
    for name, param in model.named_parameters():
        param_flat = param.data.view(-1)
        grad_numerical = torch.zeros_like(param_flat)
        
        for i in range(len(param_flat)):
            old_val = param_flat[i].item()
            
            param_flat[i] = old_val + h
            loss_plus = loss_fn(model(x), y).item()
            
            param_flat[i] = old_val - h
            loss_minus = loss_fn(model(x), y).item()
            
            grad_numerical[i] = (loss_plus - loss_minus) / (2 * h)
            param_flat[i] = old_val
        
        grads[name] = grad_numerical.view(param.shape)
    
    return grads

比较数值梯度和自动微分梯度：

relative_error = ||grad_auto - grad_numerical|| / (||grad_auto|| + ||grad_numerical||)

如果相对误差大于10^-4，可能存在梯度计算问题。

三、学习率诊断：训练速度与稳定性的平衡

学习率是影响训练效果最敏感的超参数。

3.1 学习率过高与过低的表现

flowchart TD
    subgraph 学习率过高
        A1[损失震荡剧烈]
        A2[损失突然变为NaN]
        A3[损失不下降甚至上升]
    end
    
    subgraph 学习率适中
        B1[损失稳定下降]
        B2[验证损失同步下降]
        B3[最终收敛到较低值]
    end
    
    subgraph 学习率过低
        C1[损失下降极其缓慢]
        C2[可能陷入局部最优]
        C3[训练时间大幅增加]
    end

学习率过高的症状：

损失曲线剧烈震荡
损失值不减反增
训练早期就出现NaN

学习率过低的症状：

损失曲线下降极其平缓
可能陷入局部最优
训练收敛需要极长时间

3.2 学习率预热的作用

学习率预热（Warmup）是Transformer等大模型训练中的标配技术。它的作用是：

解决训练初期的不稳定性：在训练开始时，权重是随机初始化的，模型输出是随机的。如果直接使用较大的学习率，梯度可能会非常大，导致不稳定的更新。

预热策略：

线性预热：学习率从0线性增加到目标值
预热步数：通常是总步数的1-10%

def get_lr_with_warmup(step, warmup_steps, max_lr):
    if step < warmup_steps:
        return max_lr * step / warmup_steps
    return max_lr

为什么Adam需要预热？ Adam的二阶矩估计在训练初期不稳定，预热可以让估计更准确。

3.3 学习率调度的选择

常见的学习率调度策略：

策略	特点	适用场景
Step Decay	每隔N步降低学习率	传统CNN训练
Cosine Annealing	按余弦函数衰减	Transformer、大模型
Linear Decay	线性衰减到0	预训练
One-Cycle	先增后减	快速实验

Cosine Annealing的实现：

def cosine_annealing_lr(step, total_steps, max_lr, min_lr=0):
    return min_lr + 0.5 * (max_lr - min_lr) * (1 + math.cos(math.pi * step / total_steps))

四、模型容量诊断：过拟合与欠拟合

4.1 通过损失曲线识别拟合状态

flowchart LR
    subgraph 欠拟合
        direction TB
        U1[训练损失高]
        U2[验证损失高]
        U3[两者差距小]
    end
    
    subgraph 过拟合
        direction TB
        O1[训练损失低]
        O2[验证损失高]
        O3[验证损失开始上升]
    end
    
    subgraph 理想拟合
        direction TB
        I1[训练损失低]
        I2[验证损失低]
        I3[两者差距小]
    end

欠拟合的诊断：

训练损失和验证损失都很高
训练准确率低
模型无法学习训练数据

过拟合的诊断：

训练损失持续下降，验证损失开始上升
训练准确率高，验证准确率低
模型"记忆"了训练数据

4.2 过拟合的解决方案

增加正则化：Dropout、L2正则化、数据增强
减少模型复杂度：减少层数或每层神经元数量
早停：在验证损失开始上升时停止训练
增加训练数据：更多数据是最好的正则化

Dropout的正确使用：

Dropout应该放在BatchNorm之后，而非之前
评估时必须关闭Dropout
卷积层中Dropout率应该较小（0.1-0.2）

4.3 欠拟合的解决方案

增加模型复杂度：更多层、更多神经元
减少正则化强度：降低Dropout率、减少权重衰减
延长训练时间
检查数据和特征：确保输入特征有足够的信息量

一个重要的检查：在尝试解决欠拟合之前，先用小数据集（如10-20个样本）测试模型是否能够过拟合。如果连小数据集都无法拟合，说明模型架构或训练流程存在根本性问题。

五、数据问题诊断：垃圾进，垃圾出

数据问题是最容易被忽视但又最常见的问题来源。

5.1 数据质量检查清单

输入数据检查：

数据中是否存在NaN或Inf？
数据范围是否合理？（如像素值应在0-255或0-1之间）
数据是否已归一化？（均值接近0，标准差接近1）
类别分布是否均衡？

标签数据检查：

标签是否与样本正确对应？
标签编码是否正确？（如one-hot编码）
是否存在标签噪声？

5.2 数据预处理常见错误

归一化/标准化的必要性：

未归一化的数据会导致：

损失曲面呈现狭长的椭圆形
不同特征的学习速度差异巨大
某些特征可能主导梯度方向

推荐做法：

# 对于图像数据
mean = [0.485, 0.456, 0.406]
std = [0.229, 0.224, 0.225]
normalize = transforms.Normalize(mean=mean, std=std)

# 对于表格数据
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_normalized = scaler.fit_transform(X)

5.3 数据加载器的陷阱

Shuffle的重要性：每个epoch必须打乱训练数据。不打乱会导致：

模型学习数据的顺序模式
不同batch的统计特性差异巨大
隐式地引入偏差

batch内的标签分布：一个batch内应该包含多个类别的样本。如果某个batch全是同一类别，模型会在该batch上过度调整。

检查数据加载器：

# 检查第一个batch
for batch_x, batch_y in train_loader:
    print(f"Input shape: {batch_x.shape}")
    print(f"Input range: [{batch_x.min():.4f}, {batch_x.max():.4f}]")
    print(f"Label distribution: {torch.bincount(batch_y)}")
    break

六、其他常见问题

6.1 BatchNorm的batch size陷阱

BatchNorm在训练时计算当前batch的均值和方差。当batch size太小时，这些统计量会非常不稳定。

表现：

训练损失正常，验证/测试性能差
不同batch size导致性能差异巨大

解决方案：

对于小batch场景，使用GroupNorm或LayerNorm
如果必须使用BatchNorm，确保batch size >= 16
考虑使用SyncBatchNorm进行分布式训练

6.2 权重初始化的影响

全零初始化的灾难：

如果所有权重都初始化为零，同一层的所有神经元将学习完全相同的特征。这是因为它们的梯度完全相同，更新也完全相同。

合适的初始化策略：

# 对于ReLU激活
torch.nn.init.kaiming_normal_(layer.weight, mode='fan_out', nonlinearity='relu')

# 对于tanh/sigmoid激活
torch.nn.init.xavier_normal_(layer.weight)

# 偏置可以初始化为0
if layer.bias is not None:
    torch.nn.init.constant_(layer.bias, 0)

6.3 混合精度训练的数值问题

混合精度（FP16/BF16）训练可以显著提高训练速度和降低显存占用，但也会引入数值问题。

FP16的问题：

动态范围有限（最大约65000）
容易发生梯度下溢（小梯度变为零）
需要Loss Scaling

BF16的优势：

与FP32相同的动态范围
不需要Loss Scaling
数值更稳定

推荐做法：

# 如果硬件支持BF16，优先使用
scaler = torch.cuda.amp.GradScaler(enabled=(dtype == 'float16'))

with torch.cuda.amp.autocast(dtype=dtype):
    output = model(input)
    loss = criterion(output, target)

scaler.scale(loss).backward()
scaler.step(optimizer)
scaler.update()

6.4 分布式训练的同步问题

在使用DDP（DistributedDataParallel）进行分布式训练时，梯度同步失败会导致各GPU上的模型参数不一致。

常见问题：

某些层的梯度未被正确同步
使用gradient checkpointing时的问题
多任务损失导致的同步问题

调试建议：

先在单GPU上验证训练正常
检查是否有未使用的参数（不会被同步）
确保所有GPU使用相同的随机种子

七、调试方法论：Karpathy的训练配方

Andrej Karpathy提出的神经网络训练方法论是业界公认的最佳实践：

flowchart LR
    A[数据检查] --> B[搭建骨架]
    B --> C[过拟合小数据集]
    C --> D[逐步添加复杂度]
    D --> E[调优]
    E --> F[压榨性能]
    
    A --> A1[可视化数据]
    A --> A2[检查分布]
    A --> A3[验证增强]
    
    B --> B1[最简模型]
    B --> B2[无正则化]
    B --> B3[验证维度]
    
    C --> C1[10-20样本]
    C --> C2[应该过拟合]
    C --> C3[检查架构]

第一步：数据检查

在开始任何模型训练之前，仔细检查数据：

可视化样本和标签
检查数据分布
验证数据增强的正确性

第二步：搭建骨架

使用最简单的模型开始：

不添加任何正则化
验证损失计算正确
确保输入输出维度匹配

第三步：过拟合小数据集

使用少量数据（如10-20个样本）：

模型应该能够过拟合到零损失
如果不能，说明模型架构或数据有问题

第四步：逐步添加复杂度

在骨架工作正常后：

添加正则化（Dropout、权重衰减）
增加模型容量
引入数据增强

第五步：调优

在完整的训练集上：

调整学习率
尝试不同的优化器
实验不同的超参数组合

第六步：压榨性能

当模型工作正常后：

微调超参数
尝试模型压缩
优化推理速度

八、调试检查清单

当训练出现问题时，按以下顺序检查：

flowchart TD
    A[训练问题] --> B{损失是什么状态?}
    
    B -->|NaN/Inf| C[1. 检查学习率<br/>2. 检查数据是否有异常值<br/>3. 检查损失函数计算<br/>4. 检查混合精度设置]
    
    B -->|不下降| D[1. 检查学习率是否过小<br/>2. 检查数据归一化<br/>3. 检查网络架构<br/>4. 检查初始化]
    
    B -->|震荡| E[1. 检查学习率是否过大<br/>2. 检查batch size<br/>3. 检查数据shuffle<br/>4. 检查梯度裁剪]
    
    B -->|过拟合| F[1. 增加正则化<br/>2. 减少模型复杂度<br/>3. 使用早停<br/>4. 数据增强]
    
    B -->|欠拟合| G[1. 增加模型复杂度<br/>2. 减少正则化<br/>3. 延长训练<br/>4. 检查特征质量]

快速诊断代码：

def diagnose_training(model, train_loader, optimizer, loss_fn, device):
    model.train()
    
    # 获取一个batch
    batch_x, batch_y = next(iter(train_loader))
    batch_x, batch_y = batch_x.to(device), batch_y.to(device)
    
    # 前向传播
    optimizer.zero_grad()
    output = model(batch_x)
    loss = loss_fn(output, batch_y)
    
    print("=== 数据检查 ===")
    print(f"输入: NaN={torch.isnan(batch_x).any()}, Inf={torch.isinf(batch_x).any()}")
    print(f"输入范围: [{batch_x.min():.4f}, {batch_x.max():.4f}]")
    print(f"标签: NaN={torch.isnan(batch_y).any()}")
    
    print("\n=== 输出检查 ===")
    print(f"输出: NaN={torch.isnan(output).any()}, Inf={torch.isinf(output).any()}")
    print(f"输出范围: [{output.min():.4f}, {output.max():.4f}]")
    print(f"损失: {loss.item():.4f}")
    
    # 反向传播
    loss.backward()
    
    print("\n=== 梯度检查 ===")
    total_norm = 0
    for name, param in model.named_parameters():
        if param.grad is not None:
            grad_norm = param.grad.norm().item()
            total_norm += grad_norm ** 2
            if torch.isnan(param.grad).any():
                print(f"NaN gradient in {name}")
            if torch.isinf(param.grad).any():
                print(f"Inf gradient in {name}")
    total_norm = total_norm ** 0.5
    print(f"全局梯度范数: {total_norm:.4f}")
    
    print("\n=== 参数检查 ===")
    for name, param in model.named_parameters():
        param_norm = param.data.norm().item()
        update_ratio = (optimizer.param_groups[0]['lr'] * param.grad.norm().item()) / param_norm if param.grad is not None else 0
        print(f"{name}: norm={param_norm:.4f}, update_ratio={update_ratio:.6f}")

结语

神经网络训练调试是一门需要实践经验的"技艺"，而非精确的科学。本文介绍的方法论和诊断技巧来自大量实践经验的总结。

记住最重要的原则：先确保简单版本能工作，再逐步添加复杂度。大部分训练问题都源于急于求成——一开始就使用复杂的架构和大量的技巧。

当你遇到问题时，停下来，回到最简单的配置，确认基础组件工作正常，然后一步一步地添加变化。这种方法虽然看起来"慢"，但实际上是最快的解决问题的途径。

参考来源：

Karpathy, A. “A Recipe for Training Neural Networks” (2019)
“Debugging Neural Networks” - Towards Data Science
“Loss Spike Detection and Mitigation” - Medium
“Gradient Clipping: Preventing Exploding Gradients in Deep Learning” - Michael Brenndoerfer
“How to debug neural networks” - FesianXu (知乎)
PyTorch Documentation - Gradient Clipping
“Understanding the Disharmony between Dropout and Batch Normalization” (2018)
“On Large Batch Training for Deep Learning: Generalisation Gap and Sharp Minima” (ICLR 2017)
“Batch Normalization: Accelerating Deep Network Training” (ICML 2015)
“Deep Learning” - Goodfellow, Bengio, Courville
CS231n: Convolutional Neural Networks - Stanford
“Why Warmup the Learning Rate? Underlying Mechanisms and Remedies” (2024)
“Mixed Precision Training” - NVIDIA
PyTorch Forums - DDP and Gradient Sync
Reddit r/MachineLearning - Training debugging discussions
“Numerical Stability: Why FP16 Training Breaks” (2025)
“Debugging Training Issues Related to Optimization/Regularization” - ApXML
“Overfitting, Underfitting and General Model Overconfidence” - NCBI
“A Gentle Introduction To Weight Initialization for Neural Networks” - W&B
“Dropout as a Bayesian Approximation” (2016)
深度学习训练中Loss出现NaN的原因与系统化解决方案
神经网络梯度消失和梯度爆炸及解决办法 - CSDN
深度学习loss不下降的解决方法 - CSDN
机器学习中的过拟合与欠拟合：诊断与解决方案 - CSDN
“Rethinking the Usage of Batch Normalization and Dropout” (2019)

一、损失曲线诊断：训练失败的第一信号#

1.1 损失不下降的六大原因#

1.2 损失震荡的成因与对策#

1.3 损失突然变为NaN的紧急诊断#

二、梯度问题诊断：神经网络的生命线#

2.1 梯度消失：当网络忘记如何学习#

2.2 梯度爆炸：失控的学习信号#

2.3 梯度的数值验证#

三、学习率诊断：训练速度与稳定性的平衡#

3.1 学习率过高与过低的表现#

3.2 学习率预热的作用#

3.3 学习率调度的选择#

四、模型容量诊断：过拟合与欠拟合#

4.1 通过损失曲线识别拟合状态#

4.2 过拟合的解决方案#

4.3 欠拟合的解决方案#

五、数据问题诊断：垃圾进，垃圾出#

5.1 数据质量检查清单#

5.2 数据预处理常见错误#

5.3 数据加载器的陷阱#

六、其他常见问题#

6.1 BatchNorm的batch size陷阱#

6.2 权重初始化的影响#

6.3 混合精度训练的数值问题#

6.4 分布式训练的同步问题#

七、调试方法论：Karpathy的训练配方#

第一步：数据检查#

第二步：搭建骨架#

第三步：过拟合小数据集#

第四步：逐步添加复杂度#

第五步：调优#

第六步：压榨性能#

八、调试检查清单#

结语#

更多精彩内容

Sigmoid与Softmax：多分类与多标签任务的激活函数选择逻辑

Dropout机制：为什么随机丢弃神经元反而能提升泛化能力

标签平滑的默认值为何是0.1：从训练稳定性到收敛理论的数学解析

神经网络的优化景观：为什么非凸损失函数没有想象中可怕

万能逼近定理：为什么两层神经网络能逼近任意函数