Early Stopping：为什么"提前终止"能拯救你的模型免于过拟合

训练一个神经网络时，最令人沮丧的场景莫过于：训练损失持续下降，模型在训练集上的表现越来越好，但当你把它部署到真实环境时，效果却一塌糊涂。过拟合——这个困扰深度学习实践者的问题，有一个看似简单却异常有效的解决方案：Early Stopping（早停法）。

Early Stopping的核心思想朴素得近乎简陋：在训练过程中监控模型在验证集上的表现，当验证性能不再改善时，就停止训练。然而，正是这个简单的策略，成为了深度学习中最广泛使用的正则化技术之一。

过拟合的本质：模型何时开始"死记硬背"

要理解Early Stopping为什么有效，必须先理解过拟合发生的机制。

训练一个神经网络本质上是寻找一组参数，使得模型能够从数据中提取有意义的模式。然而，数据中包含的信息可以大致分为两类：真正反映现实规律的"信号"，以及由测量误差、随机波动等因素产生的"噪声"。理想情况下，模型应该学习信号、忽略噪声。

问题在于，模型无法区分哪些是信号、哪些是噪声。当模型容量足够大时，它有足够的能力同时记住训练数据中的信号和噪声。随着训练的进行，模型首先学习到的是"大"的模式——那些在数据中反复出现的、显著的特征。这些模式通常代表了真实的规律，对未见数据也有良好的泛化能力。然而，当训练继续进行，模型开始拟合训练数据中越来越细微的特征——那些可能只是噪声的偶然模式。

这就解释了为什么训练损失和验证损失会呈现不同的趋势：训练损失持续下降，因为模型越来越精确地"记住"了训练数据；而验证损失在经历初期的下降后开始上升，因为模型学到的那些"噪声模式"在验证数据上并不适用。

graph LR
    subgraph 训练初期
        A[模型学习主要模式] --> B[信号提取]
        B --> C[泛化能力强]
    end
    
    subgraph 训练后期
        D[模型学习细微噪声] --> E[噪声拟合]
        E --> F[过拟合发生]
    end
    
    C --> G[验证损失下降]
    F --> H[验证损失上升]

用统计学的语言来描述，这是**偏差-方差权衡（Bias-Variance Tradeoff）**的体现。训练初期，模型处于高偏差、低方差状态——它还没有学到足够的模式，预测能力受限。随着训练进行，偏差降低，但方差增加——模型开始过度拟合训练数据的特定特征。Early Stopping的目标，就是在这个权衡中找到最优点。

graph TB
    subgraph 训练阶段演化
        direction LR
        S[训练开始] --> U[欠拟合阶段<br/>高偏差 低方差]
        U --> O[最优阶段<br/>偏差与方差平衡]
        O --> F[过拟合阶段<br/>低偏差 高方差]
    end
    
    subgraph 损失曲线趋势
        direction TB
        TL[训练损失: 持续下降]
        VL1[验证损失: 先下降]
        VL2[验证损失: 后上升]
    end

早停法的工作机制：三类经典停止准则

1997年，Lutz Prechelt在论文《Early Stopping - But When?》中系统性地研究了早停法的实现。他提出了三种经典的停止准则，至今仍被广泛引用。

泛化损失准则（Generalization Loss, GL）

最直接的思路：当验证损失相对于历史最优值上升超过某个阈值时停止训练。

设 $E_{va}(t)$ 为第 $t$ 个epoch的验证损失，$E_{opt}(t)$ 为截止到第 $t$ 个epoch验证损失的最小值：

$$E_{opt}(t) = \min_{t' \leq t} E_{va}(t')$$

泛化损失定义为：

$$GL(t) = 100 \cdot \frac{E_{va}(t) - E_{opt}(t)}{E_{opt}(t)}$$

GL准则的停止条件是：当 $GL(t) > \alpha$ 时停止，其中 $\alpha$ 是预设的阈值（如1%、5%、10%等）。

这个准则的直觉是：如果验证损失比历史最优值高出了显著比例，说明过拟合已经开始，应该停止训练。

graph LR
    subgraph GL准则判定流程
        A[计算当前验证损失] --> B[更新历史最优值]
        B --> C[计算GL值]
        C --> D{GL > 阈值?}
        D -->|是| E[停止训练]
        D -->|否| F[继续训练]
    end

进度商准则（Progress Quotient, PQ）

GL准则有一个问题：它可能在训练尚未稳定时就过早停止。例如，当学习率较大时，训练损失可能会有较大的波动，导致验证损失暂时上升，但这并不意味着过拟合已经开始。

PQ准则通过引入"训练进度"的概念来解决这个问题。定义训练进度为：

$$P_k(t) = 1000 \cdot \frac{\sum_{t'=t-k+1}^{t} E_{tr}(t') / k}{\min_{t'=t-k+1}^{t} E_{tr}(t')} - 1$$

其中 $E_{tr}(t)$ 是第 $t$ 个epoch的训练损失，$k$ 是一个窗口长度。

PQ准则的停止条件是：

$$\frac{GL(t)}{P_k(t)} > \alpha$$

这个准则的逻辑是：如果训练损失还在快速下降（高进度），即使验证损失暂时上升，也应该继续训练；只有当训练进度缓慢、同时验证损失上升时，才停止训练。

上升准则（UP）

UP准则采用完全不同的思路：不关注损失变化的大小，只关注变化的方向。

定义：当验证损失连续 $s$ 个epoch都上升时停止训练。形式化地：

$$UP_s: \text{停止当} E_{va}(t) > E_{va}(t-k), E_{va}(t-k) > E_{va}(t-2k), ..., E_{va}(t-(s-1)k) > E_{va}(t-sk)$$

UP准则的优点是它只关注变化的方向，不受损失数值大小的影响。这对于那些损失波动较大的训练场景特别有用。

graph TB
    subgraph 三类准则对比
        GL[GL准则: 验证损失相对上升超过阈值]
        PQ[PQ准则: 泛化损失与训练进度的比值超过阈值]
        UP[UP准则: 验证损失连续多个epoch上升]
    end
    
    subgraph 适用场景
        GL --> GLS[简单直接<br/>适合稳定训练]
        PQ --> PQS[考虑训练动态<br/>适合波动训练]
        UP --> UPS[只看方向<br/>适合噪声场景]
    end

Prechelt的实验发现

Prechelt在1296次训练实验中比较了这三类准则，得出了一些有价值的结论：

训练时间与泛化性能的权衡：较慢（停止较晚）的准则可以带来约4%的泛化性能提升，但训练时间可能增加4倍。

准则选择建议：

如果追求找到"好"解的概率最大化，使用GL准则
如果追求平均解质量最大化，使用PQ准则（当模型过拟合较少）或UP准则（当模型过拟合较多）

没有万能准则：不同的学习任务和网络架构可能需要不同的准则。这提示我们，在实际应用中，可能需要根据具体情况调整策略。

现代实现：Patience与Min_Delta

Prechelt的准则虽然经典，但在现代深度学习框架中，我们更常用的是基于**耐心（Patience）**的简化实现。

Patience机制

Patience的核心思想是：允许验证损失在连续若干个epoch内不改善，只有当连续不改善的epoch数超过预设值时才停止训练。

# 伪代码示意
patience = 10  # 允许连续10个epoch不改善
min_delta = 0.001  # 改善的最小阈值
counter = 0
best_val_loss = float('inf')

for epoch in range(max_epochs):
    train_loss = train_one_epoch()
    val_loss = validate()
    
    if val_loss < best_val_loss - min_delta:
        best_val_loss = val_loss
        counter = 0
        save_best_weights()
    else:
        counter += 1
        
    if counter >= patience:
        print(f"Early stopping at epoch {epoch}")
        break

sequenceDiagram
    participant T as 训练循环
    participant V as 验证评估
    participant C as 计数器
    participant D as 决策器
    
    loop 每个Epoch
        T->>V: 计算验证损失
        V->>D: 返回val_loss
        
        alt val_loss < best - min_delta
            D->>C: 重置计数器
            D->>D: 更新最优值和权重
        else val_loss >= best - min_delta
            D->>C: 增加计数器
        end
        
        C->>D: 返回当前计数
        
        alt counter >= patience
            D->>T: 停止训练信号
        else counter < patience
            D->>T: 继续训练
        end
    end

Patience值的选择

Patience值的选择需要权衡两个风险：

Patience太小：可能过早停止，错失模型性能进一步提升的机会
Patience太大：可能训练过长，导致过拟合

实践中，常见的Patience值范围是10到100，其中10-20较为常用。具体选择取决于：

训练数据量和模型复杂度：数据量小、模型复杂度高时，过拟合风险大，Patience应该较小
学习率大小：学习率大时，损失波动可能较大，Patience应该较大
训练预算：训练资源有限时，可以使用较小的Patience

Min_Delta的作用

Min_Delta定义了什么算作"改善"。如果验证损失只下降了极小的量，是否应该认为模型在改善？

设置Min_Delta的原因是避免将微小的、可能是噪声引起的波动误认为真正的改善。一个合理的Min_Delta应该基于验证损失的量级来设定——通常设置为验证损失平均值的0.1%到1%。

Restore_Best_Weights的陷阱

当Early Stopping触发时，模型的权重已经训练过了"最优点"。一个关键问题是：应该使用停止时的权重，还是使用验证损失最低时的权重？

直觉上应该使用验证损失最低时的权重，这也是restore_best_weights=True的默认行为。然而，这个选择也有一些微妙的问题：

记忆开销：需要在训练过程中保存最优权重，对于大模型来说可能占用大量内存。

非最优选择的可能性：在某些情况下，验证损失最低点可能只是一个局部波动，真正的"最优"可能需要更长的训练才能达到。

有研究者建议，在某些场景下，使用停止时的权重而非最优权重可能更稳健。这需要根据具体任务来判断。

graph LR
    subgraph Restore_Best_Weights决策
        A[Early Stopping触发] --> B{是否恢复最优权重?}
        B -->|是| C[加载历史最优权重<br/>可能需要额外内存]
        B -->|否| D[使用当前权重<br/>可能已过拟合]
    end
    
    subgraph 权重状态时间线
        W1[Epoch 10: 最优权重] --> W2[Epoch 15: 次优]
        W2 --> W3[Epoch 20: 触发停止]
    end

理论深度：Early Stopping与L2正则化的等价性

Early Stopping不仅仅是一个经验性的技巧，它有深刻的理论基础。最令人惊讶的发现之一是：在一定条件下，Early Stopping与L2正则化是数学等价的。

为什么会等价

考虑一个简单的线性回归问题，使用梯度下降优化。当我们使用L2正则化时，目标函数变为：

$$L(w) = \|y - Xw\|^2 + \lambda\|w\|^2$$

梯度下降的更新规则是：

$$w_{t+1} = w_t - \eta \nabla L(w_t)$$

经过一系列数学推导，可以证明：Early Stopping（在第 $t$ 个epoch停止）的效果，等价于使用L2正则化且正则化系数 $\lambda$ 与训练时间 $t$ 存在一定关系。

这个等价性的直觉是：L2正则化通过惩罚大权重来限制模型复杂度，而Early Stopping通过限制训练时间来防止权重变得过大。两者都在限制模型在参数空间中的"移动距离"，只是方式不同。

graph TB
    subgraph 两种正则化路径
        subgraph L2正则化
            L1[添加权重惩罚项] --> L2[梯度下降优化]
            L2 --> L3[权重被约束在小范围内]
        end
        
        subgraph Early Stopping
            E1[监控验证损失] --> E2[及时停止训练]
            E2 --> E3[权重更新次数受限]
        end
    end
    
    subgraph 等价效果
        L3 --> R[限制模型复杂度]
        E3 --> R
    end

理论推导的简化版本

假设我们用梯度下降优化一个二次目标函数：

$$L(w) = \frac{1}{2}w^T A w - b^T w$$

其中 $A$ 是正定矩阵。梯度下降的更新可以写为：

$$w_t = w_{t-1} - \eta(Aw_{t-1} - b)$$

这是一个线性递推关系，可以解析求解。最终可以得到：

$$w_t = (I - \eta A)^t w_0 + [I - (I - \eta A)^t]A^{-1}b$$

而L2正则化的解是：

$$w_{L2} = (A + \lambda I)^{-1}b$$

通过适当的参数对应，可以建立两者之间的等价关系。

实践意义

这个理论等价性的实践意义在于：

理解正则化效果：Early Stopping本质上是在进行隐式正则化，它限制了模型在参数空间中的探索范围。
组合使用的考量：由于Early Stopping和L2正则化效果类似，同时使用两者可能存在"重复正则化"的风险。但这并不意味着不能组合使用——在某些情况下，精心调整的组合可能比单独使用任何一种效果更好。
超参数选择：理解这个等价性有助于我们在调整Early Stopping的参数（如patience）时，参考L2正则化系数的选择经验。

大模型时代的Early Stopping：为什么微调只需要几个Epoch

大语言模型的兴起带来了一个有趣的现象：在微调预训练模型时，通常只需要2-5个epoch就能达到最佳性能，继续训练反而会导致性能下降。这与传统的"从头训练"模式形成鲜明对比。

预训练模型的特殊性

预训练模型已经在海量数据上学习了丰富的语言知识和世界知识。微调的目标不是让模型"从头学习"，而是调整模型以适应特定任务的输出格式和行为模式。

从理论角度看，预训练模型的参数已经处于参数空间中一个"好"的位置，微调只是在这个位置附近进行微调。神经正切核（Neural Tangent Kernel, NTK）理论提供了分析这个过程的工具。

graph LR
    subgraph 传统训练vs微调
        subgraph 从头训练
            N1[随机初始化] --> N2[大量epoch训练]
            N2 --> N3[需要多次Early Stopping检查]
        end
        
        subgraph 预训练微调
            P1[预训练权重] --> P2[少量epoch微调]
            P2 --> P3[快速达到最优]
        end
    end

NTK视角的分析

2024年的一篇论文《A Theoretical Framework for LLM Fine-tuning Using Early Stopping》将NTK理论扩展到预训练初始化的场景。论文证明：

NTK稳定性：对于足够宽的网络，在微调过程中NTK保持近似稳定。
线性化近似：微调过程可以近似为在预训练权重周围的线性化优化。
收敛速度与特征值衰减：微调的收敛速度与经验核矩阵的特征值衰减率密切相关。

关键洞察是：预训练模型已经具备了完成任务所需的大部分能力，微调主要是在调整模型的"输出风格"而非"核心能力"。因此，过度的微调不仅没有必要，还可能破坏模型原有的能力——这就是为什么Early Stopping在大模型微调中特别重要。

Instruction Following Score (IFS)

2023年，研究者提出了Instruction Following Score (IFS)，专门用于评估语言模型遵循指令的能力。有趣的是，他们发现模型在微调早期就学会了遵循指令，而进一步的微调可能导致模型语义的变化。

这提示我们，在微调大模型时，不仅要关注验证损失，还要关注模型在其他维度上的表现。过度微调可能导致模型"遗忘"某些预训练时学到的能力，即使验证损失还在下降。

常见陷阱与最佳实践

陷阱一：验证集过小或不具代表性

Early Stopping的有效性高度依赖于验证集的质量。如果验证集太小，验证损失会有很大的随机波动，导致停止信号不可靠；如果验证集不具有代表性，模型可能在验证集上表现良好，但在实际应用中表现糟糕。

最佳实践：验证集应该足够大（至少几千个样本），并且应该尽可能反映真实应用场景的数据分布。常见的划分比例是80%训练、10%验证、10%测试，但具体比例需要根据数据总量和任务特点调整。

陷阱二：学习率与Early Stopping的交互

学习率会影响损失曲线的形态，进而影响Early Stopping的效果。较大的学习率可能导致损失波动剧烈，容易触发过早停止；较小的学习率可能导致收敛缓慢，可能需要更大的patience。

最佳实践：在使用Early Stopping时，应该配合学习率调度策略。常见做法是使用warmup和cosine衰减，让训练过程更加稳定。

陷阱三：忽略模型检查点

Early Stopping停止训练时，模型的权重可能已经偏离最优权重很远（如果使用较大的patience）。如果不保存最优权重，可能导致最终模型性能不佳。

最佳实践：始终启用restore_best_weights选项，或者定期保存模型检查点，在训练结束后选择验证性能最好的检查点。

陷阱四：在错误的时间尺度上监控

监控验证损失的频率也会影响Early Stopping的效果。如果每个batch都检查验证损失，计算开销太大且波动太大；如果每很多个epoch才检查一次，可能错过最优停止点。

最佳实践：通常每个epoch结束时检查验证损失是合理的。对于特别长的训练任务（如大模型预训练），可以每个固定的步数检查一次。

graph TB
    subgraph 常见陷阱总览
        T1[陷阱1: 验证集质量问题]
        T2[陷阱2: 学习率交互问题]
        T3[陷阱3: 忽略模型检查点]
        T4[陷阱4: 监控频率不当]
    end
    
    subgraph 对应解决方案
        T1 --> S1[确保验证集足够大且具代表性]
        T2 --> S2[配合学习率调度策略]
        T3 --> S3[启用restore_best_weights]
        T4 --> S4[每个epoch检查一次验证损失]
    end

与其他正则化技术的比较

Early Stopping不是唯一的正则化技术，理解它与其他技术的关系有助于做出更好的选择。

Early Stopping vs Dropout

Dropout通过在训练时随机丢弃神经元来防止过拟合。与Early Stopping相比：

作用机制不同：Dropout直接改变网络结构，Early Stopping限制训练时间
组合使用：两者可以组合使用，Dropout可以帮助模型在更长训练时间内保持泛化能力
计算开销：Dropout几乎不增加计算开销，Early Stopping需要验证集评估

Early Stopping vs Weight Decay

Weight Decay（权重衰减）通过在损失函数中添加权重惩罚项来限制模型复杂度。前面已经讨论过，它与Early Stopping在理论上有等价性。

可控性：Weight Decay通过正则化系数直接控制正则化强度，Early Stopping通过训练时间间接控制
组合使用：由于两者的等价性，组合使用时需要仔细调整参数，避免过度正则化

Early Stopping vs Data Augmentation

数据增强通过扩充训练数据来提高模型的泛化能力。

互补关系：数据增强直接解决数据不足的问题，Early Stopping处理模型过度拟合的问题
组合使用：两者经常一起使用，数据增强可以让模型在更长训练时间内保持良好泛化能力

graph LR
    subgraph 正则化技术对比
        ES[Early Stopping<br/>限制训练时间]
        DP[Dropout<br/>随机丢弃神经元]
        WD[Weight Decay<br/>权重惩罚]
        DA[Data Augmentation<br/>数据扩充]
    end
    
    subgraph 技术特点
        ES --> F1[隐式正则化<br/>需要验证集]
        DP --> F2[显式结构改变<br/>训练时生效]
        WD --> F3[显式损失惩罚<br/>易于控制]
        DA --> F4[数据层面<br/>增强泛化]
    end
    
    subgraph 组合使用建议
        F1 --> C1[ES + DP: 常用组合]
        F2 --> C1
        F1 --> C2[ES + WD: 需谨慎调参]
        F3 --> C2
        F1 --> C3[ES + DA: 强力组合]
        F4 --> C3
    end

总结与建议

Early Stopping是深度学习中最简单却最有效的正则化技术之一。它通过监控验证集性能，在模型开始过拟合时及时停止训练。

核心建议：

始终使用Early Stopping：除非你有非常充足的理由不使用（如训练时间极短、数据量极大），否则Early Stopping应该是你的默认选择。
合理设置Patience：从patience=10开始，根据训练曲线形态调整。如果损失曲线波动大，适当增加patience。
关注验证集质量：验证集应该足够大且具有代表性，这是Early Stopping有效的前提。
保存最优权重：启用restore_best_weights，确保最终模型是验证性能最好的版本。
组合使用其他技术：Early Stopping可以与Dropout、Weight Decay等技术组合使用，但需要仔细调整各参数的平衡。
大模型微调要更激进：对于预训练模型的微调，通常2-5个epoch就够了，可以设置较小的patience（如3-5）。
监控多个指标：除了验证损失，还可以监控准确率、F1分数等指标，获得更全面的模型状态视图。

Early Stopping看似简单，但它是深度学习实践中"少即是多"哲学的最佳体现——有时候，最好的策略不是训练更多，而是知道何时停下来。

参考文献

Prechelt, L. (1998). Early Stopping - But When? In Neural Networks: Tricks of the Trade (pp. 55-69). Springer.
Raskutti, G., Wainwright, M. J., & Yu, B. (2014). Early stopping and non-parametric regression: an optimal data-dependent stopping rule. Journal of Machine Learning Research, 15(1), 335-366.
Morgan, N., & Bourlard, H. (1990). Generalization and parameter estimation in feedforward nets: Some experiments. In Advances in Neural Information Processing Systems (pp. 630-637).
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. Chapter 7: Regularization for Deep Learning.
Sun, Y., & Raskutti, G. (2025). A Theoretical Framework for LLM Fine-tuning Using Early Stopping for Non-random Initialization. arXiv preprint arXiv:2602.13942.
Ilharco, G., et al. (2023). Editing models with task arithmetic. In Advances in Neural Information Processing Systems.
Jacot, A., Gabriel, F., & Hongler, C. (2018). Neural tangent kernel: Convergence and generalization in neural networks. In Advances in Neural Information Processing Systems.
Amari, S., Murata, N., Müller, K. R., Finke, M., & Yang, H. H. (1997). Asymptotic statistical theory of overtraining and cross-validation. IEEE Transactions on Neural Networks, 8(5), 985-996.
Geman, S., Bienenstock, E., & Doursat, R. (1992). Neural networks and the bias/variance dilemma. Neural Computation, 4(1), 1-58.
Wang, C., Venkatesh, S. S., & Judd, J. S. (1994). Optimal stopping and effective machine complexity in learning. In Advances in Neural Information Processing Systems.

Early Stopping：为什么"提前终止"能拯救你的模型免于过拟合

过拟合的本质：模型何时开始"死记硬背"

早停法的工作机制：三类经典停止准则

泛化损失准则（Generalization Loss, GL）

进度商准则（Progress Quotient, PQ）

上升准则（UP）

Prechelt的实验发现

现代实现：Patience与Min_Delta

Patience机制

Patience值的选择

Min_Delta的作用

Restore_Best_Weights的陷阱

理论深度：Early Stopping与L2正则化的等价性

为什么会等价

理论推导的简化版本

实践意义

大模型时代的Early Stopping：为什么微调只需要几个Epoch

预训练模型的特殊性

NTK视角的分析

Instruction Following Score (IFS)

常见陷阱与最佳实践

陷阱一：验证集过小或不具代表性

陷阱二：学习率与Early Stopping的交互

陷阱三：忽略模型检查点

陷阱四：在错误的时间尺度上监控

与其他正则化技术的比较

Early Stopping vs Dropout

Early Stopping vs Weight Decay

Early Stopping vs Data Augmentation

最新研究进展

基于梯度的Early Stopping

基于谱分析的Early Stopping

Instance-Dependent Early Stopping

总结与建议

参考文献

过拟合的本质：模型何时开始"死记硬背"#

早停法的工作机制：三类经典停止准则#

泛化损失准则（Generalization Loss, GL）#

进度商准则（Progress Quotient, PQ）#

上升准则（UP）#

Prechelt的实验发现#

现代实现：Patience与Min_Delta#

Patience机制#

Patience值的选择#

Min_Delta的作用#

Restore_Best_Weights的陷阱#

理论深度：Early Stopping与L2正则化的等价性#

为什么会等价#

理论推导的简化版本#

实践意义#

大模型时代的Early Stopping：为什么微调只需要几个Epoch#

预训练模型的特殊性#

NTK视角的分析#

Instruction Following Score (IFS)#

常见陷阱与最佳实践#

陷阱一：验证集过小或不具代表性#

陷阱二：学习率与Early Stopping的交互#

陷阱三：忽略模型检查点#

陷阱四：在错误的时间尺度上监控#

与其他正则化技术的比较#

Early Stopping vs Dropout#

Early Stopping vs Weight Decay#

Early Stopping vs Data Augmentation#

最新研究进展#

基于梯度的Early Stopping#

基于谱分析的Early Stopping#

Instance-Dependent Early Stopping#

总结与建议#

参考文献#

更多精彩内容

Dropout机制：为什么随机丢弃神经元反而能提升泛化能力

过拟合、欠拟合与偏差-方差权衡：机器学习最核心困境的完整解析

梯度下降优化器：从SGD到AdamW，为什么这个选择能决定模型的命运

数据增强技术：为何简单的变换能显著提升模型泛化能力

损失函数全景解析：从MSE到Focal Loss，如何为不同任务选择正确的优化目标

过拟合的本质：模型何时开始"死记硬背"

早停法的工作机制：三类经典停止准则

泛化损失准则（Generalization Loss, GL）

进度商准则（Progress Quotient, PQ）

上升准则（UP）

Prechelt的实验发现

现代实现：Patience与Min_Delta

Patience机制

Patience值的选择

Min_Delta的作用

Restore_Best_Weights的陷阱

理论深度：Early Stopping与L2正则化的等价性

为什么会等价

理论推导的简化版本

实践意义

大模型时代的Early Stopping：为什么微调只需要几个Epoch

预训练模型的特殊性

NTK视角的分析

Instruction Following Score (IFS)

常见陷阱与最佳实践

陷阱一：验证集过小或不具代表性

陷阱二：学习率与Early Stopping的交互

陷阱三：忽略模型检查点

陷阱四：在错误的时间尺度上监控

与其他正则化技术的比较

Early Stopping vs Dropout

Early Stopping vs Weight Decay

Early Stopping vs Data Augmentation

最新研究进展

基于梯度的Early Stopping

基于谱分析的Early Stopping

Instance-Dependent Early Stopping

总结与建议

参考文献