Early Stopping:为什么"提前终止"能拯救你的模型免于过拟合

训练一个神经网络时,最令人沮丧的场景莫过于:训练损失持续下降,模型在训练集上的表现越来越好,但当你把它部署到真实环境时,效果却一塌糊涂。过拟合——这个困扰深度学习实践者的问题,有一个看似简单却异常有效的解决方案:Early Stopping(早停法)。 ...

17 min · 8422 words

梯度下降优化器:从SGD到AdamW,为什么这个选择能决定模型的命运

2014年,Diederik Kingma和Jimmy Ba在ICLR上发表了一篇论文,标题平淡无奇——《Adam: A Method for Stochastic Optimization》。没有人预料到,这篇论文中的算法会在接下来的十年里统治深度学习训练领域。时至今日,无论是GPT、LLaMA还是Stable Diffusion,几乎所有大模型的训练日志里都能看到"optimizer=AdamW"的字样。 ...

15 min · 7072 words

大模型参数量与计算量:从Transformer架构到FLOPs计算的完整解析

当GPT-3在2020年问世时,其1750亿参数的规模震惊了整个AI界。三年后,LLaMA-70B用更少的参数达到了更好的效果。到了2024年,DeepSeek-V3以6710亿总参数但仅激活370亿参数的MoE架构重新定义了效率边界。这些数字背后隐藏着一套精确的数学逻辑——参数量如何决定计算量,计算量如何影响训练成本,以及如何在有限的算力预算下设计最优模型。 ...

16 min · 7548 words