模型训练调试:从损失不下降到梯度爆炸的完整诊断指南

你花了三天时间设计了一个"完美"的神经网络架构,数据集准备好了,训练脚本也写好了。点击运行,满怀期待地盯着终端输出… ...

14 min · 6911 words

标签平滑的默认值为何是0.1:从训练稳定性到收敛理论的数学解析

训练一个图像分类模型,测试集准确率达到95%。随机抽取一个样本,模型输出预测概率:[0.999, 0.001, 0.000, …]。看起来模型对这个预测非常自信——99.9%的置信度。但这个置信度真的可靠吗? ...

16 min · 7926 words

Batch Size的选择:为什么这个超参数能决定模型的生死

在深度学习的众多超参数中,batch size(批次大小)可能是最容易被忽视的一个。相比于学习率的精细调节、模型架构的反复打磨,batch size的选择往往只遵循一个简单的规则:在显存允许的范围内,尽量设大。 ...

15 min · 7242 words