模型训练 | Answer

模型训练调试：从损失不下降到梯度爆炸的完整诊断指南

你花了三天时间设计了一个"完美"的神经网络架构，数据集准备好了，训练脚本也写好了。点击运行，满怀期待地盯着终端输出… ...

训练一个图像分类模型，测试集准确率达到95%。随机抽取一个样本，模型输出预测概率：[0.999, 0.001, 0.000, …]。看起来模型对这个预测非常自信——99.9%的置信度。但这个置信度真的可靠吗？ ...

在深度学习的众多超参数中，batch size（批次大小）可能是最容易被忽视的一个。相比于学习率的精细调节、模型架构的反复打磨，batch size的选择往往只遵循一个简单的规则：在显存允许的范围内，尽量设大。 ...