梯度下降 | Answer

神经网络的优化景观：为什么非凸损失函数没有想象中可怕

2014年，Yann Dauphin和同事们在NIPS上发表了一篇引起广泛关注的论文。他们发现，在训练深度神经网络时，真正阻碍优化的不是我们一直担心的"局部最小值"，而是另一种被忽视已久的东西——鞍点。这个发现彻底改变了我们对神经网络优化的理解。 ...

神经网络是如何学习的：从前向传播到反向传播的完整训练过程解析

当你点击"训练"按钮时，神经网络内部发生了什么？想象你正在训练一个图像分类模型。你准备了数据集，设置了超参数，点击了"开始训练"按钮。屏幕上开始显示loss值不断下降，准确率不断上升。但在这些数字背后，究竟发生了什么？模型是如何从"一无所知"变成"精准识别"的？ ...

梯度下降优化器：从SGD到AdamW，为什么这个选择能决定模型的命运

2014年，Diederik Kingma和Jimmy Ba在ICLR上发表了一篇论文，标题平淡无奇——《Adam: A Method for Stochastic Optimization》。没有人预料到，这篇论文中的算法会在接下来的十年里统治深度学习训练领域。时至今日，无论是GPT、LLaMA还是Stable Diffusion，几乎所有大模型的训练日志里都能看到"optimizer=AdamW"的字样。 ...