神经网络的优化景观:为什么非凸损失函数没有想象中可怕
2014年,Yann Dauphin和同事们在NIPS上发表了一篇引起广泛关注的论文。他们发现,在训练深度神经网络时,真正阻碍优化的不是我们一直担心的"局部最小值",而是另一种被忽视已久的东西——鞍点。这个发现彻底改变了我们对神经网络优化的理解。 ...
2014年,Yann Dauphin和同事们在NIPS上发表了一篇引起广泛关注的论文。他们发现,在训练深度神经网络时,真正阻碍优化的不是我们一直担心的"局部最小值",而是另一种被忽视已久的东西——鞍点。这个发现彻底改变了我们对神经网络优化的理解。 ...
当你点击"训练"按钮时,神经网络内部发生了什么? 想象你正在训练一个图像分类模型。你准备了数据集,设置了超参数,点击了"开始训练"按钮。屏幕上开始显示loss值不断下降,准确率不断上升。但在这些数字背后,究竟发生了什么?模型是如何从"一无所知"变成"精准识别"的? ...
2014年,Diederik Kingma和Jimmy Ba在ICLR上发表了一篇论文,标题平淡无奇——《Adam: A Method for Stochastic Optimization》。没有人预料到,这篇论文中的算法会在接下来的十年里统治深度学习训练领域。时至今日,无论是GPT、LLaMA还是Stable Diffusion,几乎所有大模型的训练日志里都能看到"optimizer=AdamW"的字样。 ...