Momentum

2014年，Diederik Kingma和Jimmy Ba在ICLR上发表了一篇论文，标题平淡无奇——《Adam: A Method for Stochastic Optimization》。没有人预料到，这篇论文中的算法会在接下来的十年里统治深度学习训练领域。时至今日，无论是GPT、LLaMA还是Stable Diffusion，几乎所有大模型的训练日志里都能看到"optimizer=AdamW"的字样。 ...