Transformer训练

一个困扰深度学习社区多年的困惑 2015年，Diederik Kingma和Jimmy Ba在ICLR上发表了Adam优化器论文（该论文于2014年12月提交arXiv）。这个结合了动量和自适应学习率的优化器迅速成为深度学习社区的最爱。然而，一个奇怪的现象开始困扰研究者们：使用Adam训练的模型，其泛化能力似乎总是不如使用普通SGD加权重衰减训练的模型。 ...