优化算法 | Answer

训练过大模型的人都知道，学习率是最关键的超参数之一。设置得太小，训练几个月也收敛不了；设置得太大，模型直接发散。但即使找到了一个看似合适的初始值，直接从头到尾使用恒定学习率，效果往往也不尽如人意。 ...