神经网络训练

Teacher Forcing：为什么这个"作弊"技术统治了序列模型训练三十年

训练一个能够生成文本的模型，听起来是一个简单的任务：给它看很多文本，让它学会预测下一个词。但真正动手实现时，一个根本性的问题会摆在面前——训练时模型应该看到什么？ ...

在深度学习的众多超参数中，batch size（批次大小）可能是最容易被忽视的一个。相比于学习率的精细调节、模型架构的反复打磨，batch size的选择往往只遵循一个简单的规则：在显存允许的范围内，尽量设大。 ...