优化技术 | Answer

当你的显卡显存不足以容纳更大的batch size时，梯度累积似乎是唯一的救星。这个技术在几乎所有大模型训练框架中都有支持，从Hugging Face Transformers到PyTorch Lightning，再到各种分布式训练框架。只需一行配置，你就能在有限的显存下"模拟"更大的batch size——至少文档是这么说的。 ...