Gradient Checkpointing

显存墙：大模型训练的第一道坎 2020年，OpenAI训练GPT-3时，1750亿参数的模型需要超过350GB的显存——这远超任何单张GPU的容量。三年后，Meta训练Llama 2-70B时，单张A100 80GB显卡甚至无法完整加载模型权重。显存，而非计算能力，已经成为大模型训练的首要瓶颈。 ...