Megatron-LM

梯度检查点如何让大模型训练突破显存瓶颈：从时间换空间到选择性重计算的技术进化

2020年，当OpenAI训练拥有1750亿参数的GPT-3模型时，他们面临一个令人绝望的现实：即使使用当时最先进的NVIDIA A100 GPU（80GB显存），单张显卡连模型都无法加载，更不用说训练了。 ...

2020年，OpenAI发布了拥有1750亿参数的GPT-3模型。按照FP16精度计算，仅存储模型权重就需要350GB显存——而当时最先进的NVIDIA A100 GPU只有80GB显存。这意味着，即使不考虑训练过程中额外的梯度、优化器状态和激活值，单张GPU连加载模型都做不到。 ...