梯度检查点如何让大模型训练突破显存瓶颈:从时间换空间到选择性重计算的技术进化

2020年,当OpenAI训练拥有1750亿参数的GPT-3模型时,他们面临一个令人绝望的现实:即使使用当时最先进的NVIDIA A100 GPU(80GB显存),单张显卡连模型都无法加载,更不用说训练了。 ...

12 min · 5878 words