流水线并行

2020年，OpenAI发布了拥有1750亿参数的GPT-3模型。按照FP16精度计算，仅存储模型权重就需要350GB显存——而当时最先进的NVIDIA A100 GPU只有80GB显存。这意味着，即使不考虑训练过程中额外的梯度、优化器状态和激活值，单张GPU连加载模型都做不到。 ...