ZeRO | Answer

大模型训练的显存瓶颈如何突破：从ZeRO到Flash Attention的五年技术演进

显存墙：大模型训练的第一道坎 2020年，OpenAI训练GPT-3时，1750亿参数的模型需要超过350GB的显存——这远超任何单张GPU的容量。三年后，Meta训练Llama 2-70B时，单张A100 80GB显卡甚至无法完整加载模型权重。显存，而非计算能力，已经成为大模型训练的首要瓶颈。 ...

梯度同步：为什么分布式训练卡在通信瓶颈上二十年无法突破？

当你在8张GPU上训练一个7B参数模型需要3天，扩展到128张GPU时却发现只快了8倍而不是16倍——剩下的一半性能去哪了？答案藏在每一步迭代中都会发生却极少被提及的操作里：梯度同步。 ...

千亿参数模型如何塞进有限显卡ZeRO如何用分片消除数据并行的内存冗余

2020年2月，微软研究院发布了一个名为DeepSpeed的深度学习优化库，其中最引人注目的组件是ZeRO（Zero Redundancy Optimizer）。这项技术声称可以在1024块GPU上训练万亿参数模型。当时最大的语言模型GPT-2仅有15亿参数，Megatron-LM也不过83亿参数。ZeRO究竟做了什么，能让模型规模提升百倍以上？ ...

千亿参数模型如何拆分到多张GPU上训练：从数据并行到3D并行的技术突围

2020年，OpenAI发布了拥有1750亿参数的GPT-3模型。按照FP16精度计算，仅存储模型权重就需要350GB显存——而当时最先进的NVIDIA A100 GPU只有80GB显存。这意味着，即使不考虑训练过程中额外的梯度、优化器状态和激活值，单张GPU连加载模型都做不到。 ...