数据并行 | Answer

梯度同步：为什么分布式训练卡在通信瓶颈上二十年无法突破？

当你在8张GPU上训练一个7B参数模型需要3天，扩展到128张GPU时却发现只快了8倍而不是16倍——剩下的一半性能去哪了？答案藏在每一步迭代中都会发生却极少被提及的操作里：梯度同步。 ...

千亿参数模型如何塞进有限显卡ZeRO如何用分片消除数据并行的内存冗余

2020年2月，微软研究院发布了一个名为DeepSpeed的深度学习优化库，其中最引人注目的组件是ZeRO（Zero Redundancy Optimizer）。这项技术声称可以在1024块GPU上训练万亿参数模型。当时最大的语言模型GPT-2仅有15亿参数，Megatron-LM也不过83亿参数。ZeRO究竟做了什么，能让模型规模提升百倍以上？ ...