GPU内存

2020年2月，微软研究院发布了一个名为DeepSpeed的深度学习优化库，其中最引人注目的组件是ZeRO（Zero Redundancy Optimizer）。这项技术声称可以在1024块GPU上训练万亿参数模型。当时最大的语言模型GPT-2仅有15亿参数，Megatron-LM也不过83亿参数。ZeRO究竟做了什么，能让模型规模提升百倍以上？ ...