千亿参数模型如何塞进有限显卡ZeRO如何用分片消除数据并行的内存冗余
2020年2月,微软研究院发布了一个名为DeepSpeed的深度学习优化库,其中最引人注目的组件是ZeRO(Zero Redundancy Optimizer)。这项技术声称可以在1024块GPU上训练万亿参数模型。当时最大的语言模型GPT-2仅有15亿参数,Megatron-LM也不过83亿参数。ZeRO究竟做了什么,能让模型规模提升百倍以上? ...
2020年2月,微软研究院发布了一个名为DeepSpeed的深度学习优化库,其中最引人注目的组件是ZeRO(Zero Redundancy Optimizer)。这项技术声称可以在1024块GPU上训练万亿参数模型。当时最大的语言模型GPT-2仅有15亿参数,Megatron-LM也不过83亿参数。ZeRO究竟做了什么,能让模型规模提升百倍以上? ...
2020年,当OpenAI训练拥有1750亿参数的GPT-3模型时,他们面临一个令人绝望的现实:即使使用当时最先进的NVIDIA A100 GPU(80GB显存),单张显卡连模型都无法加载,更不用说训练了。 ...
2020年,OpenAI发布了拥有1750亿参数的GPT-3模型。按照FP16精度计算,仅存储模型权重就需要350GB显存——而当时最先进的NVIDIA A100 GPU只有80GB显存。这意味着,即使不考虑训练过程中额外的梯度、优化器状态和激活值,单张GPU连加载模型都做不到。 ...