千亿参数模型如何拆分到多张GPU上训练:从数据并行到3D并行的技术突围
2020年,OpenAI发布了拥有1750亿参数的GPT-3模型。按照FP16精度计算,仅存储模型权重就需要350GB显存——而当时最先进的NVIDIA A100 GPU只有80GB显存。这意味着,即使不考虑训练过程中额外的梯度、优化器状态和激活值,单张GPU连加载模型都做不到。 ...
2020年,OpenAI发布了拥有1750亿参数的GPT-3模型。按照FP16精度计算,仅存储模型权重就需要350GB显存——而当时最先进的NVIDIA A100 GPU只有80GB显存。这意味着,即使不考虑训练过程中额外的梯度、优化器状态和激活值,单张GPU连加载模型都做不到。 ...
2010年9月23日,Facebook经历了成立以来最严重的一次宕机——整整2.5小时,全球5亿用户无法访问。事后复盘发现,罪魁祸首竟是一个看似不起眼的配置值错误:当自动验证服务从数据库读取到一个无效值后,它删除了缓存条目,随后大量请求穿透到数据库。数据库超载后返回超时,系统将超时误判为无效值再次删除缓存,形成了无法自愈的死亡螺旋。 ...
2012年,Netflix的工程团队做了一个看似疯狂的决定:在生产环境中主动注入故障。他们开发的Chaos Monkey会随机终止生产服务器实例,以此验证系统的容错能力。这个看似激进的实践背后,是一个深刻的认知:分布式系统中,故障不是会不会发生的问题,而是什么时候发生的问题。 ...
2025年10月19日,美国东部时间晚上11点48分,AWS DynamoDB在us-east-1区域发生了一次严重的DNS故障。根据AWS官方的事后分析报告,一个隐藏的竞态条件导致DynamoDB的DNS记录被意外清空——所有IP地址都被删除,只留下一个空的DNS条目。 ...
2018年,某互联网公司的一条生产事故报告引发了广泛关注:他们的RocksDB实例在写入量激增时突然"卡死",应用层请求超时雪崩。排查日志后发现,罪魁祸首是Write Stall——RocksDB的内部保护机制在L0层文件过多时主动暂停写入。这不是孤例。在LSM-Tree架构的数据库中,Compaction(合并压缩)机制既是性能的守护者,也可能成为故障的导火索。 ...
2012年9月,Netflix开源了一个名为Eureka的项目。这不是一个全新的技术发明,而是一个针对AWS云环境的妥协产物。然而,这个妥协引发了微服务社区长达十年的争论:服务注册中心到底应该优先保证一致性还是可用性? ...
支付平台的后台监控突然亮起红灯:一笔大额交易已经完成,但商户系统没有收到任何通知。检查日志发现,Webhook请求确实发出去了——服务端返回了200 OK。然而商户的后端工程师打开他们的系统,事件从未被处理。 ...