大模型训练的显存瓶颈如何突破:从ZeRO到Flash Attention的五年技术演进

显存墙:大模型训练的第一道坎 2020年,OpenAI训练GPT-3时,1750亿参数的模型需要超过350GB的显存——这远超任何单张GPU的容量。三年后,Meta训练Llama 2-70B时,单张A100 80GB显卡甚至无法完整加载模型权重。显存,而非计算能力,已经成为大模型训练的首要瓶颈。 ...

19 min · 9509 words

预训练数据如何决定大模型的上限:从数据质量到清洗流程的完整解析

当LLaMA 3在2024年发布时,一个引人注目的细节被埋没在技术报告的角落:尽管训练数据从LLaMA 2的1.8万亿token增长到15万亿token,但数据清洗管道的改进才是模型性能飞跃的真正推手。Meta团队开发了复杂的数据处理流水线,包括启发式过滤器、NSFW过滤器、语义去重方法和文本质量分类器——这套系统让模型在更少训练步数下实现了更好的性能。 ...

15 min · 7281 words
Blog Cover

大模型训练中的学习率调度:从线性预热到WSD策略的技术演进

训练过大模型的人都知道,学习率是最关键的超参数之一。设置得太小,训练几个月也收敛不了;设置得太大,模型直接发散。但即使找到了一个看似合适的初始值,直接从头到尾使用恒定学习率,效果往往也不尽如人意。 ...

12 min · 5596 words