LLM训练

大模型训练的显存瓶颈如何突破：从ZeRO到Flash Attention的五年技术演进

显存墙：大模型训练的第一道坎 2020年，OpenAI训练GPT-3时，1750亿参数的模型需要超过350GB的显存——这远超任何单张GPU的容量。三年后，Meta训练Llama 2-70B时，单张A100 80GB显卡甚至无法完整加载模型权重。显存，而非计算能力，已经成为大模型训练的首要瓶颈。 ...

预训练数据如何决定大模型的上限：从数据质量到清洗流程的完整解析

当LLaMA 3在2024年发布时，一个引人注目的细节被埋没在技术报告的角落：尽管训练数据从LLaMA 2的1.8万亿token增长到15万亿token，但数据清洗管道的改进才是模型性能飞跃的真正推手。Meta团队开发了复杂的数据处理流水线，包括启发式过滤器、NSFW过滤器、语义去重方法和文本质量分类器——这套系统让模型在更少训练步数下实现了更好的性能。 ...

大模型训练中的学习率调度：从线性预热到WSD策略的技术演进

训练过大模型的人都知道，学习率是最关键的超参数之一。设置得太小，训练几个月也收敛不了；设置得太大，模型直接发散。但即使找到了一个看似合适的初始值，直接从头到尾使用恒定学习率，效果往往也不尽如人意。 ...