大模型训练的显存瓶颈如何突破:从ZeRO到Flash Attention的五年技术演进

显存墙:大模型训练的第一道坎 2020年,OpenAI训练GPT-3时,1750亿参数的模型需要超过350GB的显存——这远超任何单张GPU的容量。三年后,Meta训练Llama 2-70B时,单张A100 80GB显卡甚至无法完整加载模型权重。显存,而非计算能力,已经成为大模型训练的首要瓶颈。 ...

19 min · 9509 words

目标检测技术的二十年演进:从滑动窗口到端到端的范式革命

当计算机第一次"看见"人脸 2001年,Paul Viola和Michael Jones在CVPR上发表了一篇题为《Rapid Object Detection using a Boosted Cascade of Simple Features》的论文。这篇论文解决了一个困扰计算机视觉领域数十年的问题:如何让计算机实时地检测图像中的人脸。 ...

17 min · 8450 words

主动学习:当机器学会"提问"——如何用更少标注获得更强模型

标注:机器学习的阿喀琉斯之踵 机器学习领域有一个公开的秘密:算法越来越强,但数据标注的成本越来越高。 2010年,Burr Settles在其经典综述中记录了一个令人震惊的数据:语音识别中的音素标注,一分钟音频需要近七个小时才能完成。这不是个例。医学影像的分割标注,单张图像可能需要2-15分钟;法律文档的分类标注,需要资深律师逐字审阅;生物信息学中的基因标注,往往需要博士级别的专业知识。 ...

17 min · 8406 words

为什么高斯分布统治了机器学习的隐空间:从中心极限定理到扩散模型的数学真相

为什么高斯分布统治了机器学习的隐空间:从中心极限定理到扩散模型的数学真相 打开任何一个深度学习模型,你会发现高斯分布无处不在:权重初始化服从$\mathcal{N}(0, \sqrt{2/n})$,VAE的隐变量被约束为$\mathcal{N}(\mu, \sigma^2)$,扩散模型的前向过程逐步添加高斯噪声,连随机梯度下降的噪声都被近似为高斯分布。这不是巧合,也不是习惯使然——高斯分布对机器学习的统治,源于数学深处的必然性。 ...

22 min · 10636 words

大模型代码生成能力的边界与突破——从语法理解到语义推理的技术解析

2022年末,GitHub Copilot的月活用户突破150万,Stack Overflow的流量却在一年内下跌了35%。代码生成大模型正在重塑程序员的日常工作方式。然而,当开发者们习惯性地将需求抛给AI,期待一段可运行的代码时,一个更深层的问题常常被忽略:这些模型究竟是在"理解"代码,还是仅仅在进行某种高级的模式匹配? ...

14 min · 6978 words

修改一个知识为何让千亿参数模型崩溃

2022年,Kevin Meng等人在NeurIPS发表了题为"Locating and Editing Factual Associations in GPT"的论文,提出了ROME(Rank-One Model Editing)方法。研究者们声称,他们可以精确定位模型中存储特定事实的位置,并通过数学手段直接修改权重来更新知识。这篇论文引起了巨大轰动——人们第一次看到了不重新训练就能更新模型知识的希望。 ...

20 min · 9890 words

梯度同步:为什么分布式训练卡在通信瓶颈上二十年无法突破?

当你在8张GPU上训练一个7B参数模型需要3天,扩展到128张GPU时却发现只快了8倍而不是16倍——剩下的一半性能去哪了?答案藏在每一步迭代中都会发生却极少被提及的操作里:梯度同步。 ...

17 min · 8129 words