深度学习 | Answer

大模型训练的显存瓶颈如何突破：从ZeRO到Flash Attention的五年技术演进

显存墙：大模型训练的第一道坎 2020年，OpenAI训练GPT-3时，1750亿参数的模型需要超过350GB的显存——这远超任何单张GPU的容量。三年后，Meta训练Llama 2-70B时，单张A100 80GB显卡甚至无法完整加载模型权重。显存，而非计算能力，已经成为大模型训练的首要瓶颈。 ...

目标检测技术的二十年演进：从滑动窗口到端到端的范式革命

当计算机第一次"看见"人脸 2001年，Paul Viola和Michael Jones在CVPR上发表了一篇题为《Rapid Object Detection using a Boosted Cascade of Simple Features》的论文。这篇论文解决了一个困扰计算机视觉领域数十年的问题：如何让计算机实时地检测图像中的人脸。 ...

主动学习：当机器学会"提问"——如何用更少标注获得更强模型

标注：机器学习的阿喀琉斯之踵机器学习领域有一个公开的秘密：算法越来越强，但数据标注的成本越来越高。 2010年，Burr Settles在其经典综述中记录了一个令人震惊的数据：语音识别中的音素标注，一分钟音频需要近七个小时才能完成。这不是个例。医学影像的分割标注，单张图像可能需要2-15分钟；法律文档的分类标注，需要资深律师逐字审阅；生物信息学中的基因标注，往往需要博士级别的专业知识。 ...

为什么高斯分布统治了机器学习的隐空间：从中心极限定理到扩散模型的数学真相

为什么高斯分布统治了机器学习的隐空间：从中心极限定理到扩散模型的数学真相打开任何一个深度学习模型，你会发现高斯分布无处不在：权重初始化服从$\mathcal{N}(0, \sqrt{2/n})$，VAE的隐变量被约束为$\mathcal{N}(\mu, \sigma^2)$，扩散模型的前向过程逐步添加高斯噪声，连随机梯度下降的噪声都被近似为高斯分布。这不是巧合，也不是习惯使然——高斯分布对机器学习的统治，源于数学深处的必然性。 ...

大模型代码生成能力的边界与突破——从语法理解到语义推理的技术解析

2022年末，GitHub Copilot的月活用户突破150万，Stack Overflow的流量却在一年内下跌了35%。代码生成大模型正在重塑程序员的日常工作方式。然而，当开发者们习惯性地将需求抛给AI，期待一段可运行的代码时，一个更深层的问题常常被忽略：这些模型究竟是在"理解"代码，还是仅仅在进行某种高级的模式匹配？ ...

修改一个知识为何让千亿参数模型崩溃

2022年，Kevin Meng等人在NeurIPS发表了题为"Locating and Editing Factual Associations in GPT"的论文，提出了ROME（Rank-One Model Editing）方法。研究者们声称，他们可以精确定位模型中存储特定事实的位置，并通过数学手段直接修改权重来更新知识。这篇论文引起了巨大轰动——人们第一次看到了不重新训练就能更新模型知识的希望。 ...

梯度同步：为什么分布式训练卡在通信瓶颈上二十年无法突破？

当你在8张GPU上训练一个7B参数模型需要3天，扩展到128张GPU时却发现只快了8倍而不是16倍——剩下的一半性能去哪了？答案藏在每一步迭代中都会发生却极少被提及的操作里：梯度同步。 ...