Answer

神经网络剪枝为何难以落地从彩票假说到LLM稀疏化的三十年技术博弈

1990年，Yann LeCun发表了一篇题为《Optimal Brain Damage》的论文，提出了一个反直觉的发现：训练好的神经网络中，高达90%的参数可以被安全删除，而模型精度几乎不受影响。这篇文章开创了神经网络剪枝的研究领域，但三十多年后，这项技术仍然难以在实际部署中大规模应用。 ...

千亿参数模型如何拆分到多张GPU上训练：从数据并行到3D并行的技术突围

2020年，OpenAI发布了拥有1750亿参数的GPT-3模型。按照FP16精度计算，仅存储模型权重就需要350GB显存——而当时最先进的NVIDIA A100 GPU只有80GB显存。这意味着，即使不考虑训练过程中额外的梯度、优化器状态和激活值，单张GPU连加载模型都做不到。 ...

为什么一张显卡能干翻整个CPU集群：GPU并行计算如何成为深度学习的基石

2012年9月30日，ImageNet图像识别挑战赛的结果震惊了整个计算机视觉领域。一个名为AlexNet的卷积神经网络以15.3%的错误率夺冠，比第二名整整低了十个百分点。这个数字本身已经足够惊人，但更关键的是AlexNet的训练方式：它使用了两个GTX 580显卡并行训练，耗时仅五到六天。如果用当时的CPU完成同样的训练，需要数十年。 ...

一个请求先结束为何整批都要等从静态批处理到连续批处理的LLM推理革命

2023年，一个令人震惊的数据在AI基础设施领域引发了震动：现有的大模型推理系统正在浪费60-80%的GPU计算资源。这些昂贵的计算硬件并非因模型不够先进而闲置，而是被一种看不见的"幽灵"吞噬——批处理策略的低效。 ...

为什么让大模型一步步思考就能提升推理能力——从思维链到涌现能力的认知科学解释

2022年1月，Google Research的Jason Wei团队发表了一篇论文，展示了一组令人困惑的数据：在GSM8K数学推理基准测试上，一个540B参数的语言模型，仅仅通过在提示词中加入8个带推理步骤的示例，准确率就从约18%飙升至超过55%——这个结果甚至超过了经过微调的GPT-3。 ...

为什么PagedAttention能让大模型推理吞吐量提升数倍——从KV Cache内存碎片到分页管理的系统级优化

2023年，加州大学伯克利分校的研究团队发表了一篇论文，揭示了一个令人震惊的数据：现有的大模型推理系统正在浪费60-80%的GPU显存。这些昂贵的计算资源并非用于实际的模型计算，而是被一种看不见的"幽灵"吞噬——内存碎片。 ...

为什么Flash Attention能将注意力计算提速数倍而不损失精度——从GPU内存墙到IO感知算法的技术突围

2023年，当大模型的上下文窗口从4K扩展到128K甚至更长时，一个看似不可逾越的技术障碍横亘在研究者和工程师面前：注意力机制的计算复杂度随序列长度呈二次方增长。处理一个16K token的序列，光是注意力矩阵就要占用近1GB显存；64K序列的注意力矩阵更是超过16GB，直接撑爆了当时最顶级GPU的内存容量。 ...