为什么大模型越思考越聪明:从o1到DeepSeek-R1的推理时计算革命

2024年9月,OpenAI发布了一款名为o1的新模型。在GPQA Diamond测试——一项涵盖物理、化学、生物的博士级科学问题评估中,o1取得了77.3%的准确率,而招募的博士级专家平均得分仅为69.7%。这是AI首次在这一基准测试中超越人类专家。 ...

11 min · 5124 words

DPO为何能取代RLHF成为大模型对齐的主流方法:从奖励函数重参数化到偏好优化的数学革命

2022年,ChatGPT的成功让"人类反馈强化学习"(RLHF)成为大模型训练的标配流程。但很少有人知道,这个流程在工程实现上有多么脆弱——PPO训练需要精心调校的学习率、KL散度系数、价值函数裁剪范围等超参数,稍有不慎就会导致模型崩溃或性能退化。一位资深工程师曾调侃:“调PPO比调女朋友还难。” ...

12 min · 5761 words

位置编码的二十年演进:从Sinusoidal到RoPE,Transformer如何理解「位置」

把"我 爱 北 京"四个字打乱顺序,变成"北 京 我 爱",意思完全变了。但对Transformer的自注意力机制来说,这两个输入几乎没有区别——它会以完全相同的方式计算每个词与其他词的关联度。 ...

13 min · 6275 words

MoE的门控路由为何如此难以训练?从负载均衡到专家坍缩的技术困境

当混合专家模型(Mixture of Experts, MoE)首次在2017年被提出时,研究者的愿景很美好:用一组专门化的"专家"网络替代传统的全连接层,让每个输入只激活一小部分参数,从而在保持计算效率的同时大幅扩展模型容量。然而,当他们真正开始训练这些模型时,却发现了一个令人沮丧的现象——路由器总是倾向于选择相同的几个专家,而让其他专家完全闲置。 ...

15 min · 7035 words

GQA为何能让Llama 2推理速度翻倍:从MHA到MQA的注意力架构演进

2019年,Noam Shazeer在Google发表了一篇仅4页的论文,标题是《Fast Transformer Decoding: One Write-Head is All You Need》。这篇论文提出了一个激进的方案:让所有注意力头共享同一组Key和Value。结果是KV Cache缩小了几十倍,推理速度提升了10倍以上。 ...

10 min · 4906 words

BF16为何正在取代FP16成为大模型训练的标准格式从动态范围陷阱到损失缩放的技术突围

2017年,NVIDIA和百度研究院联合发表了一篇题为《Mixed Precision Training》的论文,展示了如何用16位浮点数训练深度神经网络。论文中有一个不起眼的细节:训练某些网络时,需要将损失值放大8到32768倍,否则梯度会变成零。 ...

9 min · 4389 words

神经网络剪枝为何难以落地从彩票假说到LLM稀疏化的三十年技术博弈

1990年,Yann LeCun发表了一篇题为《Optimal Brain Damage》的论文,提出了一个反直觉的发现:训练好的神经网络中,高达90%的参数可以被安全删除,而模型精度几乎不受影响。这篇文章开创了神经网络剪枝的研究领域,但三十多年后,这项技术仍然难以在实际部署中大规模应用。 ...

12 min · 5582 words