人工智能 | Answer

为什么大模型越思考越聪明：从o1到DeepSeek-R1的推理时计算革命

2024年9月，OpenAI发布了一款名为o1的新模型。在GPQA Diamond测试——一项涵盖物理、化学、生物的博士级科学问题评估中，o1取得了77.3%的准确率，而招募的博士级专家平均得分仅为69.7%。这是AI首次在这一基准测试中超越人类专家。 ...

DPO为何能取代RLHF成为大模型对齐的主流方法：从奖励函数重参数化到偏好优化的数学革命

2022年，ChatGPT的成功让"人类反馈强化学习"（RLHF）成为大模型训练的标配流程。但很少有人知道，这个流程在工程实现上有多么脆弱——PPO训练需要精心调校的学习率、KL散度系数、价值函数裁剪范围等超参数，稍有不慎就会导致模型崩溃或性能退化。一位资深工程师曾调侃：“调PPO比调女朋友还难。” ...

位置编码的二十年演进：从Sinusoidal到RoPE，Transformer如何理解「位置」

把"我爱北京"四个字打乱顺序，变成"北京我爱"，意思完全变了。但对Transformer的自注意力机制来说，这两个输入几乎没有区别——它会以完全相同的方式计算每个词与其他词的关联度。 ...

MoE的门控路由为何如此难以训练？从负载均衡到专家坍缩的技术困境

当混合专家模型（Mixture of Experts, MoE）首次在2017年被提出时，研究者的愿景很美好：用一组专门化的"专家"网络替代传统的全连接层，让每个输入只激活一小部分参数，从而在保持计算效率的同时大幅扩展模型容量。然而，当他们真正开始训练这些模型时，却发现了一个令人沮丧的现象——路由器总是倾向于选择相同的几个专家，而让其他专家完全闲置。 ...

GQA为何能让Llama 2推理速度翻倍：从MHA到MQA的注意力架构演进

2019年，Noam Shazeer在Google发表了一篇仅4页的论文，标题是《Fast Transformer Decoding: One Write-Head is All You Need》。这篇论文提出了一个激进的方案：让所有注意力头共享同一组Key和Value。结果是KV Cache缩小了几十倍，推理速度提升了10倍以上。 ...

BF16为何正在取代FP16成为大模型训练的标准格式从动态范围陷阱到损失缩放的技术突围

2017年，NVIDIA和百度研究院联合发表了一篇题为《Mixed Precision Training》的论文，展示了如何用16位浮点数训练深度神经网络。论文中有一个不起眼的细节：训练某些网络时，需要将损失值放大8到32768倍，否则梯度会变成零。 ...

神经网络剪枝为何难以落地从彩票假说到LLM稀疏化的三十年技术博弈

1990年，Yann LeCun发表了一篇题为《Optimal Brain Damage》的论文，提出了一个反直觉的发现：训练好的神经网络中，高达90%的参数可以被安全删除，而模型精度几乎不受影响。这篇文章开创了神经网络剪枝的研究领域，但三十多年后，这项技术仍然难以在实际部署中大规模应用。 ...