Answer

为什么大模型越思考越聪明：从o1到DeepSeek-R1的推理时计算革命

2024年9月，OpenAI发布了一款名为o1的新模型。在GPQA Diamond测试——一项涵盖物理、化学、生物的博士级科学问题评估中，o1取得了77.3%的准确率，而招募的博士级专家平均得分仅为69.7%。这是AI首次在这一基准测试中超越人类专家。 ...

DPO为何能取代RLHF成为大模型对齐的主流方法：从奖励函数重参数化到偏好优化的数学革命

2022年，ChatGPT的成功让"人类反馈强化学习"（RLHF）成为大模型训练的标配流程。但很少有人知道，这个流程在工程实现上有多么脆弱——PPO训练需要精心调校的学习率、KL散度系数、价值函数裁剪范围等超参数，稍有不慎就会导致模型崩溃或性能退化。一位资深工程师曾调侃：“调PPO比调女朋友还难。” ...

位置编码的二十年演进：从Sinusoidal到RoPE，Transformer如何理解「位置」

把"我爱北京"四个字打乱顺序，变成"北京我爱"，意思完全变了。但对Transformer的自注意力机制来说，这两个输入几乎没有区别——它会以完全相同的方式计算每个词与其他词的关联度。 ...

量化训练为何能用8位精度完成模型学习从数值稳定性到误差补偿的数学原理

2023年10月，一篇名为 FP8-LM 的论文在 arXiv 上发布，研究团队用8位浮点数完成了 GPT-175B 的训练——内存占用减少39%，训练速度提升75%。这并非孤例，QLoRA 更是将模型压缩到4位，却依然保持着与16位训练相当的微调效果。这些数字背后的数学原理，揭示了深度学习一个反直觉的特性：神经网络对数值精度的要求，远比我们想象的要低。 ...

MoE的门控路由为何如此难以训练？从负载均衡到专家坍缩的技术困境

当混合专家模型（Mixture of Experts, MoE）首次在2017年被提出时，研究者的愿景很美好：用一组专门化的"专家"网络替代传统的全连接层，让每个输入只激活一小部分参数，从而在保持计算效率的同时大幅扩展模型容量。然而，当他们真正开始训练这些模型时，却发现了一个令人沮丧的现象——路由器总是倾向于选择相同的几个专家，而让其他专家完全闲置。 ...

GQA为何能让Llama 2推理速度翻倍：从MHA到MQA的注意力架构演进

2019年，Noam Shazeer在Google发表了一篇仅4页的论文，标题是《Fast Transformer Decoding: One Write-Head is All You Need》。这篇论文提出了一个激进的方案：让所有注意力头共享同一组Key和Value。结果是KV Cache缩小了几十倍，推理速度提升了10倍以上。 ...

BF16为何正在取代FP16成为大模型训练的标准格式从动态范围陷阱到损失缩放的技术突围

2017年，NVIDIA和百度研究院联合发表了一篇题为《Mixed Precision Training》的论文，展示了如何用16位浮点数训练深度神经网络。论文中有一个不起眼的细节：训练某些网络时，需要将损失值放大8到32768倍，否则梯度会变成零。 ...