技术原理 | Answer

Base64编码的技术本质：从字符串到网络请求的完整实现链路

1987年，RFC 989定义了一种名为"Privacy-Enhanced Mail"的标准，其中包含了一个看似简单的需求：如何在不支持二进制数据的邮件系统中传输加密内容？这个问题的答案，诞生了今天被广泛使用的Base64编码。 ...

第一个Token的隐形权力：Attention Sink如何拯救流式大模型

2023年，MIT韩松实验室的研究团队在测试一个看似简单的问题时，发现了一个令人困惑的现象。他们尝试用滑动窗口来限制大模型的KV Cache大小——这是控制显存占用的标准做法。然而，当窗口滑动、第一个Token被踢出缓存时，模型不是逐渐变差，而是瞬间崩溃。 ...

为什么大模型越思考越聪明：从o1到DeepSeek-R1的推理时计算革命

2024年9月，OpenAI发布了一款名为o1的新模型。在GPQA Diamond测试——一项涵盖物理、化学、生物的博士级科学问题评估中，o1取得了77.3%的准确率，而招募的博士级专家平均得分仅为69.7%。这是AI首次在这一基准测试中超越人类专家。 ...

DPO为何能取代RLHF成为大模型对齐的主流方法：从奖励函数重参数化到偏好优化的数学革命

2022年，ChatGPT的成功让"人类反馈强化学习"（RLHF）成为大模型训练的标配流程。但很少有人知道，这个流程在工程实现上有多么脆弱——PPO训练需要精心调校的学习率、KL散度系数、价值函数裁剪范围等超参数，稍有不慎就会导致模型崩溃或性能退化。一位资深工程师曾调侃：“调PPO比调女朋友还难。” ...

位置编码的二十年演进：从Sinusoidal到RoPE，Transformer如何理解「位置」

把"我爱北京"四个字打乱顺序，变成"北京我爱"，意思完全变了。但对Transformer的自注意力机制来说，这两个输入几乎没有区别——它会以完全相同的方式计算每个词与其他词的关联度。 ...

GQA为何能让Llama 2推理速度翻倍：从MHA到MQA的注意力架构演进

2019年，Noam Shazeer在Google发表了一篇仅4页的论文，标题是《Fast Transformer Decoding: One Write-Head is All You Need》。这篇论文提出了一个激进的方案：让所有注意力头共享同一组Key和Value。结果是KV Cache缩小了几十倍，推理速度提升了10倍以上。 ...

投机解码如何让大模型推理提速两倍而不损失精度

一个拥有1750亿参数的语言模型，每次生成一个token都需要从内存读取超过700GB的权重数据——但实际执行的计算量却让GPU大部分时间处于空闲状态。这种"内存等待计算"的倒挂现象，是大模型推理速度的根本瓶颈。 ...