从Transformer的二次复杂度困境到Mamba的线性突围:状态空间模型如何重塑序列建模

2023年12月,卡内基梅隆大学的Albert Gu和普林斯顿大学的Tri Dao在arXiv上发表了一篇论文,声称首次实现了"线性时间的Transformer级别性能"。这篇论文的标题很朴素——《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》,但其展示的数据却引发了广泛关注:在百万级token长度上,Mamba的推理吞吐量达到同规模Transformer的5倍。 ...

11 min · 5104 words

AI生成内容的隐形身份证:大语言模型水印如何让机器文本无处遁形

2023年1月,马里兰大学的研究团队在arXiv上发表了一篇论文,标题很朴素:《A Watermark for Large Language Models》。但论文中的一个演示却引发了广泛关注:一段仅56个单词的文本,因为嵌入了水印,被算法以约 $6 \times 10^{-14}$ 的概率判定为机器生成——这个概率比连续中两次彩票头奖还要低。 ...

10 min · 4979 words

第一个Token的隐形权力:Attention Sink如何拯救流式大模型

2023年,MIT韩松实验室的研究团队在测试一个看似简单的问题时,发现了一个令人困惑的现象。他们尝试用滑动窗口来限制大模型的KV Cache大小——这是控制显存占用的标准做法。然而,当窗口滑动、第一个Token被踢出缓存时,模型不是逐渐变差,而是瞬间崩溃。 ...

9 min · 4366 words

Ring Attention如何让大模型突破百万Token上下文从环形通信到计算重叠的技术突围

2023年10月,伯克利大学的研究团队提交了一篇论文,声称可以让Transformer处理"接近无限"长度的上下文。实验数据令人咋舌:在512块TPU v4上,7B模型可以训练超过800万Token的序列;在1024块TPU v4上,这个数字飙升到1600万。 ...

11 min · 5287 words

为什么大模型越思考越聪明:从o1到DeepSeek-R1的推理时计算革命

2024年9月,OpenAI发布了一款名为o1的新模型。在GPQA Diamond测试——一项涵盖物理、化学、生物的博士级科学问题评估中,o1取得了77.3%的准确率,而招募的博士级专家平均得分仅为69.7%。这是AI首次在这一基准测试中超越人类专家。 ...

11 min · 5124 words

DPO为何能取代RLHF成为大模型对齐的主流方法:从奖励函数重参数化到偏好优化的数学革命

2022年,ChatGPT的成功让"人类反馈强化学习"(RLHF)成为大模型训练的标配流程。但很少有人知道,这个流程在工程实现上有多么脆弱——PPO训练需要精心调校的学习率、KL散度系数、价值函数裁剪范围等超参数,稍有不慎就会导致模型崩溃或性能退化。一位资深工程师曾调侃:“调PPO比调女朋友还难。” ...

12 min · 5761 words

位置编码的二十年演进:从Sinusoidal到RoPE,Transformer如何理解「位置」

把"我 爱 北 京"四个字打乱顺序,变成"北 京 我 爱",意思完全变了。但对Transformer的自注意力机制来说,这两个输入几乎没有区别——它会以完全相同的方式计算每个词与其他词的关联度。 ...

13 min · 6275 words