大语言模型

从Transformer的二次复杂度困境到Mamba的线性突围：状态空间模型如何重塑序列建模

2023年12月，卡内基梅隆大学的Albert Gu和普林斯顿大学的Tri Dao在arXiv上发表了一篇论文，声称首次实现了"线性时间的Transformer级别性能"。这篇论文的标题很朴素——《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》，但其展示的数据却引发了广泛关注：在百万级token长度上，Mamba的推理吞吐量达到同规模Transformer的5倍。 ...

AI生成内容的隐形身份证：大语言模型水印如何让机器文本无处遁形

2023年1月，马里兰大学的研究团队在arXiv上发表了一篇论文，标题很朴素：《A Watermark for Large Language Models》。但论文中的一个演示却引发了广泛关注：一段仅56个单词的文本，因为嵌入了水印，被算法以约 $6 \times 10^{-14}$ 的概率判定为机器生成——这个概率比连续中两次彩票头奖还要低。 ...

第一个Token的隐形权力：Attention Sink如何拯救流式大模型

2023年，MIT韩松实验室的研究团队在测试一个看似简单的问题时，发现了一个令人困惑的现象。他们尝试用滑动窗口来限制大模型的KV Cache大小——这是控制显存占用的标准做法。然而，当窗口滑动、第一个Token被踢出缓存时，模型不是逐渐变差，而是瞬间崩溃。 ...

Ring Attention如何让大模型突破百万Token上下文从环形通信到计算重叠的技术突围

2023年10月，伯克利大学的研究团队提交了一篇论文，声称可以让Transformer处理"接近无限"长度的上下文。实验数据令人咋舌：在512块TPU v4上，7B模型可以训练超过800万Token的序列；在1024块TPU v4上，这个数字飙升到1600万。 ...

为什么大模型越思考越聪明：从o1到DeepSeek-R1的推理时计算革命

2024年9月，OpenAI发布了一款名为o1的新模型。在GPQA Diamond测试——一项涵盖物理、化学、生物的博士级科学问题评估中，o1取得了77.3%的准确率，而招募的博士级专家平均得分仅为69.7%。这是AI首次在这一基准测试中超越人类专家。 ...

DPO为何能取代RLHF成为大模型对齐的主流方法：从奖励函数重参数化到偏好优化的数学革命

2022年，ChatGPT的成功让"人类反馈强化学习"（RLHF）成为大模型训练的标配流程。但很少有人知道，这个流程在工程实现上有多么脆弱——PPO训练需要精心调校的学习率、KL散度系数、价值函数裁剪范围等超参数，稍有不慎就会导致模型崩溃或性能退化。一位资深工程师曾调侃：“调PPO比调女朋友还难。” ...

位置编码的二十年演进：从Sinusoidal到RoPE，Transformer如何理解「位置」

把"我爱北京"四个字打乱顺序，变成"北京我爱"，意思完全变了。但对Transformer的自注意力机制来说，这两个输入几乎没有区别——它会以完全相同的方式计算每个词与其他词的关联度。 ...