长上下文 | Answer

滑动窗口注意力：为什么一个「局部窗口」能看完全局信息？

2023年9月，Mistral AI发布了一款仅有73亿参数的模型，却在几乎所有基准测试上超越了拥有130亿参数的LLaMA 2。这个令人意外的结果背后，一个关键技术就是滑动窗口注意力（Sliding Window Attention，SWA）。 ...

KV Cache压缩如何让大模型突破百万token上下文——从Attention Sink到Heavy Hitter的技术突围

一个70亿参数的语言模型，在处理128K上下文时，光是KV Cache就要占用约40GB显存——这还没有算上模型权重本身。当大模型的上下文窗口从4K扩展到128K甚至更长时，一个看似不可逾越的障碍横亘在研究者和工程师面前：KV Cache的内存占用随序列长度线性增长，迅速吞噬有限的GPU显存。 ...

为何大模型总忽略中间内容：从Lost in the Middle到注意力盆地的技术解密

一个检索增强生成(RAG)系统为回答用户问题，从知识库中检索了10篇相关文档。其中第6篇文档包含了正确答案的关键信息。然而，模型最终输出的答案却是错的——它"看到"了放在第1篇和第10篇的干扰信息，却完全忽略了中间那篇真正有用的文档。 ...

测试时训练：当模型在推理阶段继续学习会发生什么

2017年，Hinton和Plaut在论文中提出了"Fast Weights"的概念——一种在推理时快速更新的记忆机制。这个想法沉寂多年，直到2020年才被Sun等人重新挖掘，演变成Test-Time Training（TTT）——一种让模型在推理阶段继续学习的技术范式。如今，这项技术已经从视觉模型的域适应工具，发展为挑战Transformer霸主地位的新架构，甚至让语言模型在ARC抽象推理基准上达到人类水平。 ...

第一个Token的隐形权力：Attention Sink如何拯救流式大模型

2023年，MIT韩松实验室的研究团队在测试一个看似简单的问题时，发现了一个令人困惑的现象。他们尝试用滑动窗口来限制大模型的KV Cache大小——这是控制显存占用的标准做法。然而，当窗口滑动、第一个Token被踢出缓存时，模型不是逐渐变差，而是瞬间崩溃。 ...

Ring Attention如何让大模型突破百万Token上下文从环形通信到计算重叠的技术突围

2023年10月，伯克利大学的研究团队提交了一篇论文，声称可以让Transformer处理"接近无限"长度的上下文。实验数据令人咋舌：在512块TPU v4上，7B模型可以训练超过800万Token的序列；在1024块TPU v4上，这个数字飙升到1600万。 ...

位置编码的二十年演进：从Sinusoidal到RoPE，Transformer如何理解「位置」

把"我爱北京"四个字打乱顺序，变成"北京我爱"，意思完全变了。但对Transformer的自注意力机制来说，这两个输入几乎没有区别——它会以完全相同的方式计算每个词与其他词的关联度。 ...