滑动窗口注意力:为什么一个「局部窗口」能看完全局信息?

2023年9月,Mistral AI发布了一款仅有73亿参数的模型,却在几乎所有基准测试上超越了拥有130亿参数的LLaMA 2。这个令人意外的结果背后,一个关键技术就是滑动窗口注意力(Sliding Window Attention,SWA)。 ...

18 min · 8571 words

KV Cache压缩如何让大模型突破百万token上下文——从Attention Sink到Heavy Hitter的技术突围

一个70亿参数的语言模型,在处理128K上下文时,光是KV Cache就要占用约40GB显存——这还没有算上模型权重本身。当大模型的上下文窗口从4K扩展到128K甚至更长时,一个看似不可逾越的障碍横亘在研究者和工程师面前:KV Cache的内存占用随序列长度线性增长,迅速吞噬有限的GPU显存。 ...

12 min · 5607 words

为何大模型总忽略中间内容:从Lost in the Middle到注意力盆地的技术解密

一个检索增强生成(RAG)系统为回答用户问题,从知识库中检索了10篇相关文档。其中第6篇文档包含了正确答案的关键信息。然而,模型最终输出的答案却是错的——它"看到"了放在第1篇和第10篇的干扰信息,却完全忽略了中间那篇真正有用的文档。 ...

10 min · 4662 words

测试时训练:当模型在推理阶段继续学习会发生什么

2017年,Hinton和Plaut在论文中提出了"Fast Weights"的概念——一种在推理时快速更新的记忆机制。这个想法沉寂多年,直到2020年才被Sun等人重新挖掘,演变成Test-Time Training(TTT)——一种让模型在推理阶段继续学习的技术范式。如今,这项技术已经从视觉模型的域适应工具,发展为挑战Transformer霸主地位的新架构,甚至让语言模型在ARC抽象推理基准上达到人类水平。 ...

9 min · 4412 words

第一个Token的隐形权力:Attention Sink如何拯救流式大模型

2023年,MIT韩松实验室的研究团队在测试一个看似简单的问题时,发现了一个令人困惑的现象。他们尝试用滑动窗口来限制大模型的KV Cache大小——这是控制显存占用的标准做法。然而,当窗口滑动、第一个Token被踢出缓存时,模型不是逐渐变差,而是瞬间崩溃。 ...

9 min · 4366 words

Ring Attention如何让大模型突破百万Token上下文从环形通信到计算重叠的技术突围

2023年10月,伯克利大学的研究团队提交了一篇论文,声称可以让Transformer处理"接近无限"长度的上下文。实验数据令人咋舌:在512块TPU v4上,7B模型可以训练超过800万Token的序列;在1024块TPU v4上,这个数字飙升到1600万。 ...

11 min · 5287 words

位置编码的二十年演进:从Sinusoidal到RoPE,Transformer如何理解「位置」

把"我 爱 北 京"四个字打乱顺序,变成"北 京 我 爱",意思完全变了。但对Transformer的自注意力机制来说,这两个输入几乎没有区别——它会以完全相同的方式计算每个词与其他词的关联度。 ...

13 min · 6275 words