KV Cache压缩如何让大模型突破百万token上下文——从Attention Sink到Heavy Hitter的技术突围

一个70亿参数的语言模型,在处理128K上下文时,光是KV Cache就要占用约40GB显存——这还没有算上模型权重本身。当大模型的上下文窗口从4K扩展到128K甚至更长时,一个看似不可逾越的障碍横亘在研究者和工程师面前:KV Cache的内存占用随序列长度线性增长,迅速吞噬有限的GPU显存。 ...

12 min · 5607 words

不是所有 Token 都值得被同等对待:Mixture-of-Depths 如何重塑 Transformer 的计算范式

传统 Transformer 有一个很少有人质疑的设计假设:序列中的每一个 token,无论其重要性如何,都必须经过完全相同数量的层进行处理。一个简单的"的"字和一个承载核心语义的动词,在计算资源上被一视同仁。这种"计算平均主义"在大模型时代显得尤为奢侈——当参数量飙升至千亿级别,每一个不必要的 FLOP 都在消耗真金白银。 ...

11 min · 5443 words

纠删码如何用50%存储开销实现比三副本更高的可靠性

2012年,微软Azure Storage团队面临一个严峻的选择:存储数据量正以每两天1PB的速度增长,按照传统的三副本策略,这意味着每两天需要采购3PB的存储设备。更糟糕的是,数据中心的电力、制冷和运维成本也随之水涨船高。团队需要一种能在保证数据可靠性的前提下大幅降低存储成本的方案。他们最终选择了纠删码——这项源自1960年代通信领域的技术,在存储系统中找到了新的生命。 ...

10 min · 4931 words

为什么神经网络学会了新知识就会忘记旧知识:从灾难性遗忘到持续学习的技术突围

1989年,心理学家Michael McCloskey和Neal Cohen做了一个看似简单的实验:让一个三层神经网络先学会做一组加减法题目,再学习另一组。结果令人震惊——当网络掌握了第二组题目后,对第一组的正确率从接近100%暴跌到10%以下。他们给这种现象起了一个名字:灾难性干扰(Catastrophic Interference),后来更常被称为灾难性遗忘。 ...

13 min · 6479 words

当量子计算机敲开RSA的大门:后量子密码学的二十年突围

2024年8月13日,美国商务部批准了三项联邦信息处理标准(FIPS),正式开启了密码学的新纪元。这不是一次普通的标准更新——这三项标准指定了能够抵御量子计算机攻击的密钥建立和数字签名方案。为什么这次更新如此重要?因为当今保护互联网安全的RSA和椭圆曲线密码(ECC),在未来足够强大的量子计算机面前将不堪一击。 ...

12 min · 5974 words

为何大模型总忽略中间内容:从Lost in the Middle到注意力盆地的技术解密

一个检索增强生成(RAG)系统为回答用户问题,从知识库中检索了10篇相关文档。其中第6篇文档包含了正确答案的关键信息。然而,模型最终输出的答案却是错的——它"看到"了放在第1篇和第10篇的干扰信息,却完全忽略了中间那篇真正有用的文档。 ...

10 min · 4662 words

Prefix Caching 如何让重复提示词在大模型推理中"零成本"通过

一个客服机器人在处理多轮对话时,每次都需要重新"阅读"完整的对话历史。当对话进行到第 10 轮,模型需要处理的上下文已经膨胀到数千 token——这意味着每一轮对话都要重复计算这些相同的文本。在大规模生产环境中,这种冗余计算吞噬着昂贵的 GPU 资源,导致响应延迟累积攀升。 ...

9 min · 4333 words