大模型推理

KV Cache压缩如何让大模型突破百万token上下文——从Attention Sink到Heavy Hitter的技术突围

一个70亿参数的语言模型，在处理128K上下文时，光是KV Cache就要占用约40GB显存——这还没有算上模型权重本身。当大模型的上下文窗口从4K扩展到128K甚至更长时，一个看似不可逾越的障碍横亘在研究者和工程师面前：KV Cache的内存占用随序列长度线性增长，迅速吞噬有限的GPU显存。 ...

GPU显存为何总是不够用：从内存墙到KV Cache碎片化的技术突围

当你满怀信心地启动一个 70B 参数的大模型推理任务，看着进度条稳步前进，突然——屏幕一闪，一行冰冷的红字弹出：CUDA out of memory。你检查显存，明明还剩 20GB 空间，为什么还是 OOM？ ...