GPU显存为何总是不够用:从内存墙到KV Cache碎片化的技术突围

当你满怀信心地启动一个 70B 参数的大模型推理任务,看着进度条稳步前进,突然——屏幕一闪,一行冰冷的红字弹出:CUDA out of memory。你检查显存,明明还剩 20GB 空间,为什么还是 OOM? ...

12 min · 5643 words

压缩算法的五十年技术博弈:为什么速度和压缩比从来不能兼得

1948年,贝尔实验室的克劳德·香农发表了一篇题为《通信的数学理论》的论文。这篇论文定义了一个叫做"熵"的概念:对于任何信息源,存在一个不可逾越的压缩极限。无论你用什么方法,都无法把数据压缩到这个极限以下而不丢失信息。 ...

12 min · 5723 words