为什么没有万能压缩算法:从香农极限到Pareto前沿的技术真相

1948年,Claude Shannon在一篇开创性论文中定义了数据压缩的理论边界。七十七年后,尽管CPU性能提升了数百万倍,我们依然无法突破这条界限。更令人沮丧的是,半个世纪的技术演进揭示了一个残酷事实:速度、压缩比、内存占用——你永远只能选两个。 ...

13 min · 6212 words

Roaring Bitmaps:为什么这种压缩位图正在重塑大数据分析的存储范式

2014年,Daniel Lemire和Samy Chambi等人在arXiv上发表了一篇题为《Better bitmap performance with Roaring bitmaps》的论文。论文的核心结论令人印象深刻:相比当时主流的压缩位图方案WAH和Concise,Roaring bitmaps在交集操作上快了最多900倍,同时压缩率还提高了约2倍。这不是学术界的理论推演,而是基于真实数据集的实测结果。 ...

12 min · 5685 words

压缩算法的五十年技术博弈:为什么速度和压缩比从来不能兼得

1948年,贝尔实验室的克劳德·香农发表了一篇题为《通信的数学理论》的论文。这篇论文定义了一个叫做"熵"的概念:对于任何信息源,存在一个不可逾越的压缩极限。无论你用什么方法,都无法把数据压缩到这个极限以下而不丢失信息。 ...

12 min · 5723 words

时序数据库如何用1.37字节存储一个数据点:从压缩算法到存储引擎的十五年演进

2015年,Facebook的监控团队面临一个看似无解的问题:每秒产生700万个数据点,如果按照传统方式存储,仅内存就需要16TB。这个数字意味着任何规模的集群都无法在经济上承受。但他们最终找到了答案——通过一种称为Gorilla的压缩算法,将每个数据点从16字节压缩到平均1.37字节,压缩比达到12倍。 ...

11 min · 5296 words