压缩算法 | Answer

为什么没有万能压缩算法：从香农极限到Pareto前沿的技术真相

1948年，Claude Shannon在一篇开创性论文中定义了数据压缩的理论边界。七十七年后，尽管CPU性能提升了数百万倍，我们依然无法突破这条界限。更令人沮丧的是，半个世纪的技术演进揭示了一个残酷事实：速度、压缩比、内存占用——你永远只能选两个。 ...

Roaring Bitmaps：为什么这种压缩位图正在重塑大数据分析的存储范式

2014年，Daniel Lemire和Samy Chambi等人在arXiv上发表了一篇题为《Better bitmap performance with Roaring bitmaps》的论文。论文的核心结论令人印象深刻：相比当时主流的压缩位图方案WAH和Concise，Roaring bitmaps在交集操作上快了最多900倍，同时压缩率还提高了约2倍。这不是学术界的理论推演，而是基于真实数据集的实测结果。 ...

压缩算法的五十年技术博弈：为什么速度和压缩比从来不能兼得

1948年，贝尔实验室的克劳德·香农发表了一篇题为《通信的数学理论》的论文。这篇论文定义了一个叫做"熵"的概念：对于任何信息源，存在一个不可逾越的压缩极限。无论你用什么方法，都无法把数据压缩到这个极限以下而不丢失信息。 ...

时序数据库如何用1.37字节存储一个数据点：从压缩算法到存储引擎的十五年演进

2015年，Facebook的监控团队面临一个看似无解的问题：每秒产生700万个数据点，如果按照传统方式存储，仅内存就需要16TB。这个数字意味着任何规模的集群都无法在经济上承受。但他们最终找到了答案——通过一种称为Gorilla的压缩算法，将每个数据点从16字节压缩到平均1.37字节，压缩比达到12倍。 ...