代码搜索引擎如何在毫秒级遍历百万行代码:从正则引擎革命到Trigram索引的技术突围

在一个拥有数百万行代码的遗留项目中寻找一个特定的函数定义,往往被开发者视为一场噩梦。传统的 grep 命令在递归扫描大型代码库时,可能会卡顿数十秒甚至更久。然而,现代工具如 ripgrep 却能在眨眼间返回结果;企业级代码搜索平台(如 Sourcegraph)甚至能在跨仓库的 PB 级代码海洋中实现毫秒级响应。这种体验上的巨大鸿沟,并非仅仅源于硬件性能的提升,而是源于底层算法和系统架构的革命性突破。 ...

11 min · 5307 words

Roaring Bitmaps:为什么这种压缩位图正在重塑大数据分析的存储范式

2014年,Daniel Lemire和Samy Chambi等人在arXiv上发表了一篇题为《Better bitmap performance with Roaring bitmaps》的论文。论文的核心结论令人印象深刻:相比当时主流的压缩位图方案WAH和Concise,Roaring bitmaps在交集操作上快了最多900倍,同时压缩率还提高了约2倍。这不是学术界的理论推演,而是基于真实数据集的实测结果。 ...

12 min · 5685 words