LSM-Tree的Compaction为何让数据库工程师又爱又恨:从写放大到读放大的三十年权衡

2018年,某互联网公司的一条生产事故报告引发了广泛关注:他们的RocksDB实例在写入量激增时突然"卡死",应用层请求超时雪崩。排查日志后发现,罪魁祸首是Write Stall——RocksDB的内部保护机制在L0层文件过多时主动暂停写入。这不是孤例。在LSM-Tree架构的数据库中,Compaction(合并压缩)机制既是性能的守护者,也可能成为故障的导火索。 ...

12 min · 5976 words

故障检测器为何成为分布式系统最脆弱的一环——从心跳超时的两难困境到Phi Accrual的数学突围

1997年,NASA的Mars Pathfinder探测器在火星表面成功着陆后不久,开始出现诡异的系统重启。每次重启都导致数据采集中断,任务濒临失败。工程师们排查后发现,问题出在一个经典的分布式系统困境:优先级反转导致低优先级任务长时间占用关键资源,高优先级的"看门狗"任务无法及时执行,系统误判为故障并触发重启。 ...

10 min · 4796 words