开放表格式的元数据层战争:从Hive目录列表到三层快照架构的十年技术突围
2015年,Uber的工程师们面临一个看似无解的困境:他们的数据湖每天要处理数十亿次行程更新,每次行程的状态都可能从"进行中"变成"完成",甚至可能被取消。用传统数据湖的方式——把数据写入Parquet文件就不管了——根本行不通。每次更新都需要重写整个分区,删除操作更是噩梦。 ...
2015年,Uber的工程师们面临一个看似无解的困境:他们的数据湖每天要处理数十亿次行程更新,每次行程的状态都可能从"进行中"变成"完成",甚至可能被取消。用传统数据湖的方式——把数据写入Parquet文件就不管了——根本行不通。每次更新都需要重写整个分区,删除操作更是噩梦。 ...
一个真实的数据对比揭示了令人震惊的性能差距:同样的1000万行数据,运行相同的分析查询,PostgreSQL需要12.2秒,而ClickHouse只需要453毫秒——27倍的差距。这不是硬件差异,不是索引设计,而是两种存储范式在数据仓库场景下的必然结果。 ...