开放表格式的元数据层战争:从Hive目录列表到三层快照架构的十年技术突围
2015年,Uber的工程师们面临一个看似无解的困境:他们的数据湖每天要处理数十亿次行程更新,每次行程的状态都可能从"进行中"变成"完成",甚至可能被取消。用传统数据湖的方式——把数据写入Parquet文件就不管了——根本行不通。每次更新都需要重写整个分区,删除操作更是噩梦。 ...
2015年,Uber的工程师们面临一个看似无解的困境:他们的数据湖每天要处理数十亿次行程更新,每次行程的状态都可能从"进行中"变成"完成",甚至可能被取消。用传统数据湖的方式——把数据写入Parquet文件就不管了——根本行不通。每次更新都需要重写整个分区,删除操作更是噩梦。 ...