数据工程 | Answer

开放表格式的元数据层战争：从Hive目录列表到三层快照架构的十年技术突围

2015年，Uber的工程师们面临一个看似无解的困境：他们的数据湖每天要处理数十亿次行程更新，每次行程的状态都可能从"进行中"变成"完成"，甚至可能被取消。用传统数据湖的方式——把数据写入Parquet文件就不管了——根本行不通。每次更新都需要重写整个分区，删除操作更是噩梦。 ...

合成数据训练大模型：从Phi的成功到模型崩溃的十五年博弈

2023年6月，微软研究院发布了一篇标题充满争议性的论文：《Textbooks Are All You Need》。论文介绍了phi-1模型——一个仅有13亿参数的语言模型，在HumanEval代码基准测试上达到了50.6%的pass@1准确率，超越了拥有超过100倍参数的模型。秘密在于它的训练数据：70亿token的网页数据和10亿token由GPT-3.5生成的合成教科书数据。 ...

序列化格式的二十年博弈：为什么 JSON 没能统一数据交换

一个承载每秒百万级请求的微服务系统，工程师发现某个JSON端点静悄悄地成为了CPU的头号消费者——没有任何错误日志，没有goroutine泄漏，服务看起来运行正常。但火焰图不会说谎：30%到40%的CPU时间消耗在JSON序列化上。这是Go语言社区2024年一份真实的生产环境报告。 ...