开放表格式的元数据层战争:从Hive目录列表到三层快照架构的十年技术突围

2015年,Uber的工程师们面临一个看似无解的困境:他们的数据湖每天要处理数十亿次行程更新,每次行程的状态都可能从"进行中"变成"完成",甚至可能被取消。用传统数据湖的方式——把数据写入Parquet文件就不管了——根本行不通。每次更新都需要重写整个分区,删除操作更是噩梦。 ...

21 min · 10504 words

合成数据训练大模型:从Phi的成功到模型崩溃的十五年博弈

2023年6月,微软研究院发布了一篇标题充满争议性的论文:《Textbooks Are All You Need》。论文介绍了phi-1模型——一个仅有13亿参数的语言模型,在HumanEval代码基准测试上达到了50.6%的pass@1准确率,超越了拥有超过100倍参数的模型。秘密在于它的训练数据:70亿token的网页数据和10亿token由GPT-3.5生成的合成教科书数据。 ...

10 min · 4894 words

序列化格式的二十年博弈:为什么 JSON 没能统一数据交换

一个承载每秒百万级请求的微服务系统,工程师发现某个JSON端点静悄悄地成为了CPU的头号消费者——没有任何错误日志,没有goroutine泄漏,服务看起来运行正常。但火焰图不会说谎:30%到40%的CPU时间消耗在JSON序列化上。这是Go语言社区2024年一份真实的生产环境报告。 ...

10 min · 5003 words