<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>数据工程 on Answer</title>
    <link>https://answer.freetools.me/categories/%E6%95%B0%E6%8D%AE%E5%B7%A5%E7%A8%8B/</link>
    <description>Recent content in 数据工程 on Answer</description>
    <generator>Hugo -- 0.152.2</generator>
    <language>zh-cn</language>
    <lastBuildDate>Sun, 22 Mar 2026 00:08:42 +0800</lastBuildDate>
    <atom:link href="https://answer.freetools.me/categories/%E6%95%B0%E6%8D%AE%E5%B7%A5%E7%A8%8B/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>开放表格式的元数据层战争：从Hive目录列表到三层快照架构的十年技术突围</title>
      <link>https://answer.freetools.me/%E5%BC%80%E6%94%BE%E8%A1%A8%E6%A0%BC%E5%BC%8F%E7%9A%84%E5%85%83%E6%95%B0%E6%8D%AE%E5%B1%82%E6%88%98%E4%BA%89%E4%BB%8Ehive%E7%9B%AE%E5%BD%95%E5%88%97%E8%A1%A8%E5%88%B0%E4%B8%89%E5%B1%82%E5%BF%AB%E7%85%A7%E6%9E%B6%E6%9E%84%E7%9A%84%E5%8D%81%E5%B9%B4%E6%8A%80%E6%9C%AF%E7%AA%81%E5%9B%B4/</link>
      <pubDate>Sun, 22 Mar 2026 00:08:42 +0800</pubDate>
      <guid>https://answer.freetools.me/%E5%BC%80%E6%94%BE%E8%A1%A8%E6%A0%BC%E5%BC%8F%E7%9A%84%E5%85%83%E6%95%B0%E6%8D%AE%E5%B1%82%E6%88%98%E4%BA%89%E4%BB%8Ehive%E7%9B%AE%E5%BD%95%E5%88%97%E8%A1%A8%E5%88%B0%E4%B8%89%E5%B1%82%E5%BF%AB%E7%85%A7%E6%9E%B6%E6%9E%84%E7%9A%84%E5%8D%81%E5%B9%B4%E6%8A%80%E6%9C%AF%E7%AA%81%E5%9B%B4/</guid>
      <description>深度解析Apache Iceberg、Delta Lake、Apache Hudi三种开放表格式的元数据层设计，从三层元数据树到事务日志再到时间线机制，揭示数据湖仓如何实现ACID事务、时间旅行和Schema演化的底层原理。</description>
    </item>
    <item>
      <title>合成数据训练大模型：从Phi的成功到模型崩溃的十五年博弈</title>
      <link>https://answer.freetools.me/%E5%90%88%E6%88%90%E6%95%B0%E6%8D%AE%E8%AE%AD%E7%BB%83%E5%A4%A7%E6%A8%A1%E5%9E%8B%E4%BB%8Ephi%E7%9A%84%E6%88%90%E5%8A%9F%E5%88%B0%E6%A8%A1%E5%9E%8B%E5%B4%A9%E6%BA%83%E7%9A%84%E5%8D%81%E4%BA%94%E5%B9%B4%E5%8D%9A%E5%BC%88/</link>
      <pubDate>Mon, 09 Mar 2026 08:27:15 +0800</pubDate>
      <guid>https://answer.freetools.me/%E5%90%88%E6%88%90%E6%95%B0%E6%8D%AE%E8%AE%AD%E7%BB%83%E5%A4%A7%E6%A8%A1%E5%9E%8B%E4%BB%8Ephi%E7%9A%84%E6%88%90%E5%8A%9F%E5%88%B0%E6%A8%A1%E5%9E%8B%E5%B4%A9%E6%BA%83%E7%9A%84%E5%8D%81%E4%BA%94%E5%B9%B4%E5%8D%9A%E5%BC%88/</guid>
      <description>深入解析合成数据在大模型训练中的技术原理与实践挑战。从微软Phi系列模型的成功案例，到Nature发表的模型崩溃研究，系统阐述合成数据的生成方法、质量评估、多样性权衡，以及避免模型崩溃的数据工程策略。涵盖Cosmopedia、SmolLM等开源实践，揭示用AI生成数据训练AI的技术博弈与突围路径。</description>
    </item>
    <item>
      <title>序列化格式的二十年博弈：为什么 JSON 没能统一数据交换</title>
      <link>https://answer.freetools.me/%E5%BA%8F%E5%88%97%E5%8C%96%E6%A0%BC%E5%BC%8F%E7%9A%84%E4%BA%8C%E5%8D%81%E5%B9%B4%E5%8D%9A%E5%BC%88%E4%B8%BA%E4%BB%80%E4%B9%88-json-%E6%B2%A1%E8%83%BD%E7%BB%9F%E4%B8%80%E6%95%B0%E6%8D%AE%E4%BA%A4%E6%8D%A2/</link>
      <pubDate>Sat, 07 Mar 2026 01:25:36 +0800</pubDate>
      <guid>https://answer.freetools.me/%E5%BA%8F%E5%88%97%E5%8C%96%E6%A0%BC%E5%BC%8F%E7%9A%84%E4%BA%8C%E5%8D%81%E5%B9%B4%E5%8D%9A%E5%BC%88%E4%B8%BA%E4%BB%80%E4%B9%88-json-%E6%B2%A1%E8%83%BD%E7%BB%9F%E4%B8%80%E6%95%B0%E6%8D%AE%E4%BA%A4%E6%8D%A2/</guid>
      <description>深入剖析序列化格式的二十年技术演进。从JSON的意外诞生到Protobuf的varint编码，从Avro的schema演进机制到FlatBuffers的零拷贝设计。基于学术论文、官方文档和真实基准测试数据，系统梳理各种序列化格式的性能特征、设计哲学和适用场景。揭示JSON为何在性能上落后二进制格式3-7倍，以及如何在人类可读性与机器效率之间做出正确选择。</description>
    </item>
  </channel>
</rss>
