分片键选错的代价有多大：从Foursquare宕机到美团实践的技术复盘

2010年10月，位置社交应用Foursquare经历了一场持续17小时的宕机。当时这家创业公司拥有300万用户、2亿次签到、每天新增1.8万用户，业务正处于快速增长期。导致宕机的直接原因并不复杂：分片数据分布不均，一个分片的数据量达到67GB，超过了节点66GB的内存容量，系统开始疯狂地将内存页面换入换出，整个数据库被拖慢到磁盘速度。

更讽刺的是，Foursquare的技术团队早就意识到这个问题，他们已经添加了第三个分片来缓解压力。但由于MongoDB使用4KB页面管理数据，而签到记录平均只有300字节，移动数据后原页面仍被占用，内存并没有真正释放。最终，Foursquare不得不从备份重新加载数据，重新分片。

这场事故揭示了一个残酷的现实：分片不是简单的"把数据拆开"。一个看似合理的分片键选择，可能在数据增长后变成致命陷阱。

分片的本质：为什么"拆分"如此复杂

分片（Sharding）的核心思想直观明了：将一个逻辑数据库拆分成多个物理分片，分散存储在不同的服务器上。每个分片只承载部分数据，从而突破单机的存储容量和计算能力瓶颈。

但真正实施时，开发者面临的是一连串相互矛盾的约束：

数据均匀性：所有分片应该承载相近的数据量和请求负载。如果某个分片承载了80%的写入，系统并没有真正扩展。

查询效率：大多数查询应该能够定向到单一分片。如果一个查询需要扫描所有分片再聚合结果，性能反而比单机更差。

扩展灵活性：添加新分片时，数据迁移的代价应该最小化。如果每次扩容都需要重新分配所有数据，系统将难以快速响应流量增长。

这三个目标之间存在内在张力。实现数据均匀分布的最佳方式是对分片键进行哈希，但这会破坏数据的自然顺序，导致范围查询需要扫描所有分片。保留数据顺序的范围分片便于范围查询，却容易在特定值域上形成热点。

四种分片策略的博弈

哈希分片：均匀性的代价

哈希分片通过对分片键值进行哈希运算，将数据映射到不同的分片。由于哈希函数的随机性，数据能够均匀分布到各分片。

哈希分片示意

图片来源: www.mongodb.com

这种策略的最大优势是有效避免热点。无论数据如何分布，哈希后的结果都能保证相对均匀。YugabyteDB的团队在实践中发现，Facebook所有基于HBase的大规模服务都在应用层实现了哈希分片——没有它，这些服务会遭遇严重的性能瓶颈。

但哈希分片有一个致命缺陷：范围查询退化为全表扫描。如果你需要查询"用户ID在10000到20000之间的所有订单"，哈希分片无法保证这些数据位于相邻分片，系统必须查询所有分片再合并结果。对于需要频繁执行范围查询的场景（如时间范围查询、区间统计），这种性能损失可能是不可接受的。

范围分片：顺序性的双刃剑

范围分片按照分片键的值域划分数据。每个分片负责一个连续的区间，如[0-10000)、[10000-20000)、[20000-30000)等。

范围分片示意

图片来源: www.mongodb.com

这种策略对范围查询极其友好。查询"用户ID在10000到20000之间的订单"只需访问单个分片，性能接近单机数据库。

但范围分片的最大风险是热点形成。如果分片键是时间戳，最新数据永远写入最后一个分片；如果分片键是自增ID，写入压力始终集中在当前活跃的分片上。

MongoDB的官方文档中有一个经典的对比图：

单调递增键导致的分布不均

图片来源: www.mongodb.com

当分片键值单调递增时，所有新写入都集中在一个分片上，其他分片处于闲置状态。这完全违背了分片的初衷。

哈希分片后的均匀分布

图片来源: www.mongodb.com

同样的数据，使用哈希分片后，写入压力均匀分散到所有分片。

一致性哈希：扩容的最优解

一致性哈希是对传统哈希分片的改进。它将哈希值空间组织成一个虚拟的环形结构，每个节点在环上占据多个虚拟位置。当添加新节点时，只需要从相邻节点迁移一部分数据，而不是重新分配所有数据。

这种策略在分布式缓存系统中广泛应用。Memcached和Redis集群都采用一致性哈希来实现节点的动态伸缩。但一致性哈希也有其复杂性：需要维护虚拟节点的映射关系，数据迁移的精确控制也更加困难。

线性哈希：理论上完美的失败

线性哈希（Linear Hash）是一种试图兼顾哈希均匀性和范围有序性的策略。它使用一种保序哈希函数，使得哈希后的结果仍然保持原始键值的相对顺序。

理论上，这种策略既能让数据均匀分布，又能支持高效的范围查询。Cassandra的早期版本曾将其作为默认分片策略。

但实践证明，这是一个错误的决定。线性哈希无法提前确定好的分片边界，导致数据永远无法真正均匀分布。Apache Cassandra的文档明确警告：不推荐使用这种策略，因为它会产生热点，而且当热点出现后，重新平衡的代价极高。

Cassandra后来将默认策略改回了一致性哈希。

分片键三要素：基数、频率、单调性

选择一个好的分片键，是分片设计中最关键的决策。MongoDB提出了三个核心指标来评估分片键的质量：

基数（Cardinality）：可能值的数量

分片键的基数决定了数据能分成的最大份数。如果分片键只有两个可能值（如性别），无论你怎么分片，数据最多只能分布到两个分片上。

一个极端的例子：某电商系统使用"省份"作为分片键。中国有34个省级行政区，这意味着系统最多只能有34个分片。当数据增长到需要第35个分片时，系统将无法继续扩展。

好的分片键应该具有高基数：用户ID、订单号、时间戳等字段的可能值数量接近数据总量，理论上可以支持无限分片。

频率（Frequency）：值的分布均匀性

即使基数足够高，如果值的分布不均匀，仍会产生热点。考虑一个社交应用的用户表：如果分片键是"注册日期"，双十一促销期间注册的用户会集中在同一个分片上。

更隐蔽的问题来自"超级实体"。如果按用户ID分片存储用户的关注关系，拥有上亿粉丝的明星账号会产生一个巨大的数据块，导致特定分片过载。Facebook曾在Memcached集群中观察到这个问题：少数热点键承载了大部分请求。

单调性（Monotonicity）：值的变化趋势

单调递增或递减的分片键是范围的噩梦。自增ID、时间戳、雪花ID都具有单调性，它们的值总是朝一个方向增长。

使用范围分片时，单调递增的键会将所有新写入集中到同一个分片。MongoDB的文档明确指出：对于单调递增的字段，应该使用哈希分片而不是范围分片。

但如果业务场景确实需要范围查询怎么办？一种常见的模式是复合分片键：第一部分是业务维度（如用户ID的哈希），第二部分是时间维度。这样既避免了时间维度的热点，又保留了时间范围查询的能力。

热点问题：当Justin Bieber遇上分片

2010年前后，Twitter的工程师们发现了一个奇怪的现象：某些Memcached节点的负载异常高，远超其他节点。调查后发现，原因是Justin Bieber的账号数据。

这不是一个玩笑。当一位明星拥有数千万粉丝时，任何与他相关的数据都会成为超级热点：粉丝列表、关注关系、推文互动。如果这些数据落在同一个分片上，该分片将承受巨大的读写压力。

解决热点问题有几种策略：

热点隔离：将热点键单独迁移到专用分片。这需要数据库支持在线的数据迁移，且迁移过程不能影响服务。Vitess提供了这种能力，允许管理员将特定范围的数据移动到新分片。

读写分离：热点问题往往表现为读多写少。通过增加只读副本，分散读请求到多个节点，可以缓解单点压力。YouTube的Prime Cache就是这种思路的延伸：在副本处理写入同步时，预先将相关数据加载到内存，避免磁盘IO成为瓶颈。

应用层缓存：对于极度热点的数据，在应用层增加缓存可能是更实际的选择。直接在内存中维护热点数据的副本，完全绕过数据库。

非分片键查询：基因法的优雅

分片后最头疼的问题之一是：如何处理不包含分片键的查询？

假设订单表按用户ID分片。查询"某用户的所有订单"很简单，直接定位到对应分片。但如果需要"根据订单号查询订单详情"呢？订单号和用户ID没有直接关联，系统不知道该去哪个分片查找。

最朴素的方案是广播查询：向所有分片发送请求，合并返回结果。这种方式在分片数量较少时可以接受，但随着分片数增长，性能急剧下降。

第二种方案是映射表：维护一个独立的索引表，记录订单号到分片的映射。每次查询先查索引表，再定向到具体分片。这增加了一次额外的数据库访问，但避免了全分片扫描。

第三种方案是基因法，一种更加优雅的设计。核心思想是将分片信息"嵌入"到ID中。

美团在实践中采用了这种方案。订单号的结构为：时间戳 + 用户ID后四位 + 随机序列。用户ID后四位就是"分片基因"——它决定了数据位于哪个分片。

当需要根据订单号查询时，系统直接从订单号中提取用户ID后四位，计算出目标分片，无需任何额外查询。当需要根据用户ID查询时，计算过程更加直接。

这种设计的精妙之处在于：一个ID同时承载了业务含义和路由信息。当然，基因法也有其限制：分片数量必须是2的幂次方，基因的位数决定了最大分片数量。

数据迁移：美团的三个阶段

分片不是一劳永逸的决策。随着业务发展，可能需要重新分片、增加分片数量、或者调整分片键。数据迁移是这个过程中最危险的环节。

美团在2016年分享了他们的订单系统分库分表实践，描述了数据迁移的三个阶段：

第一阶段：双写过渡

新老数据库同时写入，以老数据库为成功标准。查询仍然走老数据库。后台任务每日对账，发现差异后补平。同时，历史数据通过任务逐步导入新数据库。

这个阶段的目的是建立新数据库的完整数据副本，同时保持业务的连续性。即使新数据库出现问题，也不会影响现有业务。

第二阶段：主切换换

历史数据导入完成后，将写入成功的标准切换到新数据库。在线查询切换到新数据库。仍然保持双写和每日对账，作为安全保障。

这是最危险的阶段。如果新数据库有任何问题，需要能够快速回滚到老数据库。双写机制保证了老数据库始终有最新数据。

第三阶段：完全切换

确认新数据库稳定后，停止向老数据库写入。老数据库仅保留给离线分析系统使用，直到所有下游系统完成迁移。

整个过程体现了数据迁移的核心原则：渐进式切换，保持回滚能力。任何一步出现问题，都能退回到上一个稳定状态。

分布式ID生成：Snowflake与Instagram方案

分片后，传统的数据库自增ID不再适用。每个分片独立生成ID会导致全局ID冲突。如何生成全局唯一、有序且高效的ID，成为必须解决的问题。

Twitter Snowflake

Twitter的Snowflake是最著名的分布式ID方案。一个64位的ID由三部分组成：

41位时间戳（毫秒级，可用69年）
10位工作机器ID（支持1024个节点）
12位序列号（每毫秒可生成4096个ID）

这种设计保证了全局唯一性（通过机器ID区分），同时保持时间有序（时间戳在最高位）。ID生成完全在本地完成，无需网络通信，性能极高。

Instagram方案

Instagram采用了一种更加精巧的设计。他们的ID结构为：

41位时间戳
13位逻辑分片ID
10位自增序列

最巧妙的是分片ID的嵌入：Instagram使用PostgreSQL的schema作为逻辑分片单位，ID中直接包含分片信息。给定一个ID，可以直接提取分片ID定位数据，无需任何映射查询。

ID生成逻辑用PostgreSQL的PL/pgSQL实现：

CREATE OR REPLACE FUNCTION insta5.next_id(OUT result bigint) AS $$
DECLARE
    our_epoch bigint := 1314220021721;
    seq_id bigint;
    now_millis bigint;
    shard_id int := 5;
BEGIN
    SELECT nextval('insta5.table_id_seq') % 1024 INTO seq_id;
    SELECT FLOOR(EXTRACT(EPOCH FROM clock_timestamp()) * 1000) INTO now_millis;
    result := (now_millis - our_epoch) << 23;
    result := result | (shard_id << 10);
    result := result | (seq_id);
END;
$$ LANGUAGE PLPGSQL;

这个设计体现了工程实践中的权衡：为了简化运维，Instagram放弃了独立的ID生成服务，将逻辑内置到数据库中。虽然没有Snowflake那么高性能，但对于Instagram当时的规模足够用了。

扩容与重平衡

分片系统的扩容有两种模式：垂直扩容和水平扩容。

垂直扩容指增加单个分片的容量（更大的磁盘、更多的内存、更强的CPU）。这种方式不涉及数据迁移，但成本高，且最终会触及单机的物理极限。

水平扩容指增加分片数量。这需要将现有分片的数据重新分配到更多分片上，过程复杂且风险高。

Vitess提供了自动化的分片重平衡能力。当工程师指定需要将一个分片拆分成多个时，Vitess会在后台完成所有工作：创建新的MySQL实例、初始化表结构、复制数据、验证一致性。当一切就绪后，工程师只需授权切换，Vitess自动将流量导向新分片。

这个自动化过程极大地降低了分片操作的门槛。在YouTube的规模下，手动管理数千个数据库实例是不现实的，自动化工具成为必需。

结语：分片是最后的手段

回顾分片的种种挑战，一个清晰的结论浮现出来：分片不应该是首选方案。

PlanetScale的建议是：当且仅当你已经触及数据量、写入吞吐量、读取吞吐量的极限，且其他优化手段（索引优化、查询优化、读写分离、缓存）都已无法解决问题时，才考虑分片。

分片带来的复杂性是永久的：跨分片事务、跨分片查询、数据迁移、监控运维，每一项都需要专门的解决方案。一旦选择了分片，就没有回头路。

如果你必须分片，请记住：

选择高基数、均匀分布、非单调的分片键
根据查询模式选择分片策略，哈希适合均匀分布，范围适合范围查询
设计数据迁移方案时，保持渐进切换和回滚能力
将分片信息嵌入ID，简化非分片键查询
使用自动化工具管理分片生命周期

最后，Foursquare那17小时的宕机，不是技术选型的错误，而是对复杂性估计不足的结果。分片不是一个简单的优化手段，而是一个架构级别的决策。理解它的代价，才能做出正确的选择。

参考文献

Foursquare MongoDB Outage Post-mortem, High Scalability, 2010
Sharding & IDs at Instagram, Instagram Engineering Blog, 2012
大众点评订单系统分库分表实践, 美团技术团队, 2016
4 Data Sharding Strategies We Analyzed in Building YugabyteDB, Yugabyte Blog, 2020
How YouTube Supports Billions of Users with MySQL and Vitess, ByteByteGo, 2025
Choosing a Shard Key, MongoDB Documentation
Consistent Hashing and Random Trees, Karger et al., MIT, 1997
Snowflake: A Distributed ID Generation Service, Twitter Engineering Blog, 2010

分片的本质：为什么"拆分"如此复杂#

四种分片策略的博弈#

哈希分片：均匀性的代价#

范围分片：顺序性的双刃剑#

一致性哈希：扩容的最优解#

线性哈希：理论上完美的失败#

分片键三要素：基数、频率、单调性#

基数（Cardinality）：可能值的数量#

频率（Frequency）：值的分布均匀性#

单调性（Monotonicity）：值的变化趋势#

热点问题：当Justin Bieber遇上分片#

非分片键查询：基因法的优雅#

数据迁移：美团的三个阶段#

分布式ID生成：Snowflake与Instagram方案#

Twitter Snowflake#

Instagram方案#

扩容与重平衡#

结语：分片是最后的手段#

参考文献#

更多精彩内容

为什么83%的数据迁移项目都失败了从双写困境到CDC的技术突围

分布式ID生成：为什么你的主键选择正在毁掉数据库性能

读写分离为何总在关键时刻掉链子：从复制延迟到写后读一致性的技术突围

PostgreSQL的表为什么越用越大：从MVCC到Vacuum的完整清理机制解析

重试机制设计指南：从指数退避到抖动的完整工程实践

分片的本质：为什么"拆分"如此复杂

四种分片策略的博弈

哈希分片：均匀性的代价

范围分片：顺序性的双刃剑

一致性哈希：扩容的最优解

线性哈希：理论上完美的失败

分片键三要素：基数、频率、单调性

基数（Cardinality）：可能值的数量

频率（Frequency）：值的分布均匀性

单调性（Monotonicity）：值的变化趋势

热点问题：当Justin Bieber遇上分片

非分片键查询：基因法的优雅

数据迁移：美团的三个阶段

分布式ID生成：Snowflake与Instagram方案

Twitter Snowflake

Instagram方案

扩容与重平衡

结语：分片是最后的手段

参考文献