分片键选错的代价有多大:从Foursquare宕机到美团实践的技术复盘
2010年10月,位置社交应用Foursquare经历了一场持续17小时的宕机。当时这家创业公司拥有300万用户、2亿次签到、每天新增1.8万用户,业务正处于快速增长期。导致宕机的直接原因并不复杂:分片数据分布不均,一个分片的数据量达到67GB,超过了节点66GB的内存容量,系统开始疯狂地将内存页面换入换出,整个数据库被拖慢到磁盘速度。 ...
2010年10月,位置社交应用Foursquare经历了一场持续17小时的宕机。当时这家创业公司拥有300万用户、2亿次签到、每天新增1.8万用户,业务正处于快速增长期。导致宕机的直接原因并不复杂:分片数据分布不均,一个分片的数据量达到67GB,超过了节点66GB的内存容量,系统开始疯狂地将内存页面换入换出,整个数据库被拖慢到磁盘速度。 ...