分片键选错的代价有多大:从Foursquare宕机到美团实践的技术复盘

2010年10月,位置社交应用Foursquare经历了一场持续17小时的宕机。当时这家创业公司拥有300万用户、2亿次签到、每天新增1.8万用户,业务正处于快速增长期。导致宕机的直接原因并不复杂:分片数据分布不均,一个分片的数据量达到67GB,超过了节点66GB的内存容量,系统开始疯狂地将内存页面换入换出,整个数据库被拖慢到磁盘速度。 ...

12 min · 5584 words

为什么83%的数据迁移项目都失败了从双写困境到CDC的技术突围

2013年,Target进军加拿大市场,133家门店同时开业。短短两年后,这家美国零售巨头黯然退出加拿大,累计损失超过21亿美元。根本原因之一是库存数据迁移的灾难性失败——货架上的商品和系统里的记录完全对不上,顾客在结账时发现价格与标签不符,仓库里堆满了系统显示"缺货"的商品。 ...

13 min · 6202 words