一个请求如何拖垮整个系统?从DynamoDB中断看级联故障的正反馈陷阱

2015年9月20日,AWS DynamoDB在US-East-1区域经历了超过4小时的服务中断。这次事故的起点极其微不足道:一个瞬时的网络问题导致部分存储服务器无法获取分区分配信息。 ...

18 min · 8917 words

为什么Netflix放弃了Hystrix?从断路器模式到自适应并发限制的十五年演进

2018年11月,Netflix在GitHub上发布了一则简短公告:Hystrix不再处于活跃开发状态,进入维护模式。这个曾经在微服务容错领域占据统治地位的库,在经历了七年的生产验证后,被它的创造者亲手画上了句号。 ...

10 min · 4789 words

健康检查为何成了分布式系统的隐形杀手——从TCP端口探测到语义健康检测的二十年陷阱

2018年,一个技术团队在生产环境遇到了一个诡异的现象:每当数据库响应变慢,整个服务集群就会在几分钟内完全瘫痪。排查后发现,罪魁祸首是健康检查——当数据库变慢时,应用的健康检查端点开始超时,负载均衡器将服务器标记为不健康,剩余服务器承受更多流量,进一步恶化,形成恶性循环。 ...

13 min · 6109 words