混沌工程 | Answer

一个请求如何拖垮整个系统？从DynamoDB中断看级联故障的正反馈陷阱

2015年9月20日，AWS DynamoDB在US-East-1区域经历了超过4小时的服务中断。这次事故的起点极其微不足道：一个瞬时的网络问题导致部分存储服务器无法获取分区分配信息。 ...

为何要在生产环境故意制造故障？从Netflix的猴子军团到混沌工程的十五年演进

2008年8月，Netflix的数据库损坏导致DVD配送业务完全停滞了三天。这次事故的直接原因是数据库系统没有正确处理硬件故障，但更深层的原因是工程师们对系统在真实故障场景下的行为缺乏信心。Netflix当时的工程总监发问：“我们怎样才能确保这种事不再发生？“团队给出的答案是：让故障更频繁地发生。 ...