为何要在生产环境故意制造故障?从Netflix的猴子军团到混沌工程的十五年演进

2008年8月,Netflix的数据库损坏导致DVD配送业务完全停滞了三天。这次事故的直接原因是数据库系统没有正确处理硬件故障,但更深层的原因是工程师们对系统在真实故障场景下的行为缺乏信心。Netflix当时的工程总监发问:“我们怎样才能确保这种事不再发生?“团队给出的答案是:让故障更频繁地发生。 ...

13 min · 6402 words