当警铃成为背景噪音:告警疲劳如何让监控系统变成摆设
2013年11月30日,FireEye安全系统在Target公司的网络中检测到了恶意软件活动,并向安全运营中心发送了告警。12月2日,系统再次告警。这些告警被安全团队看到,但没有采取行动。几周后,4000万张信用卡信息被盗,这场数据泄露最终让Target付出了超过2.1亿美元的代价。 ...
2013年11月30日,FireEye安全系统在Target公司的网络中检测到了恶意软件活动,并向安全运营中心发送了告警。12月2日,系统再次告警。这些告警被安全团队看到,但没有采取行动。几周后,4000万张信用卡信息被盗,这场数据泄露最终让Target付出了超过2.1亿美元的代价。 ...
2015年9月20日,AWS DynamoDB在US-East-1区域经历了超过4小时的服务中断。这次事故的起点极其微不足道:一个瞬时的网络问题导致部分存储服务器无法获取分区分配信息。 ...
2025年一项针对全球软件工程师的调查揭示了一个令人不安的数据:工程师平均只将16%的时间用于构建新功能——尽管93%的人表示这是他们最有成就感的工作。剩下84%的时间去哪了?修复生产问题、处理告警、响应工单、撰写事故报告。 ...
2008年8月,Netflix的数据库损坏导致DVD配送业务完全停滞了三天。这次事故的直接原因是数据库系统没有正确处理硬件故障,但更深层的原因是工程师们对系统在真实故障场景下的行为缺乏信心。Netflix当时的工程总监发问:“我们怎样才能确保这种事不再发生?“团队给出的答案是:让故障更频繁地发生。 ...
2018年,一个技术团队在生产环境遇到了一个诡异的现象:每当数据库响应变慢,整个服务集群就会在几分钟内完全瘫痪。排查后发现,罪魁祸首是健康检查——当数据库变慢时,应用的健康检查端点开始超时,负载均衡器将服务器标记为不健康,剩余服务器承受更多流量,进一步恶化,形成恶性循环。 ...