<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>SRE on Answer</title>
    <link>https://answer.freetools.me/tags/sre/</link>
    <description>Recent content in SRE on Answer</description>
    <generator>Hugo -- 0.152.2</generator>
    <language>zh-cn</language>
    <lastBuildDate>Sat, 07 Mar 2026 15:23:32 +0800</lastBuildDate>
    <atom:link href="https://answer.freetools.me/tags/sre/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>当警铃成为背景噪音：告警疲劳如何让监控系统变成摆设</title>
      <link>https://answer.freetools.me/%E5%BD%93%E8%AD%A6%E9%93%83%E6%88%90%E4%B8%BA%E8%83%8C%E6%99%AF%E5%99%AA%E9%9F%B3%E5%91%8A%E8%AD%A6%E7%96%B2%E5%8A%B3%E5%A6%82%E4%BD%95%E8%AE%A9%E7%9B%91%E6%8E%A7%E7%B3%BB%E7%BB%9F%E5%8F%98%E6%88%90%E6%91%86%E8%AE%BE/</link>
      <pubDate>Sat, 07 Mar 2026 15:23:32 +0800</pubDate>
      <guid>https://answer.freetools.me/%E5%BD%93%E8%AD%A6%E9%93%83%E6%88%90%E4%B8%BA%E8%83%8C%E6%99%AF%E5%99%AA%E9%9F%B3%E5%91%8A%E8%AD%A6%E7%96%B2%E5%8A%B3%E5%A6%82%E4%BD%95%E8%AE%A9%E7%9B%91%E6%8E%A7%E7%B3%BB%E7%BB%9F%E5%8F%98%E6%88%90%E6%91%86%E8%AE%BE/</guid>
      <description>从Target 2013年数据泄露事件出发，深入解析告警疲劳的技术根源与心理学机制。基于信号检测论、习惯化神经科学研究，结合Google SRE实践、医院患者安全研究数据，揭示67%告警被忽略、73%宕机源于被忽略告警的深层原因。涵盖SLO告警设计、燃烧率算法、动态阈值、AI降噪等技术方案，提供从告警分级到30天清理规则的完整实践框架。</description>
    </item>
    <item>
      <title>一个请求如何拖垮整个系统？从DynamoDB中断看级联故障的正反馈陷阱</title>
      <link>https://answer.freetools.me/%E4%B8%80%E4%B8%AA%E8%AF%B7%E6%B1%82%E5%A6%82%E4%BD%95%E6%8B%96%E5%9E%AE%E6%95%B4%E4%B8%AA%E7%B3%BB%E7%BB%9F%E4%BB%8Edynamodb%E4%B8%AD%E6%96%AD%E7%9C%8B%E7%BA%A7%E8%81%94%E6%95%85%E9%9A%9C%E7%9A%84%E6%AD%A3%E5%8F%8D%E9%A6%88%E9%99%B7%E9%98%B1/</link>
      <pubDate>Sat, 07 Mar 2026 10:04:26 +0800</pubDate>
      <guid>https://answer.freetools.me/%E4%B8%80%E4%B8%AA%E8%AF%B7%E6%B1%82%E5%A6%82%E4%BD%95%E6%8B%96%E5%9E%AE%E6%95%B4%E4%B8%AA%E7%B3%BB%E7%BB%9F%E4%BB%8Edynamodb%E4%B8%AD%E6%96%AD%E7%9C%8B%E7%BA%A7%E8%81%94%E6%95%85%E9%9A%9C%E7%9A%84%E6%AD%A3%E5%8F%8D%E9%A6%88%E9%99%B7%E9%98%B1/</guid>
      <description>深入解析分布式系统中级联故障的形成机制、经典案例与防御策略，揭示正反馈循环如何让单点故障演变为全局崩溃</description>
    </item>
    <item>
      <title>为什么程序员总在救火？从响应式困境到预防性架构的工程思维转变</title>
      <link>https://answer.freetools.me/%E4%B8%BA%E4%BB%80%E4%B9%88%E7%A8%8B%E5%BA%8F%E5%91%98%E6%80%BB%E5%9C%A8%E6%95%91%E7%81%AB%E4%BB%8E%E5%93%8D%E5%BA%94%E5%BC%8F%E5%9B%B0%E5%A2%83%E5%88%B0%E9%A2%84%E9%98%B2%E6%80%A7%E6%9E%B6%E6%9E%84%E7%9A%84%E5%B7%A5%E7%A8%8B%E6%80%9D%E7%BB%B4%E8%BD%AC%E5%8F%98/</link>
      <pubDate>Sat, 07 Mar 2026 07:10:41 +0800</pubDate>
      <guid>https://answer.freetools.me/%E4%B8%BA%E4%BB%80%E4%B9%88%E7%A8%8B%E5%BA%8F%E5%91%98%E6%80%BB%E5%9C%A8%E6%95%91%E7%81%AB%E4%BB%8E%E5%93%8D%E5%BA%94%E5%BC%8F%E5%9B%B0%E5%A2%83%E5%88%B0%E9%A2%84%E9%98%B2%E6%80%A7%E6%9E%B6%E6%9E%84%E7%9A%84%E5%B7%A5%E7%A8%8B%E6%80%9D%E7%BB%B4%E8%BD%AC%E5%8F%98/</guid>
      <description>基于 Google SRE 实践、DORA 研究和行业调研数据，深入分析软件团队陷入救火模式的根本原因。从告警疲劳到技术债务，从认知负荷到组织文化，揭示响应式开发模式的隐性成本，并提供可落地的预防性架构转型方案。</description>
    </item>
    <item>
      <title>为何要在生产环境故意制造故障？从Netflix的猴子军团到混沌工程的十五年演进</title>
      <link>https://answer.freetools.me/%E4%B8%BA%E4%BD%95%E8%A6%81%E5%9C%A8%E7%94%9F%E4%BA%A7%E7%8E%AF%E5%A2%83%E6%95%85%E6%84%8F%E5%88%B6%E9%80%A0%E6%95%85%E9%9A%9C%E4%BB%8Enetflix%E7%9A%84%E7%8C%B4%E5%AD%90%E5%86%9B%E5%9B%A2%E5%88%B0%E6%B7%B7%E6%B2%8C%E5%B7%A5%E7%A8%8B%E7%9A%84%E5%8D%81%E4%BA%94%E5%B9%B4%E6%BC%94%E8%BF%9B/</link>
      <pubDate>Sat, 07 Mar 2026 04:00:23 +0800</pubDate>
      <guid>https://answer.freetools.me/%E4%B8%BA%E4%BD%95%E8%A6%81%E5%9C%A8%E7%94%9F%E4%BA%A7%E7%8E%AF%E5%A2%83%E6%95%85%E6%84%8F%E5%88%B6%E9%80%A0%E6%95%85%E9%9A%9C%E4%BB%8Enetflix%E7%9A%84%E7%8C%B4%E5%AD%90%E5%86%9B%E5%9B%A2%E5%88%B0%E6%B7%B7%E6%B2%8C%E5%B7%A5%E7%A8%8B%E7%9A%84%E5%8D%81%E4%BA%94%E5%B9%B4%E6%BC%94%E8%BF%9B/</guid>
      <description>深入解析混沌工程十五年演进历程，从Netflix 2008年数据库灾难到Chaos Monkey的诞生，系统阐述故障注入方法论、爆炸半径控制机制、主流工具对比与实施路径。涵盖稳态假设定义、tc/netem网络故障注入、Google DiRT演练实践、ROI量化分析，以及从传统测试到混沌工程的本质区别。</description>
    </item>
    <item>
      <title>健康检查为何成了分布式系统的隐形杀手——从TCP端口探测到语义健康检测的二十年陷阱</title>
      <link>https://answer.freetools.me/%E5%81%A5%E5%BA%B7%E6%A3%80%E6%9F%A5%E4%B8%BA%E4%BD%95%E6%88%90%E4%BA%86%E5%88%86%E5%B8%83%E5%BC%8F%E7%B3%BB%E7%BB%9F%E7%9A%84%E9%9A%90%E5%BD%A2%E6%9D%80%E6%89%8B%E4%BB%8Etcp%E7%AB%AF%E5%8F%A3%E6%8E%A2%E6%B5%8B%E5%88%B0%E8%AF%AD%E4%B9%89%E5%81%A5%E5%BA%B7%E6%A3%80%E6%B5%8B%E7%9A%84%E4%BA%8C%E5%8D%81%E5%B9%B4%E9%99%B7%E9%98%B1/</link>
      <pubDate>Fri, 06 Mar 2026 11:08:39 +0800</pubDate>
      <guid>https://answer.freetools.me/%E5%81%A5%E5%BA%B7%E6%A3%80%E6%9F%A5%E4%B8%BA%E4%BD%95%E6%88%90%E4%BA%86%E5%88%86%E5%B8%83%E5%BC%8F%E7%B3%BB%E7%BB%9F%E7%9A%84%E9%9A%90%E5%BD%A2%E6%9D%80%E6%89%8B%E4%BB%8Etcp%E7%AB%AF%E5%8F%A3%E6%8E%A2%E6%B5%8B%E5%88%B0%E8%AF%AD%E4%B9%89%E5%81%A5%E5%BA%B7%E6%A3%80%E6%B5%8B%E7%9A%84%E4%BA%8C%E5%8D%81%E5%B9%B4%E9%99%B7%E9%98%B1/</guid>
      <description>从AWS Builder&amp;#39;s Library的深度健康检查分层，到Colin Breck的Kubernetes探针踩坑实录，再到Netflix的应用层DDoS雪崩效应，系统梳理健康检查二十年来的设计演进与工程陷阱。深入剖析浅层检查与深层检查的本质权衡、级联故障的触发机制、健康检查风暴的成因，以及Fail-Open机制、反馈回路、并发限制等最佳实践。基于Google SRE、Lyft Envoy、gRPC健康协议等权威信源，揭示一个被严重误解的分布式系统核心组件。</description>
    </item>
  </channel>
</rss>
