金丝雀发布为何屡屡翻车:从流量切分到自动化回滚的技术博弈

金丝雀发布的一个常见误解是:只要把流量切到5%的服务器上观察一阵子,就能发现所有问题。但现实远比这复杂。 2020年11月,Cloudflare遭遇了一次长达6小时的大规模故障。根因分析显示,一个正则表达式的性能问题导致CPU飙升。这次故障的关键教训是:问题往往在特定条件下才会暴露——高流量、特定请求模式、缓存未命中。一个配置在低负载测试环境中表现完美,却可能在生产环境的峰值压力下崩溃。 ...

10 min · 4831 words