健康检查为何成了分布式系统的隐形杀手——从TCP端口探测到语义健康检测的二十年陷阱
2018年,一个技术团队在生产环境遇到了一个诡异的现象:每当数据库响应变慢,整个服务集群就会在几分钟内完全瘫痪。排查后发现,罪魁祸首是健康检查——当数据库变慢时,应用的健康检查端点开始超时,负载均衡器将服务器标记为不健康,剩余服务器承受更多流量,进一步恶化,形成恶性循环。 ...
2018年,一个技术团队在生产环境遇到了一个诡异的现象:每当数据库响应变慢,整个服务集群就会在几分钟内完全瘫痪。排查后发现,罪魁祸首是健康检查——当数据库变慢时,应用的健康检查端点开始超时,负载均衡器将服务器标记为不健康,剩余服务器承受更多流量,进一步恶化,形成恶性循环。 ...