故障检测器为何成为分布式系统最脆弱的一环——从心跳超时的两难困境到Phi Accrual的数学突围

1997年,NASA的Mars Pathfinder探测器在火星表面成功着陆后不久,开始出现诡异的系统重启。每次重启都导致数据采集中断,任务濒临失败。工程师们排查后发现,问题出在一个经典的分布式系统困境:优先级反转导致低优先级任务长时间占用关键资源,高优先级的"看门狗"任务无法及时执行,系统误判为故障并触发重启。 ...

10 min · 4796 words

WebSocket连接为何总是在关键时刻断开:从代理超时到心跳机制的完整生存指南

2017年,Chromium团队在Chrome 56版本中做了一个激进的决定:对后台标签页实施严格的定时器节流。这个旨在提升电池续航的改动,意外暴露了一个被忽视多年的问题——大量依赖WebSocket的实时应用在标签页切换后突然失联。 ...

13 min · 6460 words