幂等性 | Answer

重试机制设计指南：从指数退避到抖动的完整工程实践

2025年10月19日，美国东部时间晚上11点48分，AWS DynamoDB在us-east-1区域发生了一次严重的DNS故障。根据AWS官方的事后分析报告，一个隐藏的竞态条件导致DynamoDB的DNS记录被意外清空——所有IP地址都被删除，只留下一个空的DNS条目。 ...

支付平台的后台监控突然亮起红灯：一笔大额交易已经完成，但商户系统没有收到任何通知。检查日志发现，Webhook请求确实发出去了——服务端返回了200 OK。然而商户的后端工程师打开他们的系统，事件从未被处理。 ...

2019年，某支付平台因消息重复处理导致同一笔订单被扣款两次。工程师排查后发现，消费者在处理完消息后、发送确认前崩溃，消息队列在超时后重新投递，而业务代码没有实现幂等性。这不是个例——在分布式系统中，消息的重复投递几乎是不可避免的。 ...

2017年2月，一位开发者在Stripe官方博客下留言：他刚刚经历了一次"幽灵扣款"——用户点击支付按钮后页面超时，刷新重试，结果被扣了两次款。这不是技术故障，而是系统设计缺陷。在网络不可靠的世界里，重试是常态；如果没有幂等性设计，每一次重试都可能成为数据灾难的开始。 ...