Blog Cover

RDMA如何让网络传输绕过CPU:从内核旁路到零拷贝的四十年技术演进

1999年,当InfiniBand Trade Association成立时,很少有人预料到这项技术会在二十年后成为人工智能训练网络的核心基础设施。RDMA(Remote Direct Memory Access,远程直接内存访问)从一个旨在替代PCI总线的技术愿景,演变成了现代数据中心不可或缺的性能加速器。 ...

14 min · 6934 words

重试机制设计指南:从指数退避到抖动的完整工程实践

2025年10月19日,美国东部时间晚上11点48分,AWS DynamoDB在us-east-1区域发生了一次严重的DNS故障。根据AWS官方的事后分析报告,一个隐藏的竞态条件导致DynamoDB的DNS记录被意外清空——所有IP地址都被删除,只留下一个空的DNS条目。 ...

13 min · 6223 words

服务发现为何分裂十五年:从ZooKeeper的CP执念到Eureka的AP妥协

2012年9月,Netflix开源了一个名为Eureka的项目。这不是一个全新的技术发明,而是一个针对AWS云环境的妥协产物。然而,这个妥协引发了微服务社区长达十年的争论:服务注册中心到底应该优先保证一致性还是可用性? ...

13 min · 6085 words

Webhook事件为何总是在关键时刻丢失:从HTTP重试到幂等性设计的完整生存指南

支付平台的后台监控突然亮起红灯:一笔大额交易已经完成,但商户系统没有收到任何通知。检查日志发现,Webhook请求确实发出去了——服务端返回了200 OK。然而商户的后端工程师打开他们的系统,事件从未被处理。 ...

11 min · 5287 words

时间轮如何以O(1)复杂度处理百万级延迟任务

一个电商平台在双十一期间需要处理数百万个订单超时取消任务。每个订单创建后30分钟未支付就需要自动取消,释放库存。最直观的实现方式是在数据库中存储订单的创建时间,然后启动一个定时任务每隔几秒扫描一次,找出所有超时的订单。 ...

11 min · 5472 words

一个请求如何拖垮整个系统?从DynamoDB中断看级联故障的正反馈陷阱

2015年9月20日,AWS DynamoDB在US-East-1区域经历了超过4小时的服务中断。这次事故的起点极其微不足道:一个瞬时的网络问题导致部分存储服务器无法获取分区分配信息。 ...

18 min · 8917 words

三个字符如何承载百亿链接:短链接服务的架构设计解析

2014年,Bitly每月处理60亿次点击和6亿次链接缩短,仅用约30台前端服务器支撑全球流量。这个看似简单的"长变短"功能,却是分布式系统设计的经典考题——它完美浓缩了ID生成、存储选型、缓存策略、高可用设计等核心问题。 ...

9 min · 4362 words