分布式系统

数据流太快会撑爆内存？背压机制为何是异步系统的安全阀

2015年，一家电商平台在促销活动中遭遇了一场诡异的生产事故。订单服务正常运行，CPU占用率不到30%，内存却以每秒数百兆的速度增长，最终触发了OOM Killer。运维团队排查了三天，才在日志里发现一条不起眼的错误信息：MissingBackpressureException。 ...

大模型推理为何这么慢？从内存带宽瓶颈到KV Cache优化的技术突围

title: “大模型推理为何这么慢？从内存带宽瓶颈到KV Cache优化的技术突围” date: “2026-03-06T12:41:49+08:00” description: “深入解析大语言模型推理的性能瓶颈，从内存带宽限制到KV Cache优化的完整技术演进路线。涵盖FlashAttention、PagedAttention、GQA、连续批处理等核心技术，以及vLLM与TensorRT-LLM框架的选型建议。” draft: false categories: [“人工智能”, “性能优化”, “分布式系统”] tags: [“LLM推理”, “KV Cache”, “内存优化”, “Transformer”, “GPU优化”, “FlashAttention”, “PagedAttention”, “vLLM”] 2022年11月，ChatGPT的发布让大语言模型（LLM）走入公众视野。当你向模型发送一个简单问题时，可能需要等待几秒钟才能看到第一个字出现——这不是模型在"思考"，而是在等待数据从GPU内存搬运到计算单元。 ...

CRDT：当两个用户同时编辑同一行会发生什么

2010年9月，Google Docs团队发布了一篇博客文章，宣布新版Google Docs采用了全新的协作架构。他们提到，旧版本需要约1秒钟来显示其他用户的编辑，而新版本将延迟降低到了毫秒级。这背后的技术——Operational Transformation（操作转换）——在之后的十几年里成为了实时协作的行业标准。 ...

健康检查为何成了分布式系统的隐形杀手——从TCP端口探测到语义健康检测的二十年陷阱

2018年，一个技术团队在生产环境遇到了一个诡异的现象：每当数据库响应变慢，整个服务集群就会在几分钟内完全瘫痪。排查后发现，罪魁祸首是健康检查——当数据库变慢时，应用的健康检查端点开始超时，负载均衡器将服务器标记为不健康，剩余服务器承受更多流量，进一步恶化，形成恶性循环。 ...

为什么分布式系统没有完美时钟：从Lamport到TrueTime的四十年博弈

1978年，Leslie Lamport在《Time, Clocks, and the Ordering of Events in a Distributed System》论文的开篇写道：“A distributed system can be described as one in which the failure of a computer you didn’t even know existed can render your own computer unusable.” 他当时大概没想到，这篇论文定义的"happened-before"关系，会成为分布式系统此后近五十年的基石。 ...

分布式事务为何成了架构师的噩梦——从两阶段提交到Saga模式的技术权衡

1978年，图灵奖得主Jim Gray在《Notes on Data Base Operating Systems》中正式描述了两阶段提交协议（Two-Phase Commit, 2PC）。这个协议的核心目标简单而直接：让分布在不同机器上的多个数据库，能够像操作单一数据库一样实现"全有或全无"的原子性保证。 ...

限流算法的选择困境：令牌桶、漏桶还是滑动窗口？

2005年，卡内基梅隆大学的研究人员进行了一项有趣的实验。他们在校园网络的边缘路由器上部署了四种不同的限流算法，然后用真实流量和Blaster蠕虫攻击数据进行测试。结果令人意外：表现最差的算法错误率高达30%，而表现最好的算法错误率低于1%。 ...