数据流太快会撑爆内存?背压机制为何是异步系统的安全阀
2015年,一家电商平台在促销活动中遭遇了一场诡异的生产事故。订单服务正常运行,CPU占用率不到30%,内存却以每秒数百兆的速度增长,最终触发了OOM Killer。运维团队排查了三天,才在日志里发现一条不起眼的错误信息:MissingBackpressureException。 ...
2015年,一家电商平台在促销活动中遭遇了一场诡异的生产事故。订单服务正常运行,CPU占用率不到30%,内存却以每秒数百兆的速度增长,最终触发了OOM Killer。运维团队排查了三天,才在日志里发现一条不起眼的错误信息:MissingBackpressureException。 ...
title: “大模型推理为何这么慢?从内存带宽瓶颈到KV Cache优化的技术突围” date: “2026-03-06T12:41:49+08:00” description: “深入解析大语言模型推理的性能瓶颈,从内存带宽限制到KV Cache优化的完整技术演进路线。涵盖FlashAttention、PagedAttention、GQA、连续批处理等核心技术,以及vLLM与TensorRT-LLM框架的选型建议。” draft: false categories: [“人工智能”, “性能优化”, “分布式系统”] tags: [“LLM推理”, “KV Cache”, “内存优化”, “Transformer”, “GPU优化”, “FlashAttention”, “PagedAttention”, “vLLM”] 2022年11月,ChatGPT的发布让大语言模型(LLM)走入公众视野。当你向模型发送一个简单问题时,可能需要等待几秒钟才能看到第一个字出现——这不是模型在"思考",而是在等待数据从GPU内存搬运到计算单元。 ...
2010年9月,Google Docs团队发布了一篇博客文章,宣布新版Google Docs采用了全新的协作架构。他们提到,旧版本需要约1秒钟来显示其他用户的编辑,而新版本将延迟降低到了毫秒级。这背后的技术——Operational Transformation(操作转换)——在之后的十几年里成为了实时协作的行业标准。 ...
2018年,一个技术团队在生产环境遇到了一个诡异的现象:每当数据库响应变慢,整个服务集群就会在几分钟内完全瘫痪。排查后发现,罪魁祸首是健康检查——当数据库变慢时,应用的健康检查端点开始超时,负载均衡器将服务器标记为不健康,剩余服务器承受更多流量,进一步恶化,形成恶性循环。 ...
1978年,Leslie Lamport在《Time, Clocks, and the Ordering of Events in a Distributed System》论文的开篇写道:“A distributed system can be described as one in which the failure of a computer you didn’t even know existed can render your own computer unusable.” 他当时大概没想到,这篇论文定义的"happened-before"关系,会成为分布式系统此后近五十年的基石。 ...
1978年,图灵奖得主Jim Gray在《Notes on Data Base Operating Systems》中正式描述了两阶段提交协议(Two-Phase Commit, 2PC)。这个协议的核心目标简单而直接:让分布在不同机器上的多个数据库,能够像操作单一数据库一样实现"全有或全无"的原子性保证。 ...
2005年,卡内基梅隆大学的研究人员进行了一项有趣的实验。他们在校园网络的边缘路由器上部署了四种不同的限流算法,然后用真实流量和Blaster蠕虫攻击数据进行测试。结果令人意外:表现最差的算法错误率高达30%,而表现最好的算法错误率低于1%。 ...