LLM推理

多查询注意力：为什么共享一个KV头能让大模型推理提速数倍

2019年11月，Noam Shazeer在arXiv上发表了一篇标题颇为大胆的论文——《Fast Transformer Decoding: One Write-Head is All You Need》。这篇仅6页的论文提出了一个看似简单的问题：Transformer解码时，我们真的需要那么多Key和Value头吗？ ...

KV Cache：为什么这个"缓存"决定了大模型推理的速度和成本

你有没有想过，为什么大模型生成第一个字需要几秒钟，但后续的字却快得多？为什么同样的模型，处理1000字的上下文比处理100字消耗更多显存？为什么有些70B参数的模型反而比7B模型的KV缓存更小？ ...

大模型解码策略全景解析：从贪婪搜索到动态阈值采样的二十年演进

引言：一个被低估的关键环节当你向ChatGPT提问"法国的首都是哪里"，它会毫不犹豫地回答"巴黎"。但如果你问"写一个创意故事"，同样的模型可能每次都会给出不同的开头。这种差异的背后，隐藏着大语言模型最基础却又最关键的技术环节——解码策略。 ...

一个请求先结束为何整批都要等从静态批处理到连续批处理的LLM推理革命

2023年，一个令人震惊的数据在AI基础设施领域引发了震动：现有的大模型推理系统正在浪费60-80%的GPU计算资源。这些昂贵的计算硬件并非因模型不够先进而闲置，而是被一种看不见的"幽灵"吞噬——批处理策略的低效。 ...

为什么PagedAttention能让大模型推理吞吐量提升数倍——从KV Cache内存碎片到分页管理的系统级优化

2023年，加州大学伯克利分校的研究团队发表了一篇论文，揭示了一个令人震惊的数据：现有的大模型推理系统正在浪费60-80%的GPU显存。这些昂贵的计算资源并非用于实际的模型计算，而是被一种看不见的"幽灵"吞噬——内存碎片。 ...

大模型推理为何这么慢？从内存带宽瓶颈到KV Cache优化的技术突围

title: “大模型推理为何这么慢？从内存带宽瓶颈到KV Cache优化的技术突围” date: “2026-03-06T12:41:49+08:00” description: “深入解析大语言模型推理的性能瓶颈，从内存带宽限制到KV Cache优化的完整技术演进路线。涵盖FlashAttention、PagedAttention、GQA、连续批处理等核心技术，以及vLLM与TensorRT-LLM框架的选型建议。” draft: false categories: [“人工智能”, “性能优化”, “分布式系统”] tags: [“LLM推理”, “KV Cache”, “内存优化”, “Transformer”, “GPU优化”, “FlashAttention”, “PagedAttention”, “vLLM”] 2022年11月，ChatGPT的发布让大语言模型（LLM）走入公众视野。当你向模型发送一个简单问题时，可能需要等待几秒钟才能看到第一个字出现——这不是模型在"思考"，而是在等待数据从GPU内存搬运到计算单元。 ...