FlashAttention

序列长度增加一倍，推理时间翻四倍？Transformer注意力复杂度的技术真相

把一篇2000字的文章喂给大模型，它能在毫秒级返回摘要。但当你把一篇20000字的长文档扔进去，等待第一个输出的时间可能从几百毫秒延长到几秒甚至更久。更诡异的是，生成后续内容的速度却没有明显下降。 ...

GPU显存为何总是不够用：从内存墙到KV Cache碎片化的技术突围

当你满怀信心地启动一个 70B 参数的大模型推理任务，看着进度条稳步前进，突然——屏幕一闪，一行冰冷的红字弹出：CUDA out of memory。你检查显存，明明还剩 20GB 空间，为什么还是 OOM？ ...

大模型推理为何这么慢？从内存带宽瓶颈到KV Cache优化的技术突围

title: “大模型推理为何这么慢？从内存带宽瓶颈到KV Cache优化的技术突围” date: “2026-03-06T12:41:49+08:00” description: “深入解析大语言模型推理的性能瓶颈，从内存带宽限制到KV Cache优化的完整技术演进路线。涵盖FlashAttention、PagedAttention、GQA、连续批处理等核心技术，以及vLLM与TensorRT-LLM框架的选型建议。” draft: false categories: [“人工智能”, “性能优化”, “分布式系统”] tags: [“LLM推理”, “KV Cache”, “内存优化”, “Transformer”, “GPU优化”, “FlashAttention”, “PagedAttention”, “vLLM”] 2022年11月，ChatGPT的发布让大语言模型（LLM）走入公众视野。当你向模型发送一个简单问题时，可能需要等待几秒钟才能看到第一个字出现——这不是模型在"思考"，而是在等待数据从GPU内存搬运到计算单元。 ...