GQA | Answer

多查询注意力：为什么共享一个KV头能让大模型推理提速数倍

2019年11月，Noam Shazeer在arXiv上发表了一篇标题颇为大胆的论文——《Fast Transformer Decoding: One Write-Head is All You Need》。这篇仅6页的论文提出了一个看似简单的问题：Transformer解码时，我们真的需要那么多Key和Value头吗？ ...

KV Cache：为什么这个"缓存"决定了大模型推理的速度和成本

你有没有想过，为什么大模型生成第一个字需要几秒钟，但后续的字却快得多？为什么同样的模型，处理1000字的上下文比处理100字消耗更多显存？为什么有些70B参数的模型反而比7B模型的KV缓存更小？ ...

GQA为何能让Llama 2推理速度翻倍：从MHA到MQA的注意力架构演进

2019年，Noam Shazeer在Google发表了一篇仅4页的论文，标题是《Fast Transformer Decoding: One Write-Head is All You Need》。这篇论文提出了一个激进的方案：让所有注意力头共享同一组Key和Value。结果是KV Cache缩小了几十倍，推理速度提升了10倍以上。 ...