GQA为何能让Llama 2推理速度翻倍:从MHA到MQA的注意力架构演进

2019年,Noam Shazeer在Google发表了一篇仅4页的论文,标题是《Fast Transformer Decoding: One Write-Head is All You Need》。这篇论文提出了一个激进的方案:让所有注意力头共享同一组Key和Value。结果是KV Cache缩小了几十倍,推理速度提升了10倍以上。 ...

10 min · 4906 words

一个请求先结束为何整批都要等从静态批处理到连续批处理的LLM推理革命

2023年,一个令人震惊的数据在AI基础设施领域引发了震动:现有的大模型推理系统正在浪费60-80%的GPU计算资源。这些昂贵的计算硬件并非因模型不够先进而闲置,而是被一种看不见的"幽灵"吞噬——批处理策略的低效。 ...

10 min · 4695 words

为什么让大模型一步步思考就能提升推理能力——从思维链到涌现能力的认知科学解释

2022年1月,Google Research的Jason Wei团队发表了一篇论文,展示了一组令人困惑的数据:在GSM8K数学推理基准测试上,一个540B参数的语言模型,仅仅通过在提示词中加入8个带推理步骤的示例,准确率就从约18%飙升至超过55%——这个结果甚至超过了经过微调的GPT-3。 ...

11 min · 5182 words

为什么PagedAttention能让大模型推理吞吐量提升数倍——从KV Cache内存碎片到分页管理的系统级优化

2023年,加州大学伯克利分校的研究团队发表了一篇论文,揭示了一个令人震惊的数据:现有的大模型推理系统正在浪费60-80%的GPU显存。这些昂贵的计算资源并非用于实际的模型计算,而是被一种看不见的"幽灵"吞噬——内存碎片。 ...

9 min · 4365 words

投机解码如何让大模型推理提速两倍而不损失精度

一个拥有1750亿参数的语言模型,每次生成一个token都需要从内存读取超过700GB的权重数据——但实际执行的计算量却让GPU大部分时间处于空闲状态。这种"内存等待计算"的倒挂现象,是大模型推理速度的根本瓶颈。 ...

3 min · 1318 words

为什么大模型读不完一本书——从注意力机制到长上下文突围的技术全景

你有没有遇到过这样的情况:把一篇三万字的技术文档投给大模型,它告诉你"上下文长度超出限制";或者好不容易把文档拆成小块分别处理,却发现模型完全忘记了前面章节的内容,给出的分析前后矛盾。 ...

11 min · 5239 words

为什么修改大模型中的一个知识点会引发连锁崩溃

2022年,斯坦福大学的研究团队发表了一篇引人注目的论文。他们声称找到了一种方法,可以精准地修改大语言模型中的特定知识,而不影响其他能力。方法叫做ROME(Rank-One Model Editing),原理听起来很优雅:先用因果追踪定位知识存储的位置,然后像编辑数据库一样修改那个位置。 ...

12 min · 5655 words