大语言模型

GQA为何能让Llama 2推理速度翻倍：从MHA到MQA的注意力架构演进

2019年，Noam Shazeer在Google发表了一篇仅4页的论文，标题是《Fast Transformer Decoding: One Write-Head is All You Need》。这篇论文提出了一个激进的方案：让所有注意力头共享同一组Key和Value。结果是KV Cache缩小了几十倍，推理速度提升了10倍以上。 ...

一个请求先结束为何整批都要等从静态批处理到连续批处理的LLM推理革命

2023年，一个令人震惊的数据在AI基础设施领域引发了震动：现有的大模型推理系统正在浪费60-80%的GPU计算资源。这些昂贵的计算硬件并非因模型不够先进而闲置，而是被一种看不见的"幽灵"吞噬——批处理策略的低效。 ...

为什么让大模型一步步思考就能提升推理能力——从思维链到涌现能力的认知科学解释

2022年1月，Google Research的Jason Wei团队发表了一篇论文，展示了一组令人困惑的数据：在GSM8K数学推理基准测试上，一个540B参数的语言模型，仅仅通过在提示词中加入8个带推理步骤的示例，准确率就从约18%飙升至超过55%——这个结果甚至超过了经过微调的GPT-3。 ...

为什么PagedAttention能让大模型推理吞吐量提升数倍——从KV Cache内存碎片到分页管理的系统级优化

2023年，加州大学伯克利分校的研究团队发表了一篇论文，揭示了一个令人震惊的数据：现有的大模型推理系统正在浪费60-80%的GPU显存。这些昂贵的计算资源并非用于实际的模型计算，而是被一种看不见的"幽灵"吞噬——内存碎片。 ...

投机解码如何让大模型推理提速两倍而不损失精度

一个拥有1750亿参数的语言模型，每次生成一个token都需要从内存读取超过700GB的权重数据——但实际执行的计算量却让GPU大部分时间处于空闲状态。这种"内存等待计算"的倒挂现象，是大模型推理速度的根本瓶颈。 ...

为什么大模型读不完一本书——从注意力机制到长上下文突围的技术全景

你有没有遇到过这样的情况：把一篇三万字的技术文档投给大模型，它告诉你"上下文长度超出限制"；或者好不容易把文档拆成小块分别处理，却发现模型完全忘记了前面章节的内容，给出的分析前后矛盾。 ...

为什么修改大模型中的一个知识点会引发连锁崩溃

2022年，斯坦福大学的研究团队发表了一篇引人注目的论文。他们声称找到了一种方法，可以精准地修改大语言模型中的特定知识，而不影响其他能力。方法叫做ROME（Rank-One Model Editing），原理听起来很优雅：先用因果追踪定位知识存储的位置，然后像编辑数据库一样修改那个位置。 ...