GQA为何能让Llama 2推理速度翻倍:从MHA到MQA的注意力架构演进

2019年,Noam Shazeer在Google发表了一篇仅4页的论文,标题是《Fast Transformer Decoding: One Write-Head is All You Need》。这篇论文提出了一个激进的方案:让所有注意力头共享同一组Key和Value。结果是KV Cache缩小了几十倍,推理速度提升了10倍以上。 ...

10 min · 4906 words

为什么Flash Attention能将注意力计算提速数倍而不损失精度——从GPU内存墙到IO感知算法的技术突围

2023年,当大模型的上下文窗口从4K扩展到128K甚至更长时,一个看似不可逾越的技术障碍横亘在研究者和工程师面前:注意力机制的计算复杂度随序列长度呈二次方增长。处理一个16K token的序列,光是注意力矩阵就要占用近1GB显存;64K序列的注意力矩阵更是超过16GB,直接撑爆了当时最顶级GPU的内存容量。 ...

12 min · 5618 words

为什么大模型读不完一本书——从注意力机制到长上下文突围的技术全景

你有没有遇到过这样的情况:把一篇三万字的技术文档投给大模型,它告诉你"上下文长度超出限制";或者好不容易把文档拆成小块分别处理,却发现模型完全忘记了前面章节的内容,给出的分析前后矛盾。 ...

11 min · 5239 words

为什么大模型能从几个例子中学会新任务:从隐式梯度下降到Induction Head的技术解密

2020年5月,OpenAI发布了GPT-3。论文中有一个让研究社区困惑不已的发现:这个拥有1750亿参数的模型,竟然能在没有任何参数更新的情况下,仅凭输入中提供的几个示例,就学会完成全新的任务。 ...

10 min · 4967 words

当注意力成为瓶颈:从O(n²)困境到线性复杂度的技术突围

2017年,Google Research发表了题为《Attention Is All You Need》的论文,Transformer架构从此横空出世。但论文标题中的"All You Need"隐含了一个不言自明的假设:你能够负担得起注意力的代价。 ...

14 min · 6779 words

为什么大模型会一本正经地胡说八道?从概率生成到注意力机制的技术解剖

title: “为什么大模型会一本正经地胡说八道?从概率生成到注意力机制的技术解剖” date: “2026-03-07T09:12:30+08:00” description: “深入解析大语言模型幻觉现象的技术本质,从Transformer架构限制、训练数据缺陷到softmax瓶颈,揭示为什么幻觉不是bug而是架构的必然产物,以及RAG、思维链等缓解方案的有效性边界。” draft: false categories: [“人工智能”, “机器学习”, “深度学习”] tags: [“大模型幻觉”, “Transformer”, “注意力机制”, “LLM”, “RAG”, “概率生成”, “AI可靠性”] 2023年5月,纽约律师Steven Schwartz在准备法庭辩护时,让ChatGPT查找类似案例。模型自信地提供了《Martinez v. United States》《Jones v. United States》等多个判例,包括完整的案号、判决日期和法官意见。Schwartz将这些"案例"写入了法庭文件。直到法官要求核实,人们才发现:这些案例全部不存在。模型不仅虚构了案件名称,还编造了引文格式、判决细节和法理分析——每一处都符合法律文书的规范,却全是子虚乌有。Schwartz后来在宣誓书中承认,他"误以为ChatGPT不可能编造虚假信息"。 ...

12 min · 6010 words