title: “为什么大模型会一本正经地胡说八道?从概率生成到注意力机制的技术解剖” date: “2026-03-07T09:12:30+08:00” description: “深入解析大语言模型幻觉现象的技术本质,从Transformer架构限制、训练数据缺陷到softmax瓶颈,揭示为什么幻觉不是bug而是架构的必然产物,以及RAG、思维链等缓解方案的有效性边界。” draft: false categories: [“人工智能”, “机器学习”, “深度学习”] tags: [“大模型幻觉”, “Transformer”, “注意力机制”, “LLM”, “RAG”, “概率生成”, “AI可靠性”]

2023年5月,纽约律师Steven Schwartz在准备法庭辩护时,让ChatGPT查找类似案例。模型自信地提供了《Martinez v. United States》《Jones v. United States》等多个判例,包括完整的案号、判决日期和法官意见。Schwartz将这些"案例"写入了法庭文件。直到法官要求核实,人们才发现:这些案例全部不存在。模型不仅虚构了案件名称,还编造了引文格式、判决细节和法理分析——每一处都符合法律文书的规范,却全是子虚乌有。Schwartz后来在宣誓书中承认,他"误以为ChatGPT不可能编造虚假信息"。

这不是一个孤立的"故障"。斯坦福大学2024年的研究发现,主流大模型在法律问题上的幻觉率高达58%-82%。更令人不安的是,OpenAI最新发布的推理模型o3和o4-mini,在某些基准测试中的幻觉率甚至达到了33%-48%——比早期模型更高。

幻觉(Hallucination)不是大模型的"病",而是它的"出厂设置"。这个现象的根源深埋在语言模型的架构本质中,任何试图彻底消除它的努力,都将面对计算复杂性理论的铁壁铜墙。

幻觉的本质:它不是"误解",而是"编造"

在心理学中,“幻觉"指感知到不存在的事物。大模型的幻觉与之类似:生成流畅、自信、却与现实不符的内容。但AI幻觉有一个关键区别——模型并不知道自己在"说谎”

幻觉分为两类:内在幻觉(Intrinsic Hallucination)指输出与源材料矛盾,比如问"第一个登上火星的人",回答"尼尔·阿姆斯特朗"——模型"知道"阿姆斯特朗登的是月球,却错误地关联了信息。外在幻觉(Extrinsic Hallucination)则更隐蔽:输出中包含源材料中不存在的额外信息。比如模型正确回答了某个问题,却额外编造了不存在的研究论文或专家引述。

OpenAI在其研究论文中给出了一个更根本的分类:事实性幻觉(Factuality Hallucination)涉及与现实世界知识的冲突;忠实性幻觉(Faithfulness Hallucination)则涉及与输入指令或上下文的偏离,包括指令不一致、上下文不一致和逻辑不一致。

为什么这个区别重要?因为内在幻觉相对容易检测——你只需要比对答案与已知事实。但外在幻觉几乎无法自动识别:你怎么证明一个从未被记录的"专家观点"不存在?

概率生成:第一个无法回避的原罪

所有幻觉的根源,可以追溯到一个看似无害的设计选择:语言模型不是在"回忆"知识,而是在"预测"文本

当模型被问及"爱因斯坦在哪一年获得诺贝尔物理学奖?“时,它不是在检索数据库,而是在计算:在给定这段提示的情况下,最可能出现的下一个token是什么?这个过程完全基于统计概率,与"事实正确性"没有直接关联。

OpenAI的研究指出,这导致了几个关键问题:

低频知识的命运

模型在训练中见过大量关于爱因斯坦的文本,“1921"这个年份与"诺贝尔奖"共现的频率足够高,因此预测准确。但对于一个只在互联网角落出现几次的小众事实,模型从未建立可靠的统计关联。此时,它会怎么做?

它仍然必须输出一个token。架构没有"我不知道"这个选项——每一轮生成都必须选择一个词。当模型对正确答案没有信心时,它不会沉默,而是基于相邻概念生成一个"看起来合理"的回答。

这就是为什么模型更擅长回答爱因斯坦的成就,却会虚构一个普通物理学家的生平细节。前者是高频知识,统计模式清晰;后者是长尾知识,模型只能"猜”。

模仿性谬误

训练数据本身可能包含错误信息。如果互联网上充斥着"爱迪生发明了电灯泡"的简化叙事,模型就会学到这个模式并复述它——即使更准确的说法是爱迪生改进并商业化了电灯泡。模型没有"纠错"能力,它只是在重现训练分布中的模式。

研究表明,即使训练数据经过严格清洗,某些系统性偏见仍会渗透进模型的输出。这是因为模型学习的是文本的统计规律,而非事实的真伪判断

Transformer架构:理论上的不可能

2024年,一篇发表在arXiv上的论文用通信复杂度(Communication Complexity)证明了Transformer架构的一个根本性限制:单层多头注意力机制无法可靠地完成函数组合任务

什么是函数组合?考虑一个简单的例子:

  • 前提1:肖邦的父亲是尼古拉·肖邦
  • 前提2:尼古拉·肖邦出生于1771年4月15日
  • 问题:肖邦父亲的生日是哪天?

这需要"compose"两个函数:father-of(肖邦) = 尼古拉,birthday-of(尼古拉) = 1771年4月15日。对人类而言,这是瞬间的推理。但论文证明,当函数的定义域足够大时,单个Transformer注意力层无法在理论上正确计算这个组合。

证明的核心是:注意力机制依赖softmax操作来分配权重,而这个操作的信息传递容量受限于嵌入维度和注意力头数量。当需要组合的信息分散在大规模定义域中时,模型无法在有限的计算步骤中准确"找到"并"连接"相关信息。

定理:对于定义域大小为N的函数组合问题,一个具有h个注意力头、嵌入维度d、计算精度b的单层Transformer,如果N > d × b × h,则无法正确解决该问题。错误概率至少为1 - (d×b×h)/N。

这意味着什么?即使是最先进的模型,在面对需要多跳推理的问题时,也存在架构层面的"天花板”。链式思维(Chain of Thought)可以缓解这个问题——通过生成中间推理步骤,相当于把复杂的组合问题分解成多次简单的单步操作——但这需要更多的token,也引入了新的幻觉风险。

注意力模式的失效

更深层的分析揭示,幻觉往往伴随着注意力模式的异常:

  • 过度聚焦无关信息:某些注意力头错误地将权重分配给与问题无关的上下文
  • 注意力过于分散:无法建立关键概念之间的强关联
  • 跨层协作失败:不同层之间未能形成有效的信息传递链

研究显示,禁用某些前层或后层可以减少幻觉,但禁用中间层反而会加剧问题。这表明幻觉不是某个"坏模块"导致的,而是整个系统协同运作时涌现的特性。

Softmax瓶颈:表达能力的隐形天花板

另一个技术限制被称为"softmax瓶颈"。简单说,模型的隐藏维度(hidden dimension)限制了它能表达的词汇分布复杂度。

当模型需要在多个相似但微妙不同的答案之间做出区分时,如果隐藏维度不足以编码这种精细差异,softmax输出就会"坍缩"——将本应分开的概率分布混为一谈。

这对于小模型(隐藏维度<1000)尤为严重,它们会产生研究者所说的"退化潜在表示":不同概念在内部表示中被错误地融合。但即使是最大的模型,在处理需要微妙语义区分的复杂主题时,也会撞上这个瓶颈。

这解释了一个反直觉的现象:更大的模型不总是产生更少的幻觉。模型规模的提升主要增强了流畅性和复杂推理能力,但softmax瓶颈是架构层面的限制,不会随参数增长自动消失。

过度置信:模型为什么从不"承认无知"

语言模型最危险的特征不是它会犯错,而是它犯错时和正确时表现得一样自信

这是因为训练目标从未包含"不确定性校准":模型在每一步都被要求选择一个token,无论它对正确答案有多确信。训练数据几乎完全由自信的陈述组成——没有人会在百科全书中间写"我不太确定这一点"。

OpenAI的研究用选择题类比解释了这个问题:

假设考试只有选择题,空着不答必然得0分,猜错也扣0分,猜对则得分。在这种情况下,理性的策略是什么?什么都猜

模型正是如此。当评估指标只看"准确率"(答对的比例)时,鼓励了模型在不确定时猜测。一个52%弃权、22%准确、26%错误的模型,从准确率角度看表现平平;但如果它选择不弃权,即使准确率只提高到24%,错误率也会飙升到75%。

当前的主流评估方式,本质上是在奖励"大胆猜测"而非"诚实承认不确定"。

幻觉率统计:数字背后的现实

2025年的研究数据显示,幻觉率呈现出复杂的分布:

任务类型 顶级模型幻觉率 所有模型平均
通用知识问答 0.7%-1% ~9.2%
法律领域 6.4% 18.7%
医疗健康 4.3% 15.6%
金融数据 2.1% 13.8%
科学研究 3.7% 16.9%

值得注意的是,最先进的"推理模型"在某些基准上幻觉率反而更高。OpenAI的o3模型在PersonQA基准上的幻觉率达到33%,o4-mini更是高达48%。这看似矛盾,实则合理:更强的推理能力意味着模型尝试回答更广泛的问题——包括那些它本不该回答的。

企业场景的影响更为具体:

  • 知识工作者每周平均花费4.3小时核实AI输出
  • **47%**的企业AI用户曾基于幻觉内容做出重大业务决策
  • **39%**的AI客服机器人因幻觉问题被撤回或重做
  • **76%**的企业已部署"人机协同"流程来捕获幻觉

检测幻觉:在迷雾中寻找信号

如果幻觉无法根除,能否至少检测到它?研究者提出了多种方法:

语义熵(Semantic Entropy)

2024年《Nature》发表的方法:让模型对同一问题生成多个答案,然后计算这些答案在语义层面的"熵"。如果多个答案彼此矛盾,熵值高,表明模型不确定;如果答案语义一致,熵值低,可能是可靠输出。

这种方法有效,但成本高昂——每个查询需要多次生成和语义比对。

注意力模式分析

研究发现,幻觉产生时,模型的注意力分布呈现特定模式:对输入关键信息的关注度下降,对无关信息的关注度上升。通过监控注意力头的输出,可以实时预警潜在的幻觉。

但这种方法需要访问模型内部状态,对闭源API无效。

检索式验证

用外部知识库验证模型输出的事实声明。如果模型声称某论文存在,就在学术数据库中检索。

局限性在于:检索系统本身可能有缺陷,而且许多"合理的"陈述根本无从验证——你怎么证明一个从未发生的事件"没有发生"?

自一致性检验

对同一问题多次采样,检查答案的一致性。高度不一致的结果暗示模型在"猜"。

这个方法简单有效,但前提是问题有确定的正确答案。对于开放式问题,多样性是特性而非缺陷。

缓解策略:不是修复,而是规避

RAG:让模型"带参考书考试"

检索增强生成(Retrieval-Augmented Generation)的思路是:与其依赖模型内部可能过时或错误的知识,不如让模型在生成答案前先检索外部知识库。

研究显示,RAG在医疗场景可将幻觉率从15.6%降至5.8%。但RAG并非万能药:

  • 检索失败:如果检索器找不到相关文档,模型会回到"猜"的状态
  • 噪声污染:检索到的低质量文档可能引入新的错误
  • 知识库限制:知识库无法覆盖所有领域

思维链:分解问题,步步验证

链式思维(Chain of Thought)提示让模型"展示推理过程",而非直接给出答案。每个推理步骤都可以被独立验证,错误更容易被发现。

graph TD
    A[问题] --> B[步骤1:分解子问题]
    B --> C[步骤2:检索相关信息]
    C --> D[步骤3:逐步推理]
    D --> E[步骤4:自我验证]
    E --> F{验证通过?}
    F -->|是| G[输出答案]
    F -->|否| H[回溯修正]
    H --> D

但思维链有一个悖论:更长的推理链条意味着更多的幻觉机会。研究表明,CoT在某些情况下会降低幻觉检测的可靠性——因为错误被包装在更复杂的推理中,更难识别。

解码策略调整

降低生成温度、限制采样范围,可以让模型的输出更"保守",减少偏离训练分布的风险。但代价是牺牲多样性和创造性——对于需要发散思维的任务,这恰恰是不可接受的。

训练时校准

新的研究方向试图在训练阶段引入不确定性意识:让模型学会"我知道什么、不知道什么"。这需要改变损失函数,惩罚过度自信的错误答案,奖励诚实的"我不知道"。

OpenAI的研究建议引入类似标准化考试的"倒扣分"机制:对错误答案的惩罚大于对弃权的惩罚。

写在最后

幻觉不是大模型的bug,而是其架构的必然产物。Transformer的注意力机制有理论证明的函数组合局限;softmax层有表达能力的天花板;训练数据充满噪音和偏见;评估机制在奖励猜测而非诚实。

这不是说我们应该放弃大模型——它们在翻译、摘要、创意写作等任务上依然价值巨大。但理解幻觉的本质,是正确使用这些工具的前提:

  • 对于事实性查询,尤其是专业领域、近期事件、冷门知识,假设输出可能是幻觉,始终核实
  • 对于开放式任务,利用模型的创造力,但接受"虚构"是其特性之一
  • 对于高风险场景,必须部署人机协同的验证机制

RAG、思维链、不确定性校准等技术可以降低幻觉率,但不会消除它。最终的防线永远是:不要把大模型当作真理的来源,而把它当作一个知识渊博但有时会"编故事"的助手


参考资料

  1. OpenAI. Why Language Models Hallucinate. 2025. https://openai.com/index/why-language-models-hallucinate/
  2. Rawte et al. A Survey on Hallucination in Large Language Models. ACM Computing Surveys, 2025.
  3. Hahn, M. Theoretical Limitations of Self-Attention in Neural Sequence Models. ACL 2020.
  4. Sanford, Hsu, Telgarsky. On Limitations of the Transformer Architecture. arXiv:2402.08164, 2024.
  5. Farquhar et al. Detecting hallucinations in large language models using semantic entropy. Nature, 2024.
  6. Drainpipe.io. The Reality of AI Hallucinations in 2025. https://drainpipe.io/the-reality-of-ai-hallucinations-in-2025/
  7. Ji et al. Survey of Hallucination in Natural Language Generation. ACM Computing Surveys, 2023.
  8. Huang et al. A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges. 2023.
  9. Dahl et al. Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools. Stanford HAI, 2024.
  10. Tonmoy et al. A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models. 2024.
  11. Zhang et al. Siren’s Song in the AI Ocean: A Survey on Hallucination in Large Language Models. 2023.
  12. Pinecone. Understanding Hallucinations in AI: A Comprehensive Guide. https://www.pinecone.io/learn/ai-hallucinations/
  13. IBM. What Are AI Hallucinations? https://www.ibm.com/think/topics/ai-hallucinations
  14. Manakul et al. SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection. EMNLP 2023.
  15. New York Times. A Man Sued Avianca Airline. His Lawyer Used ChatGPT. 2023. https://www.nytimes.com/2023/05/27/nyregion/avianca-airline-lawsuit-chatgpt.html