为什么大模型会一本正经地胡说八道？从概率生成到注意力机制的技术解剖

title: “为什么大模型会一本正经地胡说八道？从概率生成到注意力机制的技术解剖” date: “2026-03-07T09:12:30+08:00” description: “深入解析大语言模型幻觉现象的技术本质，从Transformer架构限制、训练数据缺陷到softmax瓶颈，揭示为什么幻觉不是bug而是架构的必然产物，以及RAG、思维链等缓解方案的有效性边界。” draft: false categories: [“人工智能”, “机器学习”, “深度学习”] tags: [“大模型幻觉”, “Transformer”, “注意力机制”, “LLM”, “RAG”, “概率生成”, “AI可靠性”]

2023年5月，纽约律师Steven Schwartz在准备法庭辩护时，让ChatGPT查找类似案例。模型自信地提供了《Martinez v. United States》《Jones v. United States》等多个判例，包括完整的案号、判决日期和法官意见。Schwartz将这些"案例"写入了法庭文件。直到法官要求核实，人们才发现：这些案例全部不存在。模型不仅虚构了案件名称，还编造了引文格式、判决细节和法理分析——每一处都符合法律文书的规范，却全是子虚乌有。Schwartz后来在宣誓书中承认，他"误以为ChatGPT不可能编造虚假信息"。

这不是一个孤立的"故障"。斯坦福大学2024年的研究发现，主流大模型在法律问题上的幻觉率高达58%-82%。更令人不安的是，OpenAI最新发布的推理模型o3和o4-mini，在某些基准测试中的幻觉率甚至达到了33%-48%——比早期模型更高。

幻觉（Hallucination）不是大模型的"病"，而是它的"出厂设置"。这个现象的根源深埋在语言模型的架构本质中，任何试图彻底消除它的努力，都将面对计算复杂性理论的铁壁铜墙。

幻觉的本质：它不是"误解"，而是"编造"

在心理学中，“幻觉"指感知到不存在的事物。大模型的幻觉与之类似：生成流畅、自信、却与现实不符的内容。但AI幻觉有一个关键区别——模型并不知道自己在"说谎”。

幻觉分为两类：内在幻觉（Intrinsic Hallucination）指输出与源材料矛盾，比如问"第一个登上火星的人"，回答"尼尔·阿姆斯特朗"——模型"知道"阿姆斯特朗登的是月球，却错误地关联了信息。外在幻觉（Extrinsic Hallucination）则更隐蔽：输出中包含源材料中不存在的额外信息。比如模型正确回答了某个问题，却额外编造了不存在的研究论文或专家引述。

OpenAI在其研究论文中给出了一个更根本的分类：事实性幻觉（Factuality Hallucination）涉及与现实世界知识的冲突；忠实性幻觉（Faithfulness Hallucination）则涉及与输入指令或上下文的偏离，包括指令不一致、上下文不一致和逻辑不一致。

为什么这个区别重要？因为内在幻觉相对容易检测——你只需要比对答案与已知事实。但外在幻觉几乎无法自动识别：你怎么证明一个从未被记录的"专家观点"不存在？

概率生成：第一个无法回避的原罪

所有幻觉的根源，可以追溯到一个看似无害的设计选择：语言模型不是在"回忆"知识，而是在"预测"文本。

当模型被问及"爱因斯坦在哪一年获得诺贝尔物理学奖？“时，它不是在检索数据库，而是在计算：在给定这段提示的情况下，最可能出现的下一个token是什么？这个过程完全基于统计概率，与"事实正确性"没有直接关联。

OpenAI的研究指出，这导致了几个关键问题：

低频知识的命运

模型在训练中见过大量关于爱因斯坦的文本，“1921"这个年份与"诺贝尔奖"共现的频率足够高，因此预测准确。但对于一个只在互联网角落出现几次的小众事实，模型从未建立可靠的统计关联。此时，它会怎么做？

它仍然必须输出一个token。架构没有"我不知道"这个选项——每一轮生成都必须选择一个词。当模型对正确答案没有信心时，它不会沉默，而是基于相邻概念生成一个"看起来合理"的回答。

这就是为什么模型更擅长回答爱因斯坦的成就，却会虚构一个普通物理学家的生平细节。前者是高频知识，统计模式清晰；后者是长尾知识，模型只能"猜”。

模仿性谬误

训练数据本身可能包含错误信息。如果互联网上充斥着"爱迪生发明了电灯泡"的简化叙事，模型就会学到这个模式并复述它——即使更准确的说法是爱迪生改进并商业化了电灯泡。模型没有"纠错"能力，它只是在重现训练分布中的模式。

研究表明，即使训练数据经过严格清洗，某些系统性偏见仍会渗透进模型的输出。这是因为模型学习的是文本的统计规律，而非事实的真伪判断。

Transformer架构：理论上的不可能

2024年，一篇发表在arXiv上的论文用通信复杂度（Communication Complexity）证明了Transformer架构的一个根本性限制：单层多头注意力机制无法可靠地完成函数组合任务。

什么是函数组合？考虑一个简单的例子：

前提1：肖邦的父亲是尼古拉·肖邦
前提2：尼古拉·肖邦出生于1771年4月15日
问题：肖邦父亲的生日是哪天？

这需要"compose"两个函数：father-of(肖邦) = 尼古拉，birthday-of(尼古拉) = 1771年4月15日。对人类而言，这是瞬间的推理。但论文证明，当函数的定义域足够大时，单个Transformer注意力层无法在理论上正确计算这个组合。

证明的核心是：注意力机制依赖softmax操作来分配权重，而这个操作的信息传递容量受限于嵌入维度和注意力头数量。当需要组合的信息分散在大规模定义域中时，模型无法在有限的计算步骤中准确"找到"并"连接"相关信息。

定理：对于定义域大小为N的函数组合问题，一个具有h个注意力头、嵌入维度d、计算精度b的单层Transformer，如果N > d × b × h，则无法正确解决该问题。错误概率至少为1 - (d×b×h)/N。

这意味着什么？即使是最先进的模型，在面对需要多跳推理的问题时，也存在架构层面的"天花板”。链式思维（Chain of Thought）可以缓解这个问题——通过生成中间推理步骤，相当于把复杂的组合问题分解成多次简单的单步操作——但这需要更多的token，也引入了新的幻觉风险。

注意力模式的失效

更深层的分析揭示，幻觉往往伴随着注意力模式的异常：

过度聚焦无关信息：某些注意力头错误地将权重分配给与问题无关的上下文
注意力过于分散：无法建立关键概念之间的强关联
跨层协作失败：不同层之间未能形成有效的信息传递链

研究显示，禁用某些前层或后层可以减少幻觉，但禁用中间层反而会加剧问题。这表明幻觉不是某个"坏模块"导致的，而是整个系统协同运作时涌现的特性。

Softmax瓶颈：表达能力的隐形天花板

另一个技术限制被称为"softmax瓶颈"。简单说，模型的隐藏维度（hidden dimension）限制了它能表达的词汇分布复杂度。

当模型需要在多个相似但微妙不同的答案之间做出区分时，如果隐藏维度不足以编码这种精细差异，softmax输出就会"坍缩"——将本应分开的概率分布混为一谈。

这对于小模型（隐藏维度<1000）尤为严重，它们会产生研究者所说的"退化潜在表示"：不同概念在内部表示中被错误地融合。但即使是最大的模型，在处理需要微妙语义区分的复杂主题时，也会撞上这个瓶颈。

这解释了一个反直觉的现象：更大的模型不总是产生更少的幻觉。模型规模的提升主要增强了流畅性和复杂推理能力，但softmax瓶颈是架构层面的限制，不会随参数增长自动消失。

过度置信：模型为什么从不"承认无知"

语言模型最危险的特征不是它会犯错，而是它犯错时和正确时表现得一样自信。

这是因为训练目标从未包含"不确定性校准"：模型在每一步都被要求选择一个token，无论它对正确答案有多确信。训练数据几乎完全由自信的陈述组成——没有人会在百科全书中间写"我不太确定这一点"。

OpenAI的研究用选择题类比解释了这个问题：

假设考试只有选择题，空着不答必然得0分，猜错也扣0分，猜对则得分。在这种情况下，理性的策略是什么？什么都猜。

模型正是如此。当评估指标只看"准确率"（答对的比例）时，鼓励了模型在不确定时猜测。一个52%弃权、22%准确、26%错误的模型，从准确率角度看表现平平；但如果它选择不弃权，即使准确率只提高到24%，错误率也会飙升到75%。

当前的主流评估方式，本质上是在奖励"大胆猜测"而非"诚实承认不确定"。

幻觉率统计：数字背后的现实

2025年的研究数据显示，幻觉率呈现出复杂的分布：

任务类型	顶级模型幻觉率	所有模型平均
通用知识问答	0.7%-1%	~9.2%
法律领域	6.4%	18.7%
医疗健康	4.3%	15.6%
金融数据	2.1%	13.8%
科学研究	3.7%	16.9%

值得注意的是，最先进的"推理模型"在某些基准上幻觉率反而更高。OpenAI的o3模型在PersonQA基准上的幻觉率达到33%，o4-mini更是高达48%。这看似矛盾，实则合理：更强的推理能力意味着模型尝试回答更广泛的问题——包括那些它本不该回答的。

企业场景的影响更为具体：

知识工作者每周平均花费4.3小时核实AI输出
**47%**的企业AI用户曾基于幻觉内容做出重大业务决策
**39%**的AI客服机器人因幻觉问题被撤回或重做
**76%**的企业已部署"人机协同"流程来捕获幻觉

检测幻觉：在迷雾中寻找信号

如果幻觉无法根除，能否至少检测到它？研究者提出了多种方法：

语义熵（Semantic Entropy）

2024年《Nature》发表的方法：让模型对同一问题生成多个答案，然后计算这些答案在语义层面的"熵"。如果多个答案彼此矛盾，熵值高，表明模型不确定；如果答案语义一致，熵值低，可能是可靠输出。

这种方法有效，但成本高昂——每个查询需要多次生成和语义比对。

注意力模式分析

研究发现，幻觉产生时，模型的注意力分布呈现特定模式：对输入关键信息的关注度下降，对无关信息的关注度上升。通过监控注意力头的输出，可以实时预警潜在的幻觉。

但这种方法需要访问模型内部状态，对闭源API无效。

检索式验证

用外部知识库验证模型输出的事实声明。如果模型声称某论文存在，就在学术数据库中检索。

局限性在于：检索系统本身可能有缺陷，而且许多"合理的"陈述根本无从验证——你怎么证明一个从未发生的事件"没有发生"？

自一致性检验

对同一问题多次采样，检查答案的一致性。高度不一致的结果暗示模型在"猜"。

这个方法简单有效，但前提是问题有确定的正确答案。对于开放式问题，多样性是特性而非缺陷。

缓解策略：不是修复，而是规避

RAG：让模型"带参考书考试"

检索增强生成（Retrieval-Augmented Generation）的思路是：与其依赖模型内部可能过时或错误的知识，不如让模型在生成答案前先检索外部知识库。

研究显示，RAG在医疗场景可将幻觉率从15.6%降至5.8%。但RAG并非万能药：

检索失败：如果检索器找不到相关文档，模型会回到"猜"的状态
噪声污染：检索到的低质量文档可能引入新的错误
知识库限制：知识库无法覆盖所有领域

思维链：分解问题，步步验证

链式思维（Chain of Thought）提示让模型"展示推理过程"，而非直接给出答案。每个推理步骤都可以被独立验证，错误更容易被发现。

graph TD
    A[问题] --> B[步骤1：分解子问题]
    B --> C[步骤2：检索相关信息]
    C --> D[步骤3：逐步推理]
    D --> E[步骤4：自我验证]
    E --> F{验证通过?}
    F -->|是| G[输出答案]
    F -->|否| H[回溯修正]
    H --> D

但思维链有一个悖论：更长的推理链条意味着更多的幻觉机会。研究表明，CoT在某些情况下会降低幻觉检测的可靠性——因为错误被包装在更复杂的推理中，更难识别。

解码策略调整

降低生成温度、限制采样范围，可以让模型的输出更"保守"，减少偏离训练分布的风险。但代价是牺牲多样性和创造性——对于需要发散思维的任务，这恰恰是不可接受的。

训练时校准

新的研究方向试图在训练阶段引入不确定性意识：让模型学会"我知道什么、不知道什么"。这需要改变损失函数，惩罚过度自信的错误答案，奖励诚实的"我不知道"。

OpenAI的研究建议引入类似标准化考试的"倒扣分"机制：对错误答案的惩罚大于对弃权的惩罚。

写在最后

幻觉不是大模型的bug，而是其架构的必然产物。Transformer的注意力机制有理论证明的函数组合局限；softmax层有表达能力的天花板；训练数据充满噪音和偏见；评估机制在奖励猜测而非诚实。

这不是说我们应该放弃大模型——它们在翻译、摘要、创意写作等任务上依然价值巨大。但理解幻觉的本质，是正确使用这些工具的前提：

对于事实性查询，尤其是专业领域、近期事件、冷门知识，假设输出可能是幻觉，始终核实
对于开放式任务，利用模型的创造力，但接受"虚构"是其特性之一
对于高风险场景，必须部署人机协同的验证机制

RAG、思维链、不确定性校准等技术可以降低幻觉率，但不会消除它。最终的防线永远是：不要把大模型当作真理的来源，而把它当作一个知识渊博但有时会"编故事"的助手。

参考资料

OpenAI. Why Language Models Hallucinate. 2025. https://openai.com/index/why-language-models-hallucinate/
Rawte et al. A Survey on Hallucination in Large Language Models. ACM Computing Surveys, 2025.
Hahn, M. Theoretical Limitations of Self-Attention in Neural Sequence Models. ACL 2020.
Sanford, Hsu, Telgarsky. On Limitations of the Transformer Architecture. arXiv:2402.08164, 2024.
Farquhar et al. Detecting hallucinations in large language models using semantic entropy. Nature, 2024.
Drainpipe.io. The Reality of AI Hallucinations in 2025. https://drainpipe.io/the-reality-of-ai-hallucinations-in-2025/
Ji et al. Survey of Hallucination in Natural Language Generation. ACM Computing Surveys, 2023.
Huang et al. A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges. 2023.
Dahl et al. Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools. Stanford HAI, 2024.
Tonmoy et al. A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models. 2024.
Zhang et al. Siren’s Song in the AI Ocean: A Survey on Hallucination in Large Language Models. 2023.
Pinecone. Understanding Hallucinations in AI: A Comprehensive Guide. https://www.pinecone.io/learn/ai-hallucinations/
IBM. What Are AI Hallucinations? https://www.ibm.com/think/topics/ai-hallucinations
Manakul et al. SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection. EMNLP 2023.
New York Times. A Man Sued Avianca Airline. His Lawyer Used ChatGPT. 2023. https://www.nytimes.com/2023/05/27/nyregion/avianca-airline-lawsuit-chatgpt.html

幻觉的本质：它不是"误解"，而是"编造"#

概率生成：第一个无法回避的原罪#

低频知识的命运#

模仿性谬误#

Transformer架构：理论上的不可能#

注意力模式的失效#

Softmax瓶颈：表达能力的隐形天花板#

过度置信：模型为什么从不"承认无知"#

幻觉率统计：数字背后的现实#

检测幻觉：在迷雾中寻找信号#

语义熵（Semantic Entropy）#

注意力模式分析#

检索式验证#

自一致性检验#

缓解策略：不是修复，而是规避#

RAG：让模型"带参考书考试"#

思维链：分解问题，步步验证#

解码策略调整#

训练时校准#

写在最后#

参考资料#

更多精彩内容

Encoder-Only、Decoder-Only和Encoder-Decoder：为什么这三种架构统治了Transformer的七年演变

Transformer 的注意力机制究竟在计算什么？从 QKV 到多头的完整解析

大模型的上下文窗口：从Token限制到有效上下文管理的完整解析

从输入文本到输出：大模型推理的完整流程解析

变长序列处理：大模型如何应对长短不一的输入