为什么最先进的AI依然会编造事实：从训练机制到评估陷阱的技术解密

2023年5月，纽约联邦法院审理一起看似普通的航空伤害赔偿案。原告Roberto Mata的代理律师提交了一份详尽的法律简报，引用了Zicherman v. Korean Air Lines Co.、Varghese v. China Southern Airlines Co.等多个先例。问题在于——这些案例在现实中根本不存在。

这并非律师疏忽，而是ChatGPT的"杰作"。当法官要求提供这些案例的原文时，律师Steven Schwartz才惊恐地发现，整个法律数据库中找不到任何一篇他引用的判决。这起Mata v. Avianca案最终以律师被罚款5000美元告终，却揭示了一个更深层的问题：为什么看起来如此"智能"的AI，会如此自信地编造事实？

一个被误解的概念

“幻觉”（Hallucination）这个词本身就带有误导性。它借用了心理学中感知错误的术语，暗示AI在"看到不存在的东西"。但技术现实远比这个比喻复杂。

在自然语言处理的语境下，幻觉指的是模型生成流畅、语法正确但事实不准确或无法被外部证据支持的内容。这个定义本身就包含一个关键洞见：幻觉输出的文本质量往往不亚于真实信息。正是这种"以假乱真"的能力，使得幻觉成为一个棘手的问题。

学术界将幻觉分为两大类型：

内在幻觉（Intrinsic Hallucination）：输出内容与已知事实直接矛盾。例如，当被问及《傲慢与偏见》的作者时，模型回答"查尔斯·狄更斯"。

外在幻觉（Extrinsic Hallucination）：输出内容包含了源文本中不存在的信息。例如，正确回答"简·奥斯汀"的同时，额外补充"她于1797年完成手稿"——这句话可能是真的，也可能是编造的，但无论如何都无法从原始输入中验证。

2023年，研究者进一步将幻觉细分为"事实性幻觉"（Factuality Hallucination）和"忠实性幻觉"（Faithfulness Hallucination）。前者涉及与现实世界的偏差，后者涉及与输入上下文或用户指令的偏离。一个要求"用一句话概括"却被回复整段的模型，即便内容正确，也构成了忠实性幻觉。

OpenAI的突破性发现：系统鼓励"猜题"

2025年9月，OpenAI发布了一篇题为《Why Language Models Hallucinate》的论文，首次从统计学角度系统阐述了幻觉的根本成因。核心论点令人深思：幻觉之所以难以消除，是因为当前的训练和评估机制实际上在奖励"猜测"而非"承认不确定性"。

考虑一个简单的类比：多项选择题考试。如果你不知道答案却随机猜测，仍有25%的概率选对。而留空不作答，得分必然为零。从期望值的角度看，猜测是"理性"的选择。

大语言模型面临的正是同样的激励机制。当模型被问及某个它不确定的事实时，如果猜测一个答案，存在一定的概率"碰巧正确"；如果回答"我不知道"，在以准确率为唯一指标的评估体系中，注定得零分。

OpenAI的研究者提供了一个具体数据对比：

行为模式	放弃率	准确率	错误率
保守策略	52%	22%	26%
激进猜测	1%	24%	75%

激进猜测的模型在准确率指标上略胜一筹（24% vs 22%），但错误率却高达75%。这意味着，当排行榜只看准确率时，“爱猜"的模型反而排名更高——一个典型的古德哈特定律案例。

更深层的问题在于预训练阶段的本质。语言模型并非在学习"事实”，而是在学习"语言的概率分布"。对于拼写、语法这类有明确规律的模式，模型可以做到近乎完美；但对于"某人的生日"这种本质上随机分布的事实，模型根本没有可靠的预测基础。

MIT的研究团队在2024年发现了一个有趣的机制：大型语言模型在检索存储的知识时，往往使用简单的线性函数。例如，“某人的出生地"和"某人演奏的乐器"会激活不同的线性解码函数。研究者成功识别了47种关系的线性函数，准确率超过60%。但关键的是，并非所有知识都以这种方式存储——对于那些模型知道却无法用线性函数解码的事实，其存储机制远比我们想象的复杂。

幻觉率的真实数据

2026年2月，Vectara发布了最新的大语言模型幻觉排行榜，对超过7700篇文章进行摘要测试，结果耐人寻味：

表现最佳的模型幻觉率仅为1.8%，而表现最差的模型高达24.2%。更值得注意的是，付费模型并不总是比免费版本表现更好——OpenAI的o3-pro模型幻觉率达到23.3%，远高于许多开源模型。

另一项由Columbia Journalism Review在2025年进行的研究采用了不同的测试方法：向模型提供新闻摘录，要求识别原始文章来源。结果显示：

模型	幻觉率
Perplexity	37%
ChatGPT Search	67%
Gemini	76%
Grok-3 Search	94%

这些数字揭示了一个关键事实：幻觉率高度依赖于任务类型。在摘要任务中表现优异的模型，在事实检索场景可能完全失效。

知识是如何存储的？

要理解幻觉，必须首先理解模型如何"记住"知识。

传统数据库以结构化方式存储事实：一张表格记录"实体-属性-值"的三元组。但神经网络没有这种奢侈——所有信息都被压缩进数十亿个权重参数中。

MIT的研究发现，部分知识以一种出人意料的方式组织：模型学习到了一组线性变换函数，可以从实体的向量表示中"解码"出特定属性。例如，给定"Miles Davis"的向量表示，模型可以通过一个线性函数解码出"trumpet”（他演奏的乐器），通过另一个线性函数解码出"Illinois"（他出生的州）。

这种机制看似优雅，却存在先天缺陷。首先，并非所有关系都能用线性函数表达；其次，解码过程是概率性的，而非确定性的检索；第三，模型对罕见实体的表示往往不够准确，导致解码错误。

更根本的问题在于长尾知识困境。研究发现，LLM对训练数据中频繁出现的概念表现优异，但对于罕见实体——例如某个小众研究者或冷门事件——幻觉率急剧上升。这不是bug，而是数据分布不均的必然结果。

温度参数：创造力与准确性的博弈

在工程实践中，控制幻觉最直接的手段之一是调整温度参数（Temperature）。这个超参数控制模型输出的随机性：

温度=0：模型总是选择概率最高的token，输出最"确定"
温度=1：按原始概率分布采样，引入适度随机性
温度>1：拉平概率分布，低概率选项获得更多机会

直觉上，降低温度应该能减少幻觉——让模型更"保守"。但2025年的研究发现，事实并非如此简单。

研究显示，温度对幻觉的影响与任务类型密切相关。对于摘要等需要忠实于输入的任务，低温度确实有助于减少"添加不存在信息"的外在幻觉。但对于创意写作任务，过低的温度会导致模型过度依赖训练数据中的高频模式，反而可能产生另一种形式的"幻觉"——千篇一律的陈词滥调。

这揭示了一个更深层的权衡：幻觉与创造力是同一枚硬币的两面。一个永远"安全"的模型，也是一个永远平庸的模型。如何在特定应用场景中找到最佳平衡点，成为工程实践的核心挑战。

解决方案的演进

RAG：用检索替代记忆

检索增强生成（Retrieval-Augmented Generation）是目前最主流的幻觉缓解方案。核心思路很简单：不依赖模型的"记忆"，而是在生成回答前先检索相关文档，将答案锚定在检索到的证据上。

RARR框架进一步发展了这个思路。它不仅检索相关文档，还会主动检查生成内容是否与证据一致，不一致则进行编辑修正。实验表明，这种方法可以显著提高生成内容的可归因性。

但RAG并非万能药。首先，检索质量直接决定最终答案质量——垃圾进，垃圾出。其次，对于无法检索到相关信息的问题，模型仍可能编造答案。第三，多轮对话中的复杂推理任务，单纯依赖检索难以解决。

Chain-of-Verification：让模型自我检查

Meta AI在2023年提出了Chain-of-Verification（CoVe）方法，让模型扮演自己的审稿人。流程分为四个步骤：

初始回答：模型生成一个草稿答案
规划验证问题：基于草稿生成一系列验证性问题
执行验证：独立回答每个验证问题
最终输出：综合验证结果，修正并输出最终答案

关键在于"独立性"——验证问题必须脱离原答案的上下文单独回答，避免模型简单地重复自己的错误。实验表明，这种方法可以减少约30%的事实性幻觉，但代价是推理时间的显著增加。

Self-RAG：检索的自我反思

Self-RAG将自我反思机制融入检索过程。模型在生成每个片段时都会输出特殊的"反思token"：

Retrieve token：判断是否需要检索外部信息
IsRel token：判断检索到的文档是否相关
IsSup token：判断生成内容是否被文档支持
IsUse token：判断生成内容对用户是否有用

这些判断使得模型可以在需要时主动检索，在检索结果不相关时拒绝使用，在内容无证据支持时放弃输出——模拟了人类专家面对不确定问题时的谨慎态度。

实践中的权衡

对于实际应用，没有放之四海而皆准的解决方案。关键在于理解不同方案的适用场景：

方案	适用场景	主要代价
低温度解码	需要稳定输出的任务	牺牲多样性和创造力
RAG	可检索的知识密集型任务	检索延迟、检索质量依赖
CoVe	对准确性要求极高的场景	推理时间翻倍
Self-RAG	需要动态决策的复杂任务	实现复杂度较高

更根本的变革需要在评估层面发生。OpenAI的研究者呼吁，改变现有的评估计分方式：对错误答案的惩罚应超过对"不知道"的惩罚，对恰当表达不确定性的行为给予部分积分。只有这样，才能真正激励模型"诚实面对无知"。

回到起点

Mata v. Avianca案只是一个开端。截至2026年，已有超过120个法庭案件被记录涉及AI编造的法律引用。这些案例都在提醒我们一个简单的道理：AI的流畅输出不等于可靠输出。

从技术角度看，幻觉不是一种"故障"，而是概率生成模型的固有特性。正如研究指出的，幻觉与创造力共享同一套机制——我们无法在不牺牲模型创新能力的前提下完全消除幻觉。

但这并不意味着我们无能为力。通过理解幻觉的成因机制，我们可以在应用层面做出更明智的权衡：在需要高准确性的场景优先选择RAG和验证机制；在创意场景接受适度的"不确定性"；在所有场景都建立事实核查的流程。

最终，最关键的认知转变或许在于：我们不应该期待AI成为一个"知道一切"的专家，而应该将其视为一个"有时知道、有时不知道、但需要我们帮助判断"的助手。这种认知，或许比任何技术方案都更能有效地管理幻觉风险。

参考文献

Kalai, A., et al. (2025). Why Language Models Hallucinate. OpenAI Research Paper.
Hernandez, E., et al. (2024). Linear Decoding of Stored Facts in Large Language Models. MIT CSAIL.
Kwon, W., et al. (2023). Chain-of-Verification Reduces Hallucination in Large Language Models. Meta AI Research.
Asai, A., et al. (2024). Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection. University of Washington.
Vectara. (2026). Hallucination Leaderboard. GitHub Repository.
Columbia Journalism Review. (2025). AI Hallucination Rates by Model.
Gekhman, Z., et al. (2024). Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations? ACL 2024.
Lee, N., et al. (2022). FactualityPrompt: A Benchmark for Measuring Factual Consistency in Language Models.
Min, S., et al. (2023). FActScore: Fine-grained Atomic Evaluation of Factual Precision.
Ji, Z., et al. (2023). Survey of Hallucination in Natural Language Generation. ACM Computing Surveys.

一个被误解的概念#

OpenAI的突破性发现：系统鼓励"猜题"#

幻觉率的真实数据#

知识是如何存储的？#

温度参数：创造力与准确性的博弈#

解决方案的演进#

RAG：用检索替代记忆#

Chain-of-Verification：让模型自我检查#

Self-RAG：检索的自我反思#

实践中的权衡#

回到起点#

参考文献#

更多精彩内容

Tokenizer决定大模型"看到"的世界：从BPE算法到草莓问题的技术解密

为什么大模型不需要训练就能学会新任务：从贝叶斯推断到隐式权重更新的技术解密

为什么大模型记不住之前的对话——从无状态推理到长期记忆架构的技术突围

RAG检索为何频频失准：从向量空间的数学局限到语义鸿沟的技术突围

大模型为什么会编造事实：从统计本质到检测缓解的技术全景