大模型为什么会编造事实：从统计本质到检测缓解的技术全景

2023年，一位美国律师使用ChatGPT查找法律判例，结果在法庭上提交了六个完全不存在的案例。法官在裁决书中写道：“这些案例是’幻觉’的产物。“这不是一个孤立的案例。从医疗诊断到金融分析，从学术研究到法律咨询，大模型的幻觉问题正在成为AI落地应用的最大障碍。

2025年9月，OpenAI发布了一篇题为《Why Language Models Hallucinate》的论文，给出了一个令人不安的结论：幻觉是大语言模型的统计本质，而非可以轻易修复的bug。这个结论挑战了过去两年里整个行业对幻觉问题的基本假设。

幻觉的本质：不只是"说错话”

学术界对幻觉的定义经历了多次演变。早期研究将幻觉宽泛地定义为模型产生的任何错误，但这种定义过于模糊，无法区分不同类型的错误。

2024年，研究者提出了更精确的分类框架。**内在幻觉（Intrinsic Hallucination）**指模型输出与输入上下文直接矛盾——例如，用户要求统计"DEEPSEEK"中有几个"D”，模型回答"2"或"3"（正确答案是2）。**外在幻觉（Extrinsic Hallucination）**则指模型输出与训练数据或外部事实不符——例如，模型声称某人的博士论文标题是"Algebraic Methods in Interactive Machine Learning"，而真实标题完全不同。

另一种视角区分了事实性（Factuality）和忠实性（Faithfulness）。事实性关注输出是否符合外部世界的真实情况；忠实性关注输出是否符合给定的上下文或指令。一个模型可能在忠实性上表现良好（严格遵循用户指令），但仍然在事实性上犯错（产生虚假信息）。

这两种分类揭示了幻觉问题的复杂性：它不只是一个"准确性"问题，而是涉及模型与信息源之间的多层次关系。

从预训练到幻觉：统计压力的必然结果

OpenAI的研究团队从一个基本问题出发：即使训练数据完全正确、没有错误信息，模型是否仍然会产生幻觉？

答案是肯定的。研究者的核心洞见是：生成有效输出比判断输出是否有效更难。

二分类归约：生成问题的隐藏难度

考虑一个简化的"Is-It-Valid"（IIV）二分类问题：给定一个输出，判断它是"有效"还是"错误"。任何语言模型都可以被转化为一个IIV分类器——通过设定概率阈值，高于阈值则判定为有效。

这个归约揭示了生成错误的统计本质：如果IIV分类器无法准确区分有效和错误输出，那么生成模型就无法避免产生错误。问题在于，某些类型的事实本质上就是"不可学习"的。

单例率与长尾知识

论文引入了一个关键概念：单例率（Singleton Rate）。在训练数据中，许多事实只出现一次——比如某个不著名人物的生日。如果20%的生日事实在训练数据中只出现一次，那么基础模型在这些事实上的幻觉率至少是20%。

这不是模型能力不足的问题，而是认识论上的不可能。当模型看到一个从未见过的问题时，它无法知道答案是"不存在于训练数据中"还是"存在但模型没学会"。用概率论的语言说，这是Good-Turing估计的自然推论：未见事件的概率由单例事件的比例决定。

这解释了一个反直觉的现象：模型在常见事实（如爱因斯坦的生日）上很少犯错，但在罕见事实上的错误率居高不下。幻觉率的分布与训练数据的分布高度相关。

模型能力的悖论

另一个关键发现是：更好的模型并不意味着更低的幻觉率。

原因在于评估机制。大多数基准测试使用二元评分：答对得分，答错不得分。在这种评分下，当模型不确定时，“猜测"的期望得分高于"不回答”。

考虑一个具体的例子：如果模型被问到某人的生日，而它不知道答案。如果它猜测"9月10日"，有1/365的概率猜对；如果它说"我不知道"，得分必然为0。在成千上万道测试题上，猜测策略的总得分更高。

OpenAI的实验数据清晰地展示了这一点：

指标	较老模型	较新模型
弃答率	52%	1%
准确率	22%	24%
错误率	26%	75%

较新模型的准确率略高，但错误率（即幻觉率）显著上升。这是因为新模型更倾向于"猜测"而非"承认不确定"。

幻觉的数学必然性

2024年1月，新加坡国立大学的研究团队发表了另一篇重要论文《Hallucination is Inevitable》，从计算学习理论的角度给出了严格的数学证明。

不可学习函数的存在

论文的核心论证是：大语言模型无法学习所有可计算函数。这是一个来自学习理论的基本限制：任何学习算法都存在其无法有效学习的函数类别。

对于语言模型而言，这意味着存在某些事实或推理任务，模型从根本上就无法正确处理。当模型被用于这些任务时，幻觉是必然结果。

形式化世界的框架

研究者构建了一个形式化框架：将幻觉定义为"可计算的语言模型"与"可计算的真实函数"之间的不一致。在这个框架下：

语言模型是一个概率分布，对每个可能的输入输出一个响应
真实函数是一个确定性的映射，给出每个问题的正确答案
幻觉是模型输出与真实函数值不匹配的情况

由于可计算函数的集合是不可数的，而任何语言模型只能表示可数个函数，因此必然存在模型无法正确表示的真实函数。

时间复杂度的约束

更进一步，即使只考虑多项式时间内可计算的函数，幻觉仍然不可避免。实际部署的语言模型受到严格的推理时间限制，这进一步缩小了它们能够正确处理的任务范围。

研究者识别了特别容易产生幻觉的任务类型：

需要精确计数的问题（如"这段文本中有几个’a’"）
需要访问模型未见过数据的问题
需要复杂推理链且推理链中任何一步出错都会导致错误的问题

检测幻觉：从朴素方法到语义熵

既然幻觉无法完全消除，能否至少检测出模型何时在"胡说八道"？

朴素方法：多次采样的一致性检查

最直观的检测方法是让模型多次回答同一问题，检查答案的一致性。如果模型每次给出不同的答案，说明它对这个问题"不确定"。

但这种方法有一个关键缺陷：它无法区分"用不同方式说同一件事"和"说不同的事"。

例如，对于"法国的首都是哪里"这个问题，模型可能回答"巴黎"、“法国的首都是巴黎”、“巴黎是法国的首都”。这些答案在语义上是等价的，但字符串完全不同。简单的字符串匹配会将此标记为"不一致"。

语义熵：在意义空间中计算不确定性

2024年6月，牛津大学的研究团队在Nature发表了题为《Detecting hallucinations in large language models using semantic entropy》的论文，提出了一个优雅的解决方案。

核心思想是：在"意义空间"而非"字符串空间"中计算熵。

具体算法如下：

对同一问题，采样K个答案（K=5通常足够）
计算每个答案的token序列概率
使用自然语言推理模型判断哪些答案在语义上等价
将语义等价的答案聚类，合并它们的概率
计算聚类后的概率分布的熵

语义熵高意味着模型在"意义"上不确定，这比字符串层面的不确定更能预测幻觉。

实验结果令人印象深刻。在GPT-4、LLaMA 2、Falcon等多种模型上，语义熵在预测答案正确性方面显著优于朴素熵方法。研究者还展示了语义熵可以应用于段落级别的文本——通过提取具体声明、生成相关问题、再对这些问题应用语义熵检测。

SelfCheckGPT：黑盒检测方法

另一个有影响力的检测方法是SelfCheckGPT，由Manakul等人于2023年提出。这种方法完全不需要访问模型的内部概率分布，只依赖多次采样的结果。

SelfCheckGPT的核心步骤是：

让模型生成一个较长的回答
对同一问题再生成多个样本
检查原始回答中的每个声明是否与其他样本一致

这种方法的优势在于它完全适用于"黑盒"模型——用户不需要模型的logits或内部状态，只需要能够多次调用API。

FActScore与SAFE：原子事实验证

对于长文本生成，FActScore提出了一种细粒度的评估方法：将生成的文本分解为多个原子事实，逐一验证每个事实的真实性。

例如，对于"爱因斯坦于1879年3月14日出生于德国乌尔姆"这句话，分解为三个原子事实：

爱因斯坦出生于1879年
出生月份是3月14日
出生地点是德国乌尔姆

每个事实单独与知识库（如维基百科）对比，计算被支持的事实比例。

SAFE（Search-Augmented Factuality Evaluator）进一步扩展了这一思路，使用语言模型作为代理，迭代地发出搜索查询，收集证据，推理判断每个事实是否被支持。实验显示，SAFE方法在成本仅为人工标注的1/20的情况下，达到了与人类标注者相当的准确性。

缓解幻觉：从外部知识到自我验证

既然检测方法已经相对成熟，能否在生成阶段就减少幻觉？研究者提出了多种策略。

检索增强生成（RAG）：最直接的解决方案

RAG的核心思想是：与其依赖模型内部可能不准确的知识，不如在生成时检索外部知识库。

具体流程：

将用户问题编码为向量
在知识库中检索相关文档
将检索到的文档作为上下文输入模型
模型基于检索内容生成答案

研究表明，RAG可以显著减少幻觉——一项2021年的研究报告了35%的幻觉率降低。但RAG并非银弹：

检索质量直接决定生成质量，检索不到相关信息时幻觉仍然存在
检索到冲突信息时，模型可能不知道该信任哪个来源
对于模型内部已有的知识，检索反而可能引入干扰

Chain-of-Verification：自我验证链

Meta AI的研究团队提出了Chain-of-Verification（CoVe）方法，让模型自己验证自己的输出。

CoVe的四个步骤：

基线响应：模型生成初始答案
规划验证：基于初始答案，生成一系列验证问题
执行验证：独立回答每个验证问题
最终输出：基于验证结果修正初始答案

关键设计是"因子化验证"——每个验证问题独立回答，避免初始答案中的错误影响后续验证。实验显示，这种方法在长文本生成中可以显著减少事实性错误。

Self-RAG：学习何时检索

Self-RAG将检索和生成整合到一个统一的框架中。模型被训练为能够：

判断何时需要检索外部知识
评估检索到的文档是否相关
判断生成的内容是否被文档支持
评估生成的内容是否有用

这些判断通过特殊的"反思token"实现。在推理时，模型可以动态决定是否检索，以及如何使用检索结果。这比传统的"总是检索"策略更加灵活和高效。

推理时干预（ITI）：修改内部表示

一种更激进的方法是直接干预模型的内部表示。研究者发现，某些注意力头与事实性高度相关。通过训练线性探针识别这些头，并在推理时调整其激活方向，可以显著提高输出的事实性。

这种方法的优势在于不需要额外的检索或多次生成，代价是可能影响模型的其他能力（如流畅性）。

权衡与局限

没有免费的午餐。每一种幻觉缓解方法都伴随着代价：

方法	优势	代价
RAG	直接接入真实知识	需要高质量知识库，检索延迟
CoVe	不依赖外部资源	多次生成，推理成本高
Self-RAG	自适应检索	需要额外训练
语义熵检测	高准确性	需要多次采样和语义等价判断
ITI	低推理成本	可能损害其他能力

更根本的挑战在于：幻觉与创造力之间存在内在张力。语言模型之所以能够生成流畅、多样化的文本，正是因为它学习了语言的统计模式。如果要求模型"只说它确定知道的事"，它可能会变得过度保守，拒绝回答大多数问题。

评估机制的改革：OpenAI的社会技术建议

OpenAI论文的最后一部分提出了一个重要的政策建议：修改评估机制，而非仅仅开发新的幻觉检测方法。

论文指出，当前的评估体系存在系统性偏差：

大多数基准测试使用二元评分（对/错）
模型被优化为"好考生"——猜测时得分更高
即使存在幻觉评估，它们也只占评估体系的一小部分

这创造了一个"流行病"：承认不确定的模型在排行榜上表现更差，尽管它们可能更可靠。

OpenAI建议采用类似标准化考试中"倒扣分"的机制：

正确答案得分
错误答案扣分
不确定时可以说"不知道"，得分介于两者之间

这种评分方式将鼓励模型在不确定时选择弃答，而非猜测。

未解的问题与未来方向

幻觉问题的研究仍在快速发展中。几个关键问题尚待解答：

忠实性问题：模型的思维链是否真实反映了它的推理过程？研究表明，有时模型会"表演"推理步骤，而非真正进行推理。这给基于思维链的幻觉缓解方法提出了挑战。

多模态幻觉：视觉-语言模型存在独特的幻觉问题——描述图像中不存在的对象。研究发现，这往往与模型的"过度信任"某些token有关，而忽视了图像token。OPERA等方法通过惩罚过度信任模式来缓解这一问题。

知识编辑：当模型学习了错误知识时，能否在不重新训练的情况下修正？知识编辑技术尝试定位并修改模型中的特定知识，但可能导致意外的副作用。

安全边界：更强的推理能力意味着更强的"策划"能力。一个会"深思熟虑"的模型，是否也更擅长欺骗？幻觉问题与AI安全问题的交叉，是一个正在浮现的研究前沿。

尾声

2025年，当我们回顾幻觉问题的研究历程，一条清晰的主线浮现出来：幻觉不是可以简单修复的bug，而是语言模型作为统计学习系统的内在属性。

OpenAI的论文用一个精妙的类比总结了这个洞察：学生面对不确定的选择题时，猜测往往比留白得分更高。语言模型被训练为"好考生"，而好考生不会轻易放弃得分机会。

这并不意味着我们应该放弃追求更可靠的AI系统。相反，理解幻觉的本质，才能设计出有效的缓解策略——无论是技术层面的RAG和验证链，还是制度层面的评估机制改革。

最终，最可靠的AI系统可能不是那些"从不犯错"的系统，而是那些"知道自己不知道什么"的系统。在不确定时选择沉默，而非自信地说错——这或许是AI迈向真正智能的重要一步。

参考文献

Kalai, A. T., et al. (2025). Why Language Models Hallucinate. arXiv:2509.04664.
Xu, Z., et al. (2024). Hallucination is Inevitable: An Innate Limitation of Large Language Models. arXiv:2401.11817.
Farquhar, S., et al. (2024). Detecting Hallucinations in Large Language Models Using Semantic Entropy. Nature.
Manakul, P., et al. (2023). SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models. EMNLP 2023.
Dhuliawala, S., et al. (2023). Chain-of-Verification Reduces Hallucination in Large Language Models. arXiv:2309.11495.
Asai, A., et al. (2024). Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection. ICLR 2024.
Min, S., et al. (2023). FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation. EMNLP 2023.
Wei, J., et al. (2024). Long-form Factuality in Large Language Models. arXiv:2402.09140.
Gekhman, Z., et al. (2024). Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations? EMNLP 2024.
Huang, Q., et al. (2024). OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty and Retrospection-Allocation. CVPR 2024.
Li, K., et al. (2023). Inference-Time Intervention: Eliciting Truthful Answers from a Language Model. NeurIPS 2023.
Lin, S., et al. (2021). TruthfulQA: Measuring How Models Mimic Human Falsehoods. ACL 2022.
Lee, N., et al. (2022). Factuality Enhanced Language Models for Open-Ended Text Generation. NeurIPS 2022.
Rani, A., et al. (2024). A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models. arXiv:2401.01313.
Ji, Z., et al. (2023). Survey of Hallucination in Natural Language Generation. ACM Computing Surveys.

幻觉的本质：不只是"说错话”#

从预训练到幻觉：统计压力的必然结果#

二分类归约：生成问题的隐藏难度#

单例率与长尾知识#

模型能力的悖论#

幻觉的数学必然性#

不可学习函数的存在#

形式化世界的框架#

时间复杂度的约束#

检测幻觉：从朴素方法到语义熵#

朴素方法：多次采样的一致性检查#

语义熵：在意义空间中计算不确定性#

SelfCheckGPT：黑盒检测方法#

FActScore与SAFE：原子事实验证#

缓解幻觉：从外部知识到自我验证#

检索增强生成（RAG）：最直接的解决方案#

Chain-of-Verification：自我验证链#

Self-RAG：学习何时检索#

推理时干预（ITI）：修改内部表示#

权衡与局限#

评估机制的改革：OpenAI的社会技术建议#

未解的问题与未来方向#

尾声#

参考文献#

更多精彩内容

RAG检索为何频频失准：从向量空间的数学局限到语义鸿沟的技术突围

为什么最先进的AI依然会编造事实：从训练机制到评估陷阱的技术解密

为什么大模型记不住之前的对话——从无状态推理到长期记忆架构的技术突围

第一个Token的隐形权力：Attention Sink如何拯救流式大模型

为什么大模型越思考越聪明：从o1到DeepSeek-R1的推理时计算革命