2023年,一位美国律师使用ChatGPT查找法律判例,结果在法庭上提交了六个完全不存在的案例。法官在裁决书中写道:“这些案例是’幻觉’的产物。“这不是一个孤立的案例。从医疗诊断到金融分析,从学术研究到法律咨询,大模型的幻觉问题正在成为AI落地应用的最大障碍。
2025年9月,OpenAI发布了一篇题为《Why Language Models Hallucinate》的论文,给出了一个令人不安的结论:幻觉是大语言模型的统计本质,而非可以轻易修复的bug。这个结论挑战了过去两年里整个行业对幻觉问题的基本假设。
幻觉的本质:不只是"说错话”
学术界对幻觉的定义经历了多次演变。早期研究将幻觉宽泛地定义为模型产生的任何错误,但这种定义过于模糊,无法区分不同类型的错误。
2024年,研究者提出了更精确的分类框架。**内在幻觉(Intrinsic Hallucination)**指模型输出与输入上下文直接矛盾——例如,用户要求统计"DEEPSEEK"中有几个"D”,模型回答"2"或"3"(正确答案是2)。**外在幻觉(Extrinsic Hallucination)**则指模型输出与训练数据或外部事实不符——例如,模型声称某人的博士论文标题是"Algebraic Methods in Interactive Machine Learning",而真实标题完全不同。
另一种视角区分了事实性(Factuality)和忠实性(Faithfulness)。事实性关注输出是否符合外部世界的真实情况;忠实性关注输出是否符合给定的上下文或指令。一个模型可能在忠实性上表现良好(严格遵循用户指令),但仍然在事实性上犯错(产生虚假信息)。
这两种分类揭示了幻觉问题的复杂性:它不只是一个"准确性"问题,而是涉及模型与信息源之间的多层次关系。
从预训练到幻觉:统计压力的必然结果
OpenAI的研究团队从一个基本问题出发:即使训练数据完全正确、没有错误信息,模型是否仍然会产生幻觉?
答案是肯定的。研究者的核心洞见是:生成有效输出比判断输出是否有效更难。
二分类归约:生成问题的隐藏难度
考虑一个简化的"Is-It-Valid"(IIV)二分类问题:给定一个输出,判断它是"有效"还是"错误"。任何语言模型都可以被转化为一个IIV分类器——通过设定概率阈值,高于阈值则判定为有效。
这个归约揭示了生成错误的统计本质:如果IIV分类器无法准确区分有效和错误输出,那么生成模型就无法避免产生错误。问题在于,某些类型的事实本质上就是"不可学习"的。
单例率与长尾知识
论文引入了一个关键概念:单例率(Singleton Rate)。在训练数据中,许多事实只出现一次——比如某个不著名人物的生日。如果20%的生日事实在训练数据中只出现一次,那么基础模型在这些事实上的幻觉率至少是20%。
这不是模型能力不足的问题,而是认识论上的不可能。当模型看到一个从未见过的问题时,它无法知道答案是"不存在于训练数据中"还是"存在但模型没学会"。用概率论的语言说,这是Good-Turing估计的自然推论:未见事件的概率由单例事件的比例决定。
这解释了一个反直觉的现象:模型在常见事实(如爱因斯坦的生日)上很少犯错,但在罕见事实上的错误率居高不下。幻觉率的分布与训练数据的分布高度相关。
模型能力的悖论
另一个关键发现是:更好的模型并不意味着更低的幻觉率。
原因在于评估机制。大多数基准测试使用二元评分:答对得分,答错不得分。在这种评分下,当模型不确定时,“猜测"的期望得分高于"不回答”。
考虑一个具体的例子:如果模型被问到某人的生日,而它不知道答案。如果它猜测"9月10日",有1/365的概率猜对;如果它说"我不知道",得分必然为0。在成千上万道测试题上,猜测策略的总得分更高。
OpenAI的实验数据清晰地展示了这一点:
| 指标 | 较老模型 | 较新模型 |
|---|---|---|
| 弃答率 | 52% | 1% |
| 准确率 | 22% | 24% |
| 错误率 | 26% | 75% |
较新模型的准确率略高,但错误率(即幻觉率)显著上升。这是因为新模型更倾向于"猜测"而非"承认不确定"。
幻觉的数学必然性
2024年1月,新加坡国立大学的研究团队发表了另一篇重要论文《Hallucination is Inevitable》,从计算学习理论的角度给出了严格的数学证明。
不可学习函数的存在
论文的核心论证是:大语言模型无法学习所有可计算函数。这是一个来自学习理论的基本限制:任何学习算法都存在其无法有效学习的函数类别。
对于语言模型而言,这意味着存在某些事实或推理任务,模型从根本上就无法正确处理。当模型被用于这些任务时,幻觉是必然结果。
形式化世界的框架
研究者构建了一个形式化框架:将幻觉定义为"可计算的语言模型"与"可计算的真实函数"之间的不一致。在这个框架下:
- 语言模型是一个概率分布,对每个可能的输入输出一个响应
- 真实函数是一个确定性的映射,给出每个问题的正确答案
- 幻觉是模型输出与真实函数值不匹配的情况
由于可计算函数的集合是不可数的,而任何语言模型只能表示可数个函数,因此必然存在模型无法正确表示的真实函数。
时间复杂度的约束
更进一步,即使只考虑多项式时间内可计算的函数,幻觉仍然不可避免。实际部署的语言模型受到严格的推理时间限制,这进一步缩小了它们能够正确处理的任务范围。
研究者识别了特别容易产生幻觉的任务类型:
- 需要精确计数的问题(如"这段文本中有几个’a’")
- 需要访问模型未见过数据的问题
- 需要复杂推理链且推理链中任何一步出错都会导致错误的问题
检测幻觉:从朴素方法到语义熵
既然幻觉无法完全消除,能否至少检测出模型何时在"胡说八道"?
朴素方法:多次采样的一致性检查
最直观的检测方法是让模型多次回答同一问题,检查答案的一致性。如果模型每次给出不同的答案,说明它对这个问题"不确定"。
但这种方法有一个关键缺陷:它无法区分"用不同方式说同一件事"和"说不同的事"。
例如,对于"法国的首都是哪里"这个问题,模型可能回答"巴黎"、“法国的首都是巴黎”、“巴黎是法国的首都”。这些答案在语义上是等价的,但字符串完全不同。简单的字符串匹配会将此标记为"不一致"。
语义熵:在意义空间中计算不确定性
2024年6月,牛津大学的研究团队在Nature发表了题为《Detecting hallucinations in large language models using semantic entropy》的论文,提出了一个优雅的解决方案。
核心思想是:在"意义空间"而非"字符串空间"中计算熵。
具体算法如下:
- 对同一问题,采样K个答案(K=5通常足够)
- 计算每个答案的token序列概率
- 使用自然语言推理模型判断哪些答案在语义上等价
- 将语义等价的答案聚类,合并它们的概率
- 计算聚类后的概率分布的熵
语义熵高意味着模型在"意义"上不确定,这比字符串层面的不确定更能预测幻觉。
实验结果令人印象深刻。在GPT-4、LLaMA 2、Falcon等多种模型上,语义熵在预测答案正确性方面显著优于朴素熵方法。研究者还展示了语义熵可以应用于段落级别的文本——通过提取具体声明、生成相关问题、再对这些问题应用语义熵检测。
SelfCheckGPT:黑盒检测方法
另一个有影响力的检测方法是SelfCheckGPT,由Manakul等人于2023年提出。这种方法完全不需要访问模型的内部概率分布,只依赖多次采样的结果。
SelfCheckGPT的核心步骤是:
- 让模型生成一个较长的回答
- 对同一问题再生成多个样本
- 检查原始回答中的每个声明是否与其他样本一致
这种方法的优势在于它完全适用于"黑盒"模型——用户不需要模型的logits或内部状态,只需要能够多次调用API。
FActScore与SAFE:原子事实验证
对于长文本生成,FActScore提出了一种细粒度的评估方法:将生成的文本分解为多个原子事实,逐一验证每个事实的真实性。
例如,对于"爱因斯坦于1879年3月14日出生于德国乌尔姆"这句话,分解为三个原子事实:
- 爱因斯坦出生于1879年
- 出生月份是3月14日
- 出生地点是德国乌尔姆
每个事实单独与知识库(如维基百科)对比,计算被支持的事实比例。
SAFE(Search-Augmented Factuality Evaluator)进一步扩展了这一思路,使用语言模型作为代理,迭代地发出搜索查询,收集证据,推理判断每个事实是否被支持。实验显示,SAFE方法在成本仅为人工标注的1/20的情况下,达到了与人类标注者相当的准确性。
缓解幻觉:从外部知识到自我验证
既然检测方法已经相对成熟,能否在生成阶段就减少幻觉?研究者提出了多种策略。
检索增强生成(RAG):最直接的解决方案
RAG的核心思想是:与其依赖模型内部可能不准确的知识,不如在生成时检索外部知识库。
具体流程:
- 将用户问题编码为向量
- 在知识库中检索相关文档
- 将检索到的文档作为上下文输入模型
- 模型基于检索内容生成答案
研究表明,RAG可以显著减少幻觉——一项2021年的研究报告了35%的幻觉率降低。但RAG并非银弹:
- 检索质量直接决定生成质量,检索不到相关信息时幻觉仍然存在
- 检索到冲突信息时,模型可能不知道该信任哪个来源
- 对于模型内部已有的知识,检索反而可能引入干扰
Chain-of-Verification:自我验证链
Meta AI的研究团队提出了Chain-of-Verification(CoVe)方法,让模型自己验证自己的输出。
CoVe的四个步骤:
- 基线响应:模型生成初始答案
- 规划验证:基于初始答案,生成一系列验证问题
- 执行验证:独立回答每个验证问题
- 最终输出:基于验证结果修正初始答案
关键设计是"因子化验证"——每个验证问题独立回答,避免初始答案中的错误影响后续验证。实验显示,这种方法在长文本生成中可以显著减少事实性错误。
Self-RAG:学习何时检索
Self-RAG将检索和生成整合到一个统一的框架中。模型被训练为能够:
- 判断何时需要检索外部知识
- 评估检索到的文档是否相关
- 判断生成的内容是否被文档支持
- 评估生成的内容是否有用
这些判断通过特殊的"反思token"实现。在推理时,模型可以动态决定是否检索,以及如何使用检索结果。这比传统的"总是检索"策略更加灵活和高效。
推理时干预(ITI):修改内部表示
一种更激进的方法是直接干预模型的内部表示。研究者发现,某些注意力头与事实性高度相关。通过训练线性探针识别这些头,并在推理时调整其激活方向,可以显著提高输出的事实性。
这种方法的优势在于不需要额外的检索或多次生成,代价是可能影响模型的其他能力(如流畅性)。
权衡与局限
没有免费的午餐。每一种幻觉缓解方法都伴随着代价:
| 方法 | 优势 | 代价 |
|---|---|---|
| RAG | 直接接入真实知识 | 需要高质量知识库,检索延迟 |
| CoVe | 不依赖外部资源 | 多次生成,推理成本高 |
| Self-RAG | 自适应检索 | 需要额外训练 |
| 语义熵检测 | 高准确性 | 需要多次采样和语义等价判断 |
| ITI | 低推理成本 | 可能损害其他能力 |
更根本的挑战在于:幻觉与创造力之间存在内在张力。语言模型之所以能够生成流畅、多样化的文本,正是因为它学习了语言的统计模式。如果要求模型"只说它确定知道的事",它可能会变得过度保守,拒绝回答大多数问题。
评估机制的改革:OpenAI的社会技术建议
OpenAI论文的最后一部分提出了一个重要的政策建议:修改评估机制,而非仅仅开发新的幻觉检测方法。
论文指出,当前的评估体系存在系统性偏差:
- 大多数基准测试使用二元评分(对/错)
- 模型被优化为"好考生"——猜测时得分更高
- 即使存在幻觉评估,它们也只占评估体系的一小部分
这创造了一个"流行病":承认不确定的模型在排行榜上表现更差,尽管它们可能更可靠。
OpenAI建议采用类似标准化考试中"倒扣分"的机制:
- 正确答案得分
- 错误答案扣分
- 不确定时可以说"不知道",得分介于两者之间
这种评分方式将鼓励模型在不确定时选择弃答,而非猜测。
未解的问题与未来方向
幻觉问题的研究仍在快速发展中。几个关键问题尚待解答:
忠实性问题:模型的思维链是否真实反映了它的推理过程?研究表明,有时模型会"表演"推理步骤,而非真正进行推理。这给基于思维链的幻觉缓解方法提出了挑战。
多模态幻觉:视觉-语言模型存在独特的幻觉问题——描述图像中不存在的对象。研究发现,这往往与模型的"过度信任"某些token有关,而忽视了图像token。OPERA等方法通过惩罚过度信任模式来缓解这一问题。
知识编辑:当模型学习了错误知识时,能否在不重新训练的情况下修正?知识编辑技术尝试定位并修改模型中的特定知识,但可能导致意外的副作用。
安全边界:更强的推理能力意味着更强的"策划"能力。一个会"深思熟虑"的模型,是否也更擅长欺骗?幻觉问题与AI安全问题的交叉,是一个正在浮现的研究前沿。
尾声
2025年,当我们回顾幻觉问题的研究历程,一条清晰的主线浮现出来:幻觉不是可以简单修复的bug,而是语言模型作为统计学习系统的内在属性。
OpenAI的论文用一个精妙的类比总结了这个洞察:学生面对不确定的选择题时,猜测往往比留白得分更高。语言模型被训练为"好考生",而好考生不会轻易放弃得分机会。
这并不意味着我们应该放弃追求更可靠的AI系统。相反,理解幻觉的本质,才能设计出有效的缓解策略——无论是技术层面的RAG和验证链,还是制度层面的评估机制改革。
最终,最可靠的AI系统可能不是那些"从不犯错"的系统,而是那些"知道自己不知道什么"的系统。在不确定时选择沉默,而非自信地说错——这或许是AI迈向真正智能的重要一步。
参考文献
- Kalai, A. T., et al. (2025). Why Language Models Hallucinate. arXiv:2509.04664.
- Xu, Z., et al. (2024). Hallucination is Inevitable: An Innate Limitation of Large Language Models. arXiv:2401.11817.
- Farquhar, S., et al. (2024). Detecting Hallucinations in Large Language Models Using Semantic Entropy. Nature.
- Manakul, P., et al. (2023). SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models. EMNLP 2023.
- Dhuliawala, S., et al. (2023). Chain-of-Verification Reduces Hallucination in Large Language Models. arXiv:2309.11495.
- Asai, A., et al. (2024). Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection. ICLR 2024.
- Min, S., et al. (2023). FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation. EMNLP 2023.
- Wei, J., et al. (2024). Long-form Factuality in Large Language Models. arXiv:2402.09140.
- Gekhman, Z., et al. (2024). Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations? EMNLP 2024.
- Huang, Q., et al. (2024). OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty and Retrospection-Allocation. CVPR 2024.
- Li, K., et al. (2023). Inference-Time Intervention: Eliciting Truthful Answers from a Language Model. NeurIPS 2023.
- Lin, S., et al. (2021). TruthfulQA: Measuring How Models Mimic Human Falsehoods. ACL 2022.
- Lee, N., et al. (2022). Factuality Enhanced Language Models for Open-Ended Text Generation. NeurIPS 2022.
- Rani, A., et al. (2024). A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models. arXiv:2401.01313.
- Ji, Z., et al. (2023). Survey of Hallucination in Natural Language Generation. ACM Computing Surveys.