2023年5月,纽约联邦法院审理一起看似普通的航空伤害赔偿案。原告Roberto Mata的代理律师提交了一份详尽的法律简报,引用了Zicherman v. Korean Air Lines Co.、Varghese v. China Southern Airlines Co.等多个先例。问题在于——这些案例在现实中根本不存在。
这并非律师疏忽,而是ChatGPT的"杰作"。当法官要求提供这些案例的原文时,律师Steven Schwartz才惊恐地发现,整个法律数据库中找不到任何一篇他引用的判决。这起Mata v. Avianca案最终以律师被罚款5000美元告终,却揭示了一个更深层的问题:为什么看起来如此"智能"的AI,会如此自信地编造事实?
一个被误解的概念
“幻觉”(Hallucination)这个词本身就带有误导性。它借用了心理学中感知错误的术语,暗示AI在"看到不存在的东西"。但技术现实远比这个比喻复杂。
在自然语言处理的语境下,幻觉指的是模型生成流畅、语法正确但事实不准确或无法被外部证据支持的内容。这个定义本身就包含一个关键洞见:幻觉输出的文本质量往往不亚于真实信息。正是这种"以假乱真"的能力,使得幻觉成为一个棘手的问题。
学术界将幻觉分为两大类型:
内在幻觉(Intrinsic Hallucination):输出内容与已知事实直接矛盾。例如,当被问及《傲慢与偏见》的作者时,模型回答"查尔斯·狄更斯"。
外在幻觉(Extrinsic Hallucination):输出内容包含了源文本中不存在的信息。例如,正确回答"简·奥斯汀"的同时,额外补充"她于1797年完成手稿"——这句话可能是真的,也可能是编造的,但无论如何都无法从原始输入中验证。
2023年,研究者进一步将幻觉细分为"事实性幻觉"(Factuality Hallucination)和"忠实性幻觉"(Faithfulness Hallucination)。前者涉及与现实世界的偏差,后者涉及与输入上下文或用户指令的偏离。一个要求"用一句话概括"却被回复整段的模型,即便内容正确,也构成了忠实性幻觉。
OpenAI的突破性发现:系统鼓励"猜题"
2025年9月,OpenAI发布了一篇题为《Why Language Models Hallucinate》的论文,首次从统计学角度系统阐述了幻觉的根本成因。核心论点令人深思:幻觉之所以难以消除,是因为当前的训练和评估机制实际上在奖励"猜测"而非"承认不确定性"。
考虑一个简单的类比:多项选择题考试。如果你不知道答案却随机猜测,仍有25%的概率选对。而留空不作答,得分必然为零。从期望值的角度看,猜测是"理性"的选择。
大语言模型面临的正是同样的激励机制。当模型被问及某个它不确定的事实时,如果猜测一个答案,存在一定的概率"碰巧正确";如果回答"我不知道",在以准确率为唯一指标的评估体系中,注定得零分。
OpenAI的研究者提供了一个具体数据对比:
| 行为模式 | 放弃率 | 准确率 | 错误率 |
|---|---|---|---|
| 保守策略 | 52% | 22% | 26% |
| 激进猜测 | 1% | 24% | 75% |
激进猜测的模型在准确率指标上略胜一筹(24% vs 22%),但错误率却高达75%。这意味着,当排行榜只看准确率时,“爱猜"的模型反而排名更高——一个典型的古德哈特定律案例。
更深层的问题在于预训练阶段的本质。语言模型并非在学习"事实”,而是在学习"语言的概率分布"。对于拼写、语法这类有明确规律的模式,模型可以做到近乎完美;但对于"某人的生日"这种本质上随机分布的事实,模型根本没有可靠的预测基础。
MIT的研究团队在2024年发现了一个有趣的机制:大型语言模型在检索存储的知识时,往往使用简单的线性函数。例如,“某人的出生地"和"某人演奏的乐器"会激活不同的线性解码函数。研究者成功识别了47种关系的线性函数,准确率超过60%。但关键的是,并非所有知识都以这种方式存储——对于那些模型知道却无法用线性函数解码的事实,其存储机制远比我们想象的复杂。
幻觉率的真实数据
2026年2月,Vectara发布了最新的大语言模型幻觉排行榜,对超过7700篇文章进行摘要测试,结果耐人寻味:
表现最佳的模型幻觉率仅为1.8%,而表现最差的模型高达24.2%。更值得注意的是,付费模型并不总是比免费版本表现更好——OpenAI的o3-pro模型幻觉率达到23.3%,远高于许多开源模型。
另一项由Columbia Journalism Review在2025年进行的研究采用了不同的测试方法:向模型提供新闻摘录,要求识别原始文章来源。结果显示:
| 模型 | 幻觉率 |
|---|---|
| Perplexity | 37% |
| ChatGPT Search | 67% |
| Gemini | 76% |
| Grok-3 Search | 94% |
这些数字揭示了一个关键事实:幻觉率高度依赖于任务类型。在摘要任务中表现优异的模型,在事实检索场景可能完全失效。
知识是如何存储的?
要理解幻觉,必须首先理解模型如何"记住"知识。
传统数据库以结构化方式存储事实:一张表格记录"实体-属性-值"的三元组。但神经网络没有这种奢侈——所有信息都被压缩进数十亿个权重参数中。
MIT的研究发现,部分知识以一种出人意料的方式组织:模型学习到了一组线性变换函数,可以从实体的向量表示中"解码"出特定属性。例如,给定"Miles Davis"的向量表示,模型可以通过一个线性函数解码出"trumpet”(他演奏的乐器),通过另一个线性函数解码出"Illinois"(他出生的州)。
这种机制看似优雅,却存在先天缺陷。首先,并非所有关系都能用线性函数表达;其次,解码过程是概率性的,而非确定性的检索;第三,模型对罕见实体的表示往往不够准确,导致解码错误。
更根本的问题在于长尾知识困境。研究发现,LLM对训练数据中频繁出现的概念表现优异,但对于罕见实体——例如某个小众研究者或冷门事件——幻觉率急剧上升。这不是bug,而是数据分布不均的必然结果。
温度参数:创造力与准确性的博弈
在工程实践中,控制幻觉最直接的手段之一是调整温度参数(Temperature)。这个超参数控制模型输出的随机性:
- 温度=0:模型总是选择概率最高的token,输出最"确定"
- 温度=1:按原始概率分布采样,引入适度随机性
- 温度>1:拉平概率分布,低概率选项获得更多机会
直觉上,降低温度应该能减少幻觉——让模型更"保守"。但2025年的研究发现,事实并非如此简单。
研究显示,温度对幻觉的影响与任务类型密切相关。对于摘要等需要忠实于输入的任务,低温度确实有助于减少"添加不存在信息"的外在幻觉。但对于创意写作任务,过低的温度会导致模型过度依赖训练数据中的高频模式,反而可能产生另一种形式的"幻觉"——千篇一律的陈词滥调。
这揭示了一个更深层的权衡:幻觉与创造力是同一枚硬币的两面。一个永远"安全"的模型,也是一个永远平庸的模型。如何在特定应用场景中找到最佳平衡点,成为工程实践的核心挑战。
解决方案的演进
RAG:用检索替代记忆
检索增强生成(Retrieval-Augmented Generation)是目前最主流的幻觉缓解方案。核心思路很简单:不依赖模型的"记忆",而是在生成回答前先检索相关文档,将答案锚定在检索到的证据上。
RARR框架进一步发展了这个思路。它不仅检索相关文档,还会主动检查生成内容是否与证据一致,不一致则进行编辑修正。实验表明,这种方法可以显著提高生成内容的可归因性。
但RAG并非万能药。首先,检索质量直接决定最终答案质量——垃圾进,垃圾出。其次,对于无法检索到相关信息的问题,模型仍可能编造答案。第三,多轮对话中的复杂推理任务,单纯依赖检索难以解决。
Chain-of-Verification:让模型自我检查
Meta AI在2023年提出了Chain-of-Verification(CoVe)方法,让模型扮演自己的审稿人。流程分为四个步骤:
- 初始回答:模型生成一个草稿答案
- 规划验证问题:基于草稿生成一系列验证性问题
- 执行验证:独立回答每个验证问题
- 最终输出:综合验证结果,修正并输出最终答案
关键在于"独立性"——验证问题必须脱离原答案的上下文单独回答,避免模型简单地重复自己的错误。实验表明,这种方法可以减少约30%的事实性幻觉,但代价是推理时间的显著增加。
Self-RAG:检索的自我反思
Self-RAG将自我反思机制融入检索过程。模型在生成每个片段时都会输出特殊的"反思token":
- Retrieve token:判断是否需要检索外部信息
- IsRel token:判断检索到的文档是否相关
- IsSup token:判断生成内容是否被文档支持
- IsUse token:判断生成内容对用户是否有用
这些判断使得模型可以在需要时主动检索,在检索结果不相关时拒绝使用,在内容无证据支持时放弃输出——模拟了人类专家面对不确定问题时的谨慎态度。
实践中的权衡
对于实际应用,没有放之四海而皆准的解决方案。关键在于理解不同方案的适用场景:
| 方案 | 适用场景 | 主要代价 |
|---|---|---|
| 低温度解码 | 需要稳定输出的任务 | 牺牲多样性和创造力 |
| RAG | 可检索的知识密集型任务 | 检索延迟、检索质量依赖 |
| CoVe | 对准确性要求极高的场景 | 推理时间翻倍 |
| Self-RAG | 需要动态决策的复杂任务 | 实现复杂度较高 |
更根本的变革需要在评估层面发生。OpenAI的研究者呼吁,改变现有的评估计分方式:对错误答案的惩罚应超过对"不知道"的惩罚,对恰当表达不确定性的行为给予部分积分。只有这样,才能真正激励模型"诚实面对无知"。
回到起点
Mata v. Avianca案只是一个开端。截至2026年,已有超过120个法庭案件被记录涉及AI编造的法律引用。这些案例都在提醒我们一个简单的道理:AI的流畅输出不等于可靠输出。
从技术角度看,幻觉不是一种"故障",而是概率生成模型的固有特性。正如研究指出的,幻觉与创造力共享同一套机制——我们无法在不牺牲模型创新能力的前提下完全消除幻觉。
但这并不意味着我们无能为力。通过理解幻觉的成因机制,我们可以在应用层面做出更明智的权衡:在需要高准确性的场景优先选择RAG和验证机制;在创意场景接受适度的"不确定性";在所有场景都建立事实核查的流程。
最终,最关键的认知转变或许在于:我们不应该期待AI成为一个"知道一切"的专家,而应该将其视为一个"有时知道、有时不知道、但需要我们帮助判断"的助手。这种认知,或许比任何技术方案都更能有效地管理幻觉风险。
参考文献
- Kalai, A., et al. (2025). Why Language Models Hallucinate. OpenAI Research Paper.
- Hernandez, E., et al. (2024). Linear Decoding of Stored Facts in Large Language Models. MIT CSAIL.
- Kwon, W., et al. (2023). Chain-of-Verification Reduces Hallucination in Large Language Models. Meta AI Research.
- Asai, A., et al. (2024). Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection. University of Washington.
- Vectara. (2026). Hallucination Leaderboard. GitHub Repository.
- Columbia Journalism Review. (2025). AI Hallucination Rates by Model.
- Gekhman, Z., et al. (2024). Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations? ACL 2024.
- Lee, N., et al. (2022). FactualityPrompt: A Benchmark for Measuring Factual Consistency in Language Models.
- Min, S., et al. (2023). FActScore: Fine-grained Atomic Evaluation of Factual Precision.
- Ji, Z., et al. (2023). Survey of Hallucination in Natural Language Generation. ACM Computing Surveys.