引言:当AI说出"我有80%把握"时,它真的知道自己在说什么吗?
2017年,斯坦福大学的研究生Chuan Guo发表了一篇论文,揭示了一个令人不安的现象:现代深度神经网络在预测准确率上远超早期模型,但它们对自己预测的置信度估计却变得更不可靠。一个可能达到99%分类准确率的模型,当它声称有99%的置信度时,实际正确率可能只有80%。
研究者将这种现象命名为"过度自信(Overconfidence)"。
八年后的今天,当神经网络已经从图像分类器进化为能写诗、编程、看病的大语言模型,置信度校准问题不仅没有消失,反而变得更加关键、更加复杂、更加难以解决。当GPT-4告诉你它对某个诊断结果"非常确信"时,医生该不该相信?当Claude声称它对一段代码的正确性"有95%把握"时,开发者能放心部署吗?
第一章:什么是置信度校准?
1.1 一个简单的定义
想象你问一个大模型:“2024年诺贝尔物理学奖得主是谁?”
模型回答:“2024年诺贝尔物理学奖授予了John Hopfield和Geoffrey Hinton,以表彰他们在人工神经网络领域的基础性发现和发明。”
如果模型告诉你它对这个答案有80%的置信度,那么在理想情况下,如果你问了100个类似难度的问题,模型应该在80个问题上给出正确答案。
置信度校准(Confidence Calibration),就是模型输出的概率值与其真实准确率之间的匹配程度。
一个完美校准的模型满足:
$$P(\text{correct} | \text{confidence} = p) = p$$如果模型说它有70%的置信度,它就应该在70%的时候是对的。这听起来理所当然,但实际中的神经网络往往不是这样。
1.2 可靠性图:看见问题
**可靠性图(Reliability Diagram)**是可视化校准质量的标准工具。它将预测概率分成若干区间(如0-0.1, 0.1-0.2, …, 0.9-1.0),然后计算每个区间内样本的实际正确率。
graph LR
A[模型输出概率] --> B[分箱统计]
B --> C[计算各区间的实际准确率]
C --> D[绘制可靠性图]
D --> E{对角线?}
E -->|是| F[完美校准]
E -->|否| G[存在校准偏差]
对于一个完美校准的模型,可靠性图中的点应该落在对角线上。但Guo等人在2017年的研究发现,现代深度神经网络往往呈现出"过度自信"的模式——高置信度区域的实际准确率远低于预测置信度。
1.3 ECE:量化校准误差
为了量化校准质量,Guo等人提出了期望校准误差(Expected Calibration Error, ECE):
$$\text{ECE} = \sum_{m=1}^{M} \frac{|B_m|}{n} |acc(B_m) - conf(B_m)|$$其中,$B_m$表示第$m$个置信度区间,$n$是总样本数,$acc(B_m)$是该区间的实际准确率,$conf(B_m)$是该区间的平均预测置信度。
直观地说,ECE衡量的是可靠性图中各点到对角线的平均距离。ECE越小,校准越好。
除了ECE,还有最大校准误差(Maximum Calibration Error, MCE):
$$\text{MCE} = \max_{m} |acc(B_m) - conf(B_m)|$$MCE关注最坏情况,在某些高风险应用中更为重要。
1.4 一个反直觉的发现
Guo等人的论文揭示了一个令人惊讶的现象:随着模型准确率的提高,校准质量反而可能下降。
在ImageNet上,ResNet等现代架构达到了远超早期模型(如LeNet)的分类准确率,但它们的ECE却更高——也就是说,它们更"过度自信"。
研究者将这一现象归因于几个因素:
- 网络深度:更深的网络更容易过拟合训练数据,产生过度自信的预测
- 批量归一化:BatchNorm可能降低网络的校准质量
- 权重衰减:较少的正则化可能导致更尖锐的决策边界
第二章:大模型的校准困境
2.1 LLM的特殊性
当研究对象从图像分类器变为大语言模型时,置信度校准问题变得更加复杂。
首先,输出空间不同。图像分类通常只有几百到几千个类别,而大语言模型的词汇表可能有几万甚至十几万个token。这使得传统的分箱方法难以直接应用。
其次,任务多样性。图像分类是一个相对单一的任务,而大语言模型需要处理问答、翻译、摘要、编程等多种任务。不同任务可能需要不同的校准策略。
第三,序列生成。大语言模型的输出是一个token序列,每个位置都有一个概率分布。如何评估整个序列的置信度是一个开放问题。
2.2 三种置信度估计方法
针对大语言模型,研究者提出了三种主要的置信度估计方法:
方法一:Token级概率(Token-Level Probabilities)
最直接的方法是使用模型输出的token概率。对于一个生成的序列,可以计算各token概率的乘积或平均值:
$$P_{\text{sequence}} = \prod_{t=1}^{T} P(y_t | y_{方法二:采样一致性(Sampling Consistency)
让模型对同一问题生成多个回答,然后计算这些回答之间的一致性。如果模型每次都给出相似或相同的答案,可以认为它对这个答案更有信心。
flowchart TD
A[输入问题] --> B[采样生成N个回答]
B --> C{回答一致性分析}
C -->|高度一致| D[高置信度]
C -->|不一致| E[低置信度]
C -->|完全不同| F[极高不确定性]
这种方法的优势是不需要访问模型的内部概率,可以直接应用于黑盒API。但成本较高——每次置信度估计需要多次推理。
方法三:语言化置信(Verbalized Confidence)
直接让模型用自然语言表达其置信度。例如:
问题:地球到月球的平均距离是多少?
请给出答案,并说明你对这个答案的置信度(0-100%)。
模型回答:“地球到月球的平均距离约为384,400公里。我对此答案的置信度是95%。”
2024年的研究发现,经过适当训练的模型可以产生相当可靠的verbalized confidence。但这种方法也存在风险:模型可能学会"假装"有信心,而不是真正反映其不确定性。
2.3 过度自信:大模型的通病
2025年发表的一系列研究揭示了LLM过度自信问题的严重性。
Mind the Confidence Gap研究(2025年2月)发现,主流LLM在高难度问题上的过度自信尤为严重。当模型面对它"不该知道"的问题时,它仍然倾向于给出高置信度的错误答案。
LLMs are Overconfident研究(2025年10月)专门考察了LLM在数值估计任务中的置信度校准。研究发现,模型在给出数值区间时,真实值落在其声称的"90%置信区间"内的概率往往远低于90%。
更令人担忧的是,更大的模型不一定校准得更好。虽然更大的模型通常更准确,但它们可能更加过度自信。OpenAI的技术报告显示,GPT-4的基础模型校准相当不错,但经过RLHF对齐后,校准质量反而下降了。
2.4 RLHF的校准损害
这是一个意外的发现:RLHF(基于人类反馈的强化学习)可能损害模型的校准质量。
2023年的论文《On the Calibration of Large Language Models and Alignment》详细研究了这一现象。研究者发现:
- 基础模型往往校准得相当好。预训练阶段,模型学习到的是数据的真实分布,其输出的概率相对可靠。
- RLHF倾向于"放大"置信度。在对齐过程中,模型被训练给出"更有帮助"的回答。这种训练可能让模型学会更加自信地表达,即使它并不确定。
- 不同任务的影响不同。在事实性问答上,校准损害尤为明显;在创意写作上,影响较小。
flowchart LR
A[预训练模型] -->|相对良好的校准| B[RLHF对齐]
B --> C[指令遵循能力提升]
B --> D[校准质量可能下降]
D --> E[过度自信倾向增强]
研究者提出了几种缓解方法,包括在RLHF训练中引入校准损失、使用温度缩放进行后处理等。
第三章:校准方法的技术演进
3.1 后处理方法:简单但有效
后处理方法不需要重新训练模型,而是在模型输出后对其进行校准。
温度缩放(Temperature Scaling)
这是Guo等人提出的最简单也最有效的方法。核心思想是用一个标量$T$调整模型的logits:
$$\hat{p} = \text{softmax}(z / T)$$其中$z$是模型的原始输出(logits),$T > 1$会使概率分布更平滑(更不确定),$T < 1$会使分布更尖锐(更确定)。
温度参数$T$可以在验证集上优化,使得校准误差最小。研究表明,温度缩放在许多场景下效果出奇地好,尽管它只引入了一个额外的参数。
Platt Scaling
这是更早提出的校准方法,最初用于支持向量机。它使用一个逻辑回归模型来校准输出:
$$\hat{p} = \text{sigmoid}(a \cdot z + b)$$其中$a$和$b$是需要在验证集上学习的参数。与温度缩放相比,Platt Scaling引入了两个参数,可以同时调整斜率和偏移。
Isotonic回归
这是一种非参数方法,学习一个单调递增的函数来校准输出:
$$\hat{p} = f(z)$$其中$f$是单调递增的分段常数函数。Isotonic回归可以捕捉更复杂的校准关系,但需要更多的验证数据,且容易过拟合。
3.2 方法比较
2020年的研究《Mix-n-Match》系统比较了这些方法:
| 方法 | 参数量 | 数据需求 | 校准效果 |
|---|---|---|---|
| 温度缩放 | 1 | 低 | 数据有限时最优 |
| Platt Scaling | 2 | 中 | 中等 |
| Isotonic回归 | 非参数 | 高 | 数据充足时最优 |
对于大语言模型,温度缩放仍然是最常用的方法,因为它的参数效率高,不需要大量的校准数据。
3.3 训练时方法:从根本上解决问题
后处理方法虽然简单,但治标不治本。研究者也提出了在训练阶段改善校准的方法。
标签平滑(Label Smoothing)
Szegedy等人在Inception-v2中提出了标签平滑:将硬标签$(0, 1)$变为软标签$(\epsilon/(K-1), 1-\epsilon)$。这不仅作为正则化防止过拟合,也被发现能改善校准质量。
Focal Loss
Lin等人提出的Focal Loss通过降低简单样本的权重,让模型更关注困难样本:
$$\text{FL}(p_t) = -(1-p_t)^\gamma \log(p_t)$$其中$\gamma > 0$是调节参数。研究发现Focal Loss也能改善校准,因为它降低了模型对简单样本的过度自信。
置信度惩罚
直接在损失函数中加入对过度自信的惩罚:
$$\mathcal{L} = \mathcal{L}_{\text{CE}} + \lambda \cdot \text{KL}(\text{softmax}(z) \| \text{uniform})$$这鼓励模型在不确定时输出更均匀的分布。
3.4 LLM专用方法
针对大语言模型的特殊需求,研究者提出了一些专用方法。
ADVICE: Answer-Dependent Verbalized Confidence Estimation
2025年提出的方法,通过让模型在生成答案的同时输出置信度,并使用一个轻量级的校准模型来调整这个置信度。研究表明,这种方法可以达到与采样方法相当的效果,但成本大大降低。
Restoring Calibration for Aligned LLMs
针对RLHF损害校准的问题,研究者提出了在指令微调阶段同时优化校准的方法。核心思想是保留基础模型的校准特性,同时学习指令遵循能力。
基于图的校准(Graph-based Confidence Calibration)
利用多次采样生成的答案之间的关系,构建一个图结构,然后使用图神经网络来预测置信度。这种方法能够捕捉答案之间的语义关系,比简单的投票更精确。
第四章:实际应用中的校准
4.1 医疗AI:生死攸关的校准
在医疗诊断领域,置信度校准直接关系到患者安全。
2024年的一项研究评估了12个LLM在5个医疗专科上的置信度校准。结果显示:即使是表现最好的模型,其verbalized confidence与实际准确率之间也存在显著差距。
更令人担忧的是,模型在它"不该知道"的情况下仍然表现出高置信度。当一个模型面对超出其训练知识范围的问题时,理想情况是它应该说"我不确定"。但现实中,模型往往会给出一个高置信度的错误答案。
flowchart TD
A[医疗问题输入] --> B[LLM生成诊断]
B --> C{置信度评估}
C -->|高置信度 + 正确| D[接受建议]
C -->|高置信度 + 错误| E[潜在风险]
C -->|低置信度| F[人工审核]
E --> G[关键: 校准决定生死]
研究提出了几个在医疗AI中改善校准的建议:
- 保守的决策阈值:不要仅仅依赖模型的高置信度输出,应该设置更保守的阈值。
- 人工介入机制:当模型的置信度低于某个阈值时,应该引入人工审核。
- 定期校准审计:在部署后持续监控模型的校准质量,及时发现漂移。
4.2 幻觉检测:置信度的新用途
幻觉是大语言模型最棘手的问题之一。置信度校准为幻觉检测提供了一条新的路径。
直觉很简单:如果模型真的"知道"它在说什么,它的置信度应该是一致的;如果它在"编造",它的置信度应该更不稳定。
2024年Nature发表的论文《Detecting hallucinations in large language models using semantic entropy》提出了一种基于信息论的幻觉检测方法。核心思想是计算模型输出的语义熵——不是在token层面,而是在语义层面测量不确定性。
flowchart TD
A[输入问题] --> B[多次采样生成答案]
B --> C[语义聚类]
C --> D{语义熵分析}
D -->|低熵: 答案一致| E[可能非幻觉]
D -->|高熵: 答案分散| F[可能幻觉]
研究发现,语义熵与幻觉有很强的相关性。当模型在不同采样中给出语义上相似的答案时,它更可能是正确的;当答案语义差异大时,幻觉的风险更高。
4.3 “Knowing When Not to Know”
这可能是校准问题最核心的应用:让模型学会在不确定时说"我不确定"。
2025年的论文《LLMs Hallucinate with Certainty Despite Knowing the Answer》揭示了一个有趣的现象:模型有时会在它"知道"正确答案的情况下,仍然给出错误但高置信度的答案。
这说明问题不仅是模型"不知道自己不知道",而是模型的内部知识与输出之间存在某种"断层"。研究者提出了几种解决思路:
- 显式训练"拒绝回答"行为:在训练数据中加入模型拒绝回答超出知识范围问题的示例。
- 置信度触发机制:当内部置信度低于阈值时,自动触发"我不确定"的输出。
- 分离知识与表达:让模型的置信度估计与其表达方式解耦,避免"有信心的表达"对置信度估计的干扰。
4.4 LLM置信度评估方法对比
针对不同场景,三种置信度评估方法各有优劣:
flowchart TB
subgraph 方法一["Token级概率"]
A1[模型输出] --> A2[获取logits]
A2 --> A3[计算序列概率]
A3 --> A4[几何平均]
end
subgraph 方法二["采样一致性"]
B1[输入问题] --> B2[多次采样]
B2 --> B3[语义聚类]
B3 --> B4[一致性分数]
end
subgraph 方法三["语言化置信"]
C1[输入问题+置信度提示] --> C2[模型生成答案]
C2 --> C3[解析置信度表述]
C3 --> C4[校准调整]
end
方法一 --> D{综合评估}
方法二 --> D
方法三 --> D
D --> E[最终置信度]
在实际应用中,往往需要组合使用多种方法。例如,对于高价值决策,可以先使用Token级概率进行初步筛选,再对低置信度的回答进行采样一致性检验,最后综合判断。
第五章:未来展望
5.1 评估基准的完善
目前,LLM校准研究面临一个根本问题:缺乏统一的评估基准。不同研究使用不同的数据集、不同的评估指标、不同的任务类型,使得结果难以比较。
2024年提出的MedConf是朝这个方向迈出的一步。它专门针对医疗问答场景,提供了统一的评估框架。类似的标准基准需要在更多领域建立。
5.2 个性化校准
一个新兴的方向是个性化校准:不同的用户、不同的应用场景可能需要不同的校准策略。
例如,医疗诊断场景需要非常保守的校准(宁可说不知道,不要给错误答案);而创意写作场景可以更宽松。如何让同一个模型在不同场景下展现出不同的校准特性,是一个值得研究的问题。
5.3 校准与能力的平衡
这是最核心的权衡:我们能否同时拥有高能力和良好的校准?
目前看来,这两个目标有时是冲突的。RLHF提升了模型的有用性和指令遵循能力,但可能损害校准。如何在对齐过程中保留基础模型的校准特性,是一个重要的研究方向。
5.4 从校准到可解释性
校准研究最终指向一个更深层的问题:我们能否真正理解模型"知道"什么?
一个完美校准的模型不仅更可靠,也更透明——它的置信度是对其内部状态的诚实反映。从这个角度看,校准研究是通往模型可解释性的重要桥梁。
结语:诚实比聪明更重要
在AI发展的今天,我们越来越依赖模型的判断。医疗诊断、金融决策、法律咨询——这些高风险领域都在快速引入AI辅助。
在这样的背景下,置信度校准不是一个锦上添花的问题,而是一个关乎安全与信任的核心问题。
一个不校准的模型就像一个从不承认"我不知道"的专家——它可能大部分时候是对的,但当它错的时候,它会错得非常自信。在高风险场景中,这种错误可能是致命的。
2017年Guo等人的论文标题是"On Calibration of Modern Neural Networks"。八年过去了,我们的神经网络已经从图像分类器进化为通用智能体,但校准问题依然没有得到根本解决。
或许,教会AI说"我不确定",和教会AI正确回答问题,一样重要。因为在人类与AI的协作中,信任建立在诚实之上——而诚实,从知道自己的边界开始。
参考文献
经典论文与基础研究
-
Guo, C., Pleiss, G., Sun, Y., & Weinberger, K. Q. (2017). On Calibration of Modern Neural Networks. ICML 2017. arXiv:1706.04599.
-
Niculescu-Mizil, A., & Caruana, R. (2005). Predicting Good Probabilities With Supervised Learning. ICML 2005.
-
Platt, J. (1999). Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods. Advances in Large Margin Classifiers.
-
Zadrozny, B., & Elkan, C. (2001). Obtaining Calibrated Probability Estimates from Decision Trees and Naive Bayesian Classifiers. ICML 2001.
-
Zadrozny, B., & Elkan, C. (2002). Transforming Classifier Scores into Accurate Multiclass Probability Estimates. KDD 2002.
LLM校准研究
-
Xiao, Y., et al. (2024). Restoring Calibration for Aligned Large Language Models. ICML 2024.
-
Chen, L., et al. (2024). On the Calibration of Large Language Models and Alignment. Findings of EMNLP 2023.
-
Lin, S., et al. (2024). Generating with Confidence: Uncertainty Quantification for Black-box Large Language Models. arXiv:2305.19187.
-
Tian, K., et al. (2024). Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence Scores from Language Models Fine-Tuned with Human Feedback. EMNLP 2023.
-
Yang, D., et al. (2024). On Verbalized Confidence Scores for LLMs. arXiv:2412.14737.
-
Calibrating LLM Confidence with Semantic Steering: A Multi-Prompt Approach. arXiv:2503.02863.
过度自信与幻觉检测
-
Mind the Confidence Gap: Overconfidence, Calibration, and Task Performance in LLMs. arXiv:2502.11028.
-
LLMs are Overconfident: Evaluating Confidence Interval Calibration in LLMs. arXiv:2510.26995.
-
Farquhar, S., et al. (2024). Detecting Hallucinations in Large Language Models Using Semantic Entropy. Nature.
-
LLMs Hallucinate with Certainty Despite Knowing the Answer. Findings of EMNLP 2025.
-
Manakul, P., Liusie, A., & Gales, M. (2023). SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models. EMNLP 2023.
医疗AI校准
-
Gichoya, J. W., et al. (2024). Overconfident AI? Benchmarking LLM Self-Assessment in Clinical Scenarios. arXiv:2408.04278.
-
Confidence Calibration in Large Language Models for Uncertainty Quantification in Healthcare. AAAI Spring Symposium 2025.
-
Towards Reliable Medical LLMs: Benchmarking and Enhancing Confidence Calibration. arXiv:2601.15645.
校准方法
-
Guo, C., et al. (2017). Temperature Scaling. In On Calibration of Modern Neural Networks.
-
Zhang, J., et al. (2020). Mix-n-Match: Ensemble and Compositional Methods for Uncertainty Calibration in Deep Learning. ICML 2020.
-
Nixon, J., et al. (2019). Measuring Calibration in Deep Learning. CVPR Workshops 2019.
-
Kull, M., et al. (2019). Beyond Temperature Scaling: Obtaining Well-Calibrated Multi-Class Probabilities. NeurIPS 2019.
-
Kumar, A., Liang, P. S., & Ma, T. (2019). Verified Uncertainty Calibration. NeurIPS 2019.
训练时校准方法
-
Szegedy, C., et al. (2016). Rethinking the Inception Architecture for Computer Vision. CVPR 2016. (Label Smoothing)
-
Lin, T. Y., et al. (2017). Focal Loss for Dense Object Detection. ICCV 2017.
-
Pereyra, G., et al. (2017). Regularizing Neural Networks by Penalizing Confident Output Distributions. ICLR Workshop 2017.
-
Mukhoti, J., et al. (2020). Calibrating Deep Neural Networks Using Focal Loss. NeurIPS 2020.
采样与置信度估计
-
Gal, Y., & Ghahramani, Z. (2016). Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning. ICML 2016.
-
Lakshminarayanan, B., et al. (2017). Simple and Scalable Predictive Uncertainty Estimation using Deep Ensembles. NeurIPS 2017.
-
Wang, X., et al. (2024). ADVICE: Answer-Dependent Verbalized Confidence Estimation. arXiv:2510.10913.
综述与调查
-
Geng, J., et al. (2024). A Survey of Confidence Estimation and Calibration in Large Language Models. NAACL 2024.
-
Ovadia, Y., et al. (2019). Can You Trust Your Model’s Uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift. NeurIPS 2019.
-
Abdar, M., et al. (2021). A Review of Uncertainty Quantification in Deep Learning: Techniques, Applications and Challenges. Information Fusion.
应用与安全
-
Kadavath, S., et al. (2022). Language Models (Mostly) Know What They Know. arXiv:2207.05221.
-
OpenAI. (2023). GPT-4 Technical Report. (Calibration Analysis)
-
Jiang, Z., et al. (2024). Learning to Express Uncertainty in Natural Language. arXiv:2402.04359.
-
Bhattacharya, N., et al. (2024). Graph-based Confidence Calibration for Large Language Models. OpenReview.
理论研究
-
Bai, Y., et al. (2021). Why Are Modern Deep Networks Well-Calibrated? ICLR 2021 (Workshop).
-
Minderer, M., et al. (2021). Revisiting the Calibration of Modern Neural Networks. ICLR 2021.
-
Gruber, S., & Buettner, F. (2023). Better Uncertainty Calibration for Egocentric Activity Recognition. CVPR Workshops.
-
Huang, L., et al. (2024). Mitigating Overconfidence in Large Language Models. NeurIPS 2024.
最新进展
-
Huang, X., et al. (2025). Confidence Calibration in Medical AI: A Systematic Review. JAMIA Open.
-
Scaling Laws in the Tiny Regime: How Small Models Change Their Calibration. arXiv:2603.07365.
-
Label-with-Confidence: Effective Confidence Calibration and Ensembles in LLM-Powered Classification. GenAI E-Commerce Workshop 2024.