置信度校准：当大模型说"我有80%把握"时，它真的知道自己在说什么吗？

引言：当AI说出"我有80%把握"时，它真的知道自己在说什么吗？

2017年，斯坦福大学的研究生Chuan Guo发表了一篇论文，揭示了一个令人不安的现象：现代深度神经网络在预测准确率上远超早期模型，但它们对自己预测的置信度估计却变得更不可靠。一个可能达到99%分类准确率的模型，当它声称有99%的置信度时，实际正确率可能只有80%。

研究者将这种现象命名为"过度自信（Overconfidence）"。

八年后的今天，当神经网络已经从图像分类器进化为能写诗、编程、看病的大语言模型，置信度校准问题不仅没有消失，反而变得更加关键、更加复杂、更加难以解决。当GPT-4告诉你它对某个诊断结果"非常确信"时，医生该不该相信？当Claude声称它对一段代码的正确性"有95%把握"时，开发者能放心部署吗？

第一章：什么是置信度校准？

1.1 一个简单的定义

想象你问一个大模型：“2024年诺贝尔物理学奖得主是谁？”

模型回答：“2024年诺贝尔物理学奖授予了John Hopfield和Geoffrey Hinton，以表彰他们在人工神经网络领域的基础性发现和发明。”

如果模型告诉你它对这个答案有80%的置信度，那么在理想情况下，如果你问了100个类似难度的问题，模型应该在80个问题上给出正确答案。

置信度校准（Confidence Calibration），就是模型输出的概率值与其真实准确率之间的匹配程度。

一个完美校准的模型满足：

$$P(\text{correct} | \text{confidence} = p) = p$$

如果模型说它有70%的置信度，它就应该在70%的时候是对的。这听起来理所当然，但实际中的神经网络往往不是这样。

1.2 可靠性图：看见问题

**可靠性图（Reliability Diagram）**是可视化校准质量的标准工具。它将预测概率分成若干区间（如0-0.1, 0.1-0.2, …, 0.9-1.0），然后计算每个区间内样本的实际正确率。

graph LR
    A[模型输出概率] --> B[分箱统计]
    B --> C[计算各区间的实际准确率]
    C --> D[绘制可靠性图]
    D --> E{对角线?}
    E -->|是| F[完美校准]
    E -->|否| G[存在校准偏差]

对于一个完美校准的模型，可靠性图中的点应该落在对角线上。但Guo等人在2017年的研究发现，现代深度神经网络往往呈现出"过度自信"的模式——高置信度区域的实际准确率远低于预测置信度。

1.3 ECE：量化校准误差

为了量化校准质量，Guo等人提出了期望校准误差（Expected Calibration Error, ECE）：

$$\text{ECE} = \sum_{m=1}^{M} \frac{|B_m|}{n} |acc(B_m) - conf(B_m)|$$

其中，$B_m$表示第$m$个置信度区间，$n$是总样本数，$acc(B_m)$是该区间的实际准确率，$conf(B_m)$是该区间的平均预测置信度。

直观地说，ECE衡量的是可靠性图中各点到对角线的平均距离。ECE越小，校准越好。

除了ECE，还有最大校准误差（Maximum Calibration Error, MCE）：

$$\text{MCE} = \max_{m} |acc(B_m) - conf(B_m)|$$

MCE关注最坏情况，在某些高风险应用中更为重要。

1.4 一个反直觉的发现

Guo等人的论文揭示了一个令人惊讶的现象：随着模型准确率的提高，校准质量反而可能下降。

在ImageNet上，ResNet等现代架构达到了远超早期模型（如LeNet）的分类准确率，但它们的ECE却更高——也就是说，它们更"过度自信"。

研究者将这一现象归因于几个因素：

网络深度：更深的网络更容易过拟合训练数据，产生过度自信的预测
批量归一化：BatchNorm可能降低网络的校准质量
权重衰减：较少的正则化可能导致更尖锐的决策边界

第二章：大模型的校准困境

2.1 LLM的特殊性

当研究对象从图像分类器变为大语言模型时，置信度校准问题变得更加复杂。

首先，输出空间不同。图像分类通常只有几百到几千个类别，而大语言模型的词汇表可能有几万甚至十几万个token。这使得传统的分箱方法难以直接应用。

其次，任务多样性。图像分类是一个相对单一的任务，而大语言模型需要处理问答、翻译、摘要、编程等多种任务。不同任务可能需要不同的校准策略。

第三，序列生成。大语言模型的输出是一个token序列，每个位置都有一个概率分布。如何评估整个序列的置信度是一个开放问题。

2.2 三种置信度估计方法

针对大语言模型，研究者提出了三种主要的置信度估计方法：

方法一：Token级概率（Token-Level Probabilities）

最直接的方法是使用模型输出的token概率。对于一个生成的序列，可以计算各token概率的乘积或平均值：

$$P_{\text{sequence}} = \prod_{t=1}^{T} P(y_t | y_{或者使用几何平均：

$$P_{\text{avg}} = \left(\prod_{t=1}^{T} P(y_t | y_{这种方法简单直接，但有几个问题：长序列的概率会趋近于零；某些token（如标点）的概率可能影响整体估计。

方法二：采样一致性（Sampling Consistency）

让模型对同一问题生成多个回答，然后计算这些回答之间的一致性。如果模型每次都给出相似或相同的答案，可以认为它对这个答案更有信心。

flowchart TD
    A[输入问题] --> B[采样生成N个回答]
    B --> C{回答一致性分析}
    C -->|高度一致| D[高置信度]
    C -->|不一致| E[低置信度]
    C -->|完全不同| F[极高不确定性]

这种方法的优势是不需要访问模型的内部概率，可以直接应用于黑盒API。但成本较高——每次置信度估计需要多次推理。

方法三：语言化置信（Verbalized Confidence）

直接让模型用自然语言表达其置信度。例如：

问题：地球到月球的平均距离是多少？
请给出答案，并说明你对这个答案的置信度（0-100%）。

模型回答：“地球到月球的平均距离约为384,400公里。我对此答案的置信度是95%。”

2024年的研究发现，经过适当训练的模型可以产生相当可靠的verbalized confidence。但这种方法也存在风险：模型可能学会"假装"有信心，而不是真正反映其不确定性。

2.3 过度自信：大模型的通病

2025年发表的一系列研究揭示了LLM过度自信问题的严重性。

Mind the Confidence Gap研究（2025年2月）发现，主流LLM在高难度问题上的过度自信尤为严重。当模型面对它"不该知道"的问题时，它仍然倾向于给出高置信度的错误答案。

LLMs are Overconfident研究（2025年10月）专门考察了LLM在数值估计任务中的置信度校准。研究发现，模型在给出数值区间时，真实值落在其声称的"90%置信区间"内的概率往往远低于90%。

更令人担忧的是，更大的模型不一定校准得更好。虽然更大的模型通常更准确，但它们可能更加过度自信。OpenAI的技术报告显示，GPT-4的基础模型校准相当不错，但经过RLHF对齐后，校准质量反而下降了。

2.4 RLHF的校准损害

这是一个意外的发现：RLHF（基于人类反馈的强化学习）可能损害模型的校准质量。

2023年的论文《On the Calibration of Large Language Models and Alignment》详细研究了这一现象。研究者发现：

基础模型往往校准得相当好。预训练阶段，模型学习到的是数据的真实分布，其输出的概率相对可靠。
RLHF倾向于"放大"置信度。在对齐过程中，模型被训练给出"更有帮助"的回答。这种训练可能让模型学会更加自信地表达，即使它并不确定。
不同任务的影响不同。在事实性问答上，校准损害尤为明显；在创意写作上，影响较小。

flowchart LR
    A[预训练模型] -->|相对良好的校准| B[RLHF对齐]
    B --> C[指令遵循能力提升]
    B --> D[校准质量可能下降]
    D --> E[过度自信倾向增强]

研究者提出了几种缓解方法，包括在RLHF训练中引入校准损失、使用温度缩放进行后处理等。

第三章：校准方法的技术演进

3.1 后处理方法：简单但有效

后处理方法不需要重新训练模型，而是在模型输出后对其进行校准。

温度缩放（Temperature Scaling）

这是Guo等人提出的最简单也最有效的方法。核心思想是用一个标量$T$调整模型的logits：

$$\hat{p} = \text{softmax}(z / T)$$

其中$z$是模型的原始输出（logits），$T > 1$会使概率分布更平滑（更不确定），$T < 1$会使分布更尖锐（更确定）。

温度参数$T$可以在验证集上优化，使得校准误差最小。研究表明，温度缩放在许多场景下效果出奇地好，尽管它只引入了一个额外的参数。

Platt Scaling

这是更早提出的校准方法，最初用于支持向量机。它使用一个逻辑回归模型来校准输出：

$$\hat{p} = \text{sigmoid}(a \cdot z + b)$$

其中$a$和$b$是需要在验证集上学习的参数。与温度缩放相比，Platt Scaling引入了两个参数，可以同时调整斜率和偏移。

Isotonic回归

这是一种非参数方法，学习一个单调递增的函数来校准输出：

$$\hat{p} = f(z)$$

其中$f$是单调递增的分段常数函数。Isotonic回归可以捕捉更复杂的校准关系，但需要更多的验证数据，且容易过拟合。

3.2 方法比较

2020年的研究《Mix-n-Match》系统比较了这些方法：

方法	参数量	数据需求	校准效果
温度缩放	1	低	数据有限时最优
Platt Scaling	2	中	中等
Isotonic回归	非参数	高	数据充足时最优

对于大语言模型，温度缩放仍然是最常用的方法，因为它的参数效率高，不需要大量的校准数据。

3.3 训练时方法：从根本上解决问题

后处理方法虽然简单，但治标不治本。研究者也提出了在训练阶段改善校准的方法。

标签平滑（Label Smoothing）

Szegedy等人在Inception-v2中提出了标签平滑：将硬标签$(0, 1)$变为软标签$(\epsilon/(K-1), 1-\epsilon)$。这不仅作为正则化防止过拟合，也被发现能改善校准质量。

Focal Loss

Lin等人提出的Focal Loss通过降低简单样本的权重，让模型更关注困难样本：

$$\text{FL}(p_t) = -(1-p_t)^\gamma \log(p_t)$$

其中$\gamma > 0$是调节参数。研究发现Focal Loss也能改善校准，因为它降低了模型对简单样本的过度自信。

置信度惩罚

直接在损失函数中加入对过度自信的惩罚：

$$\mathcal{L} = \mathcal{L}_{\text{CE}} + \lambda \cdot \text{KL}(\text{softmax}(z) \| \text{uniform})$$

这鼓励模型在不确定时输出更均匀的分布。

3.4 LLM专用方法

针对大语言模型的特殊需求，研究者提出了一些专用方法。

ADVICE: Answer-Dependent Verbalized Confidence Estimation

2025年提出的方法，通过让模型在生成答案的同时输出置信度，并使用一个轻量级的校准模型来调整这个置信度。研究表明，这种方法可以达到与采样方法相当的效果，但成本大大降低。

Restoring Calibration for Aligned LLMs

针对RLHF损害校准的问题，研究者提出了在指令微调阶段同时优化校准的方法。核心思想是保留基础模型的校准特性，同时学习指令遵循能力。

基于图的校准（Graph-based Confidence Calibration）

利用多次采样生成的答案之间的关系，构建一个图结构，然后使用图神经网络来预测置信度。这种方法能够捕捉答案之间的语义关系，比简单的投票更精确。

第四章：实际应用中的校准

4.1 医疗AI：生死攸关的校准

在医疗诊断领域，置信度校准直接关系到患者安全。

2024年的一项研究评估了12个LLM在5个医疗专科上的置信度校准。结果显示：即使是表现最好的模型，其verbalized confidence与实际准确率之间也存在显著差距。

更令人担忧的是，模型在它"不该知道"的情况下仍然表现出高置信度。当一个模型面对超出其训练知识范围的问题时，理想情况是它应该说"我不确定"。但现实中，模型往往会给出一个高置信度的错误答案。

flowchart TD
    A[医疗问题输入] --> B[LLM生成诊断]
    B --> C{置信度评估}
    C -->|高置信度 + 正确| D[接受建议]
    C -->|高置信度 + 错误| E[潜在风险]
    C -->|低置信度| F[人工审核]
    E --> G[关键: 校准决定生死]

研究提出了几个在医疗AI中改善校准的建议：

保守的决策阈值：不要仅仅依赖模型的高置信度输出，应该设置更保守的阈值。
人工介入机制：当模型的置信度低于某个阈值时，应该引入人工审核。
定期校准审计：在部署后持续监控模型的校准质量，及时发现漂移。

4.2 幻觉检测：置信度的新用途

幻觉是大语言模型最棘手的问题之一。置信度校准为幻觉检测提供了一条新的路径。

直觉很简单：如果模型真的"知道"它在说什么，它的置信度应该是一致的；如果它在"编造"，它的置信度应该更不稳定。

2024年Nature发表的论文《Detecting hallucinations in large language models using semantic entropy》提出了一种基于信息论的幻觉检测方法。核心思想是计算模型输出的语义熵——不是在token层面，而是在语义层面测量不确定性。

flowchart TD
    A[输入问题] --> B[多次采样生成答案]
    B --> C[语义聚类]
    C --> D{语义熵分析}
    D -->|低熵: 答案一致| E[可能非幻觉]
    D -->|高熵: 答案分散| F[可能幻觉]

研究发现，语义熵与幻觉有很强的相关性。当模型在不同采样中给出语义上相似的答案时，它更可能是正确的；当答案语义差异大时，幻觉的风险更高。

4.3 “Knowing When Not to Know”

这可能是校准问题最核心的应用：让模型学会在不确定时说"我不确定"。

2025年的论文《LLMs Hallucinate with Certainty Despite Knowing the Answer》揭示了一个有趣的现象：模型有时会在它"知道"正确答案的情况下，仍然给出错误但高置信度的答案。

这说明问题不仅是模型"不知道自己不知道"，而是模型的内部知识与输出之间存在某种"断层"。研究者提出了几种解决思路：

显式训练"拒绝回答"行为：在训练数据中加入模型拒绝回答超出知识范围问题的示例。
置信度触发机制：当内部置信度低于阈值时，自动触发"我不确定"的输出。
分离知识与表达：让模型的置信度估计与其表达方式解耦，避免"有信心的表达"对置信度估计的干扰。

4.4 LLM置信度评估方法对比

针对不同场景，三种置信度评估方法各有优劣：

flowchart TB
    subgraph 方法一["Token级概率"]
        A1[模型输出] --> A2[获取logits]
        A2 --> A3[计算序列概率]
        A3 --> A4[几何平均]
    end
    
    subgraph 方法二["采样一致性"]
        B1[输入问题] --> B2[多次采样]
        B2 --> B3[语义聚类]
        B3 --> B4[一致性分数]
    end
    
    subgraph 方法三["语言化置信"]
        C1[输入问题+置信度提示] --> C2[模型生成答案]
        C2 --> C3[解析置信度表述]
        C3 --> C4[校准调整]
    end
    
    方法一 --> D{综合评估}
    方法二 --> D
    方法三 --> D
    D --> E[最终置信度]

在实际应用中，往往需要组合使用多种方法。例如，对于高价值决策，可以先使用Token级概率进行初步筛选，再对低置信度的回答进行采样一致性检验，最后综合判断。

第五章：未来展望

5.1 评估基准的完善

目前，LLM校准研究面临一个根本问题：缺乏统一的评估基准。不同研究使用不同的数据集、不同的评估指标、不同的任务类型，使得结果难以比较。

2024年提出的MedConf是朝这个方向迈出的一步。它专门针对医疗问答场景，提供了统一的评估框架。类似的标准基准需要在更多领域建立。

5.2 个性化校准

一个新兴的方向是个性化校准：不同的用户、不同的应用场景可能需要不同的校准策略。

例如，医疗诊断场景需要非常保守的校准（宁可说不知道，不要给错误答案）；而创意写作场景可以更宽松。如何让同一个模型在不同场景下展现出不同的校准特性，是一个值得研究的问题。

5.3 校准与能力的平衡

这是最核心的权衡：我们能否同时拥有高能力和良好的校准？

目前看来，这两个目标有时是冲突的。RLHF提升了模型的有用性和指令遵循能力，但可能损害校准。如何在对齐过程中保留基础模型的校准特性，是一个重要的研究方向。

5.4 从校准到可解释性

校准研究最终指向一个更深层的问题：我们能否真正理解模型"知道"什么？

一个完美校准的模型不仅更可靠，也更透明——它的置信度是对其内部状态的诚实反映。从这个角度看，校准研究是通往模型可解释性的重要桥梁。

结语：诚实比聪明更重要

在AI发展的今天，我们越来越依赖模型的判断。医疗诊断、金融决策、法律咨询——这些高风险领域都在快速引入AI辅助。

在这样的背景下，置信度校准不是一个锦上添花的问题，而是一个关乎安全与信任的核心问题。

一个不校准的模型就像一个从不承认"我不知道"的专家——它可能大部分时候是对的，但当它错的时候，它会错得非常自信。在高风险场景中，这种错误可能是致命的。

2017年Guo等人的论文标题是"On Calibration of Modern Neural Networks"。八年过去了，我们的神经网络已经从图像分类器进化为通用智能体，但校准问题依然没有得到根本解决。

或许，教会AI说"我不确定"，和教会AI正确回答问题，一样重要。因为在人类与AI的协作中，信任建立在诚实之上——而诚实，从知道自己的边界开始。

参考文献

经典论文与基础研究

Guo, C., Pleiss, G., Sun, Y., & Weinberger, K. Q. (2017). On Calibration of Modern Neural Networks. ICML 2017. arXiv:1706.04599.
Niculescu-Mizil, A., & Caruana, R. (2005). Predicting Good Probabilities With Supervised Learning. ICML 2005.
Platt, J. (1999). Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods. Advances in Large Margin Classifiers.
Zadrozny, B., & Elkan, C. (2001). Obtaining Calibrated Probability Estimates from Decision Trees and Naive Bayesian Classifiers. ICML 2001.
Zadrozny, B., & Elkan, C. (2002). Transforming Classifier Scores into Accurate Multiclass Probability Estimates. KDD 2002.

LLM校准研究

Xiao, Y., et al. (2024). Restoring Calibration for Aligned Large Language Models. ICML 2024.
Chen, L., et al. (2024). On the Calibration of Large Language Models and Alignment. Findings of EMNLP 2023.
Lin, S., et al. (2024). Generating with Confidence: Uncertainty Quantification for Black-box Large Language Models. arXiv:2305.19187.
Tian, K., et al. (2024). Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence Scores from Language Models Fine-Tuned with Human Feedback. EMNLP 2023.
Yang, D., et al. (2024). On Verbalized Confidence Scores for LLMs. arXiv:2412.14737.
Calibrating LLM Confidence with Semantic Steering: A Multi-Prompt Approach. arXiv:2503.02863.

过度自信与幻觉检测

Mind the Confidence Gap: Overconfidence, Calibration, and Task Performance in LLMs. arXiv:2502.11028.
LLMs are Overconfident: Evaluating Confidence Interval Calibration in LLMs. arXiv:2510.26995.
Farquhar, S., et al. (2024). Detecting Hallucinations in Large Language Models Using Semantic Entropy. Nature.
LLMs Hallucinate with Certainty Despite Knowing the Answer. Findings of EMNLP 2025.
Manakul, P., Liusie, A., & Gales, M. (2023). SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models. EMNLP 2023.

医疗AI校准

Gichoya, J. W., et al. (2024). Overconfident AI? Benchmarking LLM Self-Assessment in Clinical Scenarios. arXiv:2408.04278.
Confidence Calibration in Large Language Models for Uncertainty Quantification in Healthcare. AAAI Spring Symposium 2025.
Towards Reliable Medical LLMs: Benchmarking and Enhancing Confidence Calibration. arXiv:2601.15645.

校准方法

Guo, C., et al. (2017). Temperature Scaling. In On Calibration of Modern Neural Networks.
Zhang, J., et al. (2020). Mix-n-Match: Ensemble and Compositional Methods for Uncertainty Calibration in Deep Learning. ICML 2020.
Nixon, J., et al. (2019). Measuring Calibration in Deep Learning. CVPR Workshops 2019.
Kull, M., et al. (2019). Beyond Temperature Scaling: Obtaining Well-Calibrated Multi-Class Probabilities. NeurIPS 2019.
Kumar, A., Liang, P. S., & Ma, T. (2019). Verified Uncertainty Calibration. NeurIPS 2019.

训练时校准方法

Szegedy, C., et al. (2016). Rethinking the Inception Architecture for Computer Vision. CVPR 2016. (Label Smoothing)
Lin, T. Y., et al. (2017). Focal Loss for Dense Object Detection. ICCV 2017.
Pereyra, G., et al. (2017). Regularizing Neural Networks by Penalizing Confident Output Distributions. ICLR Workshop 2017.
Mukhoti, J., et al. (2020). Calibrating Deep Neural Networks Using Focal Loss. NeurIPS 2020.

采样与置信度估计

Gal, Y., & Ghahramani, Z. (2016). Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning. ICML 2016.
Lakshminarayanan, B., et al. (2017). Simple and Scalable Predictive Uncertainty Estimation using Deep Ensembles. NeurIPS 2017.
Wang, X., et al. (2024). ADVICE: Answer-Dependent Verbalized Confidence Estimation. arXiv:2510.10913.

综述与调查

Geng, J., et al. (2024). A Survey of Confidence Estimation and Calibration in Large Language Models. NAACL 2024.
Ovadia, Y., et al. (2019). Can You Trust Your Model’s Uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift. NeurIPS 2019.
Abdar, M., et al. (2021). A Review of Uncertainty Quantification in Deep Learning: Techniques, Applications and Challenges. Information Fusion.

应用与安全

Kadavath, S., et al. (2022). Language Models (Mostly) Know What They Know. arXiv:2207.05221.
OpenAI. (2023). GPT-4 Technical Report. (Calibration Analysis)
Jiang, Z., et al. (2024). Learning to Express Uncertainty in Natural Language. arXiv:2402.04359.
Bhattacharya, N., et al. (2024). Graph-based Confidence Calibration for Large Language Models. OpenReview.

理论研究

Bai, Y., et al. (2021). Why Are Modern Deep Networks Well-Calibrated? ICLR 2021 (Workshop).
Minderer, M., et al. (2021). Revisiting the Calibration of Modern Neural Networks. ICLR 2021.
Gruber, S., & Buettner, F. (2023). Better Uncertainty Calibration for Egocentric Activity Recognition. CVPR Workshops.
Huang, L., et al. (2024). Mitigating Overconfidence in Large Language Models. NeurIPS 2024.

引言：当AI说出"我有80%把握"时，它真的知道自己在说什么吗？#

第一章：什么是置信度校准？#

1.1 一个简单的定义#

1.2 可靠性图：看见问题#

1.3 ECE：量化校准误差#

1.4 一个反直觉的发现#

第二章：大模型的校准困境#

2.1 LLM的特殊性#

2.2 三种置信度估计方法#

2.3 过度自信：大模型的通病#

2.4 RLHF的校准损害#

第三章：校准方法的技术演进#

3.1 后处理方法：简单但有效#

3.2 方法比较#

3.3 训练时方法：从根本上解决问题#

3.4 LLM专用方法#

第四章：实际应用中的校准#

4.1 医疗AI：生死攸关的校准#

4.2 幻觉检测：置信度的新用途#

4.3 “Knowing When Not to Know”#

4.4 LLM置信度评估方法对比#

第五章：未来展望#

5.1 评估基准的完善#

5.2 个性化校准#

5.3 校准与能力的平衡#

5.4 从校准到可解释性#

结语：诚实比聪明更重要#

参考文献#

经典论文与基础研究#

LLM校准研究#

过度自信与幻觉检测#

医疗AI校准#

校准方法#

训练时校准方法#

采样与置信度估计#

综述与调查#

应用与安全#

理论研究#

最新进展#

更多精彩内容

Logprobs深度解析：大模型输出的隐藏信息

对话模板：大模型应用中最容易被忽视的隐形语言

变长序列处理：大模型如何应对长短不一的输入

Temperature=0为什么不等于确定性输出：大模型推理非确定性的完整技术解析

大模型的上下文窗口：从Token限制到有效上下文管理的完整解析