软标签的秘密：为什么知识蒸馏能让小模型拥有大智慧

2015年3月，Geoffrey Hinton在arXiv上发表了一篇看似不起眼的论文。标题是《Distilling the Knowledge in a Neural Network》，核心观点简洁得令人惊讶：大模型学到的"软"概率分布，比"硬"的分类标签包含更多信息。

十年后，这篇论文成为大模型时代最关键的技术基石之一。2025年1月，DeepSeek团队发布R1模型，将6710亿参数的推理能力迁移到15亿参数的小模型上——背后的核心技术，正是知识蒸馏。

软标签究竟藏着什么秘密？为什么简单的概率分布调整能产生如此巨大的效果？

从一个反直觉的实验说起

Hinton的论文报告了一个令人困惑的实验结果。研究团队训练了一个大型神经网络来识别MNIST手写数字，然后尝试将这个模型的知识"蒸馏"到一个更小的网络中。

关键实验设计是：完全移除数字"3"的所有训练样本。

按照直觉，学生模型从未见过数字"3"，应该完全无法识别它。但结果令人震惊——蒸馏后的小模型对数字"3"的识别准确率达到了98.6%。它不仅认识"3"，而且认识得很好。

秘密在于教师模型的"软标签"。当教师模型看到一个长得像"3"的数字时，它不仅输出"这是3"的判断，还输出了一整套概率分布：可能是3的概率是0.9，可能是5的概率是0.08，可能是8的概率是0.01，其他数字的概率更低。

这些看似微不足道的"错误"概率，实际上编码了样本之间的相似性结构。数字"3"和"5"在某些写法上很像，“3"和"8"也有相似之处。教师模型通过大规模训练学会了这种精细的相似性关系，并通过软标签传递给学生模型。

这就是Hinton所说的"暗知识”（Dark Knowledge）——藏在概率分布边缘的信息，远比单纯的类别标签丰富得多。

温度参数：让概率分布"软"下来

要理解软标签的价值，首先要理解softmax函数的特性。标准的softmax将神经网络的原始输出（logits）转换为概率分布：

$$q_i = \frac{\exp(z_i)}{\sum_j \exp(z_j)}$$

这个公式倾向于产生"极端"的概率分布。当某个类别的logit明显高于其他类别时，softmax会让它接近1，其他类别接近0。一个典型的图像分类结果可能是：猫0.99，狗0.008，鸟0.002。

这种分布虽然准确，但丢失了细节。狗和鸟的区别被压缩到可以忽略的程度。

Hinton的解决方案是引入温度参数$T$：

$$q_i = \frac{\exp(z_i/T)}{\sum_j \exp(z_j/T)}$$

当$T > 1$时，概率分布变得更加平滑。温度越高，分布越均匀，原本被忽略的"边缘概率"开始显现。

xychart-beta
    title "温度参数对softmax输出的影响"
    x-axis ["猫", "狗", "鸟", "兔"]
    y-axis "概率" 0 --> 1
    bar [0.99, 0.008, 0.002, 0]
    bar [0.70, 0.18, 0.08, 0.04]

上图：低温(T=1)时分布尖锐，高温(T=5)时分布平滑，边缘概率得以显现

为什么高温有效？Hinton给出了数学解释。当温度足够高时，蒸馏损失近似于最小化教师和学生logits之间的平方差：

$$\frac{\partial C}{\partial z_i} \approx \frac{1}{NT^2}(z_i - v_i)$$

其中$z_i$是学生的logit，$v_i$是教师的logit。这意味着高温蒸馏等价于让学生直接模仿教师的内部表示，而不仅仅是输出概率。

蒸馏损失函数：两个目标的平衡

完整的知识蒸馏需要同时优化两个目标。第一是让学生模型匹配教师模型的软标签分布；第二是让学生模型正确预测真实标签。

数学上，总损失函数是两者的加权组合：

$$L = \alpha \cdot L_{KD} + (1-\alpha) \cdot L_{CE}$$

其中$L_{KD}$是蒸馏损失，通常使用KL散度衡量学生和教师软标签分布的差异：

$$L_{KD} = T^2 \cdot \text{KL}(p^T || q^T) = T^2 \cdot \sum_i p_i^T \log \frac{p_i^T}{q_i^T}$$

$L_{CE}$是标准的交叉熵损失，$q^T$和$p^T$分别是在温度$T$下学生和教师的概率分布。注意$T^2$的缩放因子——它确保了当温度改变时，软标签损失的梯度量级保持不变。

PyTorch的实现简洁明了：

def distillation_loss(student_logits, teacher_logits, labels, T, alpha):
    # 软标签损失：KL散度
    soft_loss = nn.KLDivLoss(reduction='batchmean')(
        F.log_softmax(student_logits / T, dim=1),
        F.softmax(teacher_logits / T, dim=1)
    ) * (T * T)
    
    # 硬标签损失：交叉熵
    hard_loss = nn.CrossEntropyLoss()(student_logits, labels)
    
    # 加权组合
    return alpha * soft_loss + (1 - alpha) * hard_loss

权重$\alpha$的典型值在0.7到0.9之间，强调软标签的重要性同时保留真实标签的监督。Hinton在原始论文中建议，当软标签和硬标签冲突时，学生模型应该更倾向于正确答案——这通过在软标签损失中保留一定的硬标签权重来实现。

从图像分类到大语言模型：蒸馏的技术演进

Hinton的原始工作聚焦于图像分类和语音识别，但知识蒸馏的核心思想——让小模型学习大模型的泛化行为——在深度学习的各个领域都找到了应用。

特征蒸馏与注意力迁移

传统的logits蒸馏只利用了模型的最终输出，但神经网络的中间层同样包含丰富的信息。Romero等人在2014年提出FitNets，让学生网络学习教师网络的中间特征表示。这种方法被称为"特征蒸馏"或"提示学习"（Hint Learning）。

更进一步的，Zagoruyko和Komodakis在2017年提出注意力迁移（Attention Transfer）。核心洞察是：教师模型的注意力图揭示了它"看"图像的方式，学生模型应该学习这种关注模式。注意力损失定义为：

$$L_{AT} = \sum_{l \in A} \left\| \frac{Q_S^l}{\|Q_S^l\|_2} - \frac{Q_T^l}{\|Q_T^l\|_2} \right\|_2$$

其中$Q_S^l$和$Q_T^l$分别是学生和教师在第$l$层的注意力图。这种方法在图像分类、目标检测等任务上展示了显著效果。

图片来源: Zagoruyko & Komodakis, Paying More Attention to Attention, ICLR 2017

注意力迁移的核心思想是让学生模型学会教师模型的"视觉关注模式"——在图像的哪些区域分配更多注意力。这种方法不仅传递了输出知识，还传递了决策过程的信息。

自蒸馏：模型教自己

一个有趣的问题是：模型能不能从自己身上学习？这个问题催生了"自蒸馏"（Self-Distillation）的研究方向。

自蒸馏的核心设计是：使用同一个网络作为教师和学生，但让不同层之间进行知识传递。例如，深层特征蒸馏到浅层，或者训练好的模型作为教师重新训练自己。

2020年，NeurIPS的一篇论文《Self-Distillation Amplifies Regularization in Hilbert Space》给出了理论解释：自蒸馏等价于在函数空间中加入更强的正则化。它迫使模型在寻找最优解时进入更平坦的区域，从而提升泛化能力。

实验表明，自蒸馏可以在不改变模型架构的情况下，带来2-5%的性能提升。这解释了一个现象：即使没有更大的教师模型，多轮训练也能提升模型性能。

大模型时代的知识蒸馏

当模型规模扩展到千亿参数，知识蒸馏面临新的挑战。传统的logits蒸馏在大语言模型上效果有限——词汇表动辄数万甚至数十万，对每个token都计算完整的概率分布代价高昂。

但蒸馏的需求在大模型时代反而更加迫切。一个1750亿参数的模型，即使推理成本也足以让大多数开发者望而却步。如何将这些能力"压缩"到可以在边缘设备上运行的模型？

Alpaca与指令微调的蒸馏范式

2023年3月，Stanford发布了Alpaca模型，开创了一种新的蒸馏范式。研究团队使用OpenAI的text-davinci-003模型生成了52,000条指令-响应对，然后用这些数据微调LLaMA-7B。

虽然严格来说，这不是传统的知识蒸馏（没有使用软标签），但它代表了一种更广义的知识迁移：用大模型的生成能力来创造训练数据，让小模型学习这些数据。

这种"数据蒸馏"或"指令蒸馏"的方式成为后续工作的主流。Vicuna、WizardLM、Orca等模型都采用了类似的策略，用GPT-4等大模型的输出来训练小模型。

DeepSeek-R1：推理能力的蒸馏

2025年1月，DeepSeek团队发布的R1模型将知识蒸馏推向新高度。研究团队不仅蒸馏了知识，还蒸馏了推理能力。

DeepSeek-R1-Zero是一个通过纯强化学习训练出的推理模型。它学会了在回答问题前进行长链思考，包括自我验证、错误修正、策略切换等高级行为。这些能力并非来自人类示范，而是通过大规模强化学习自主涌现。

更关键的是，DeepSeek团队证明了这些推理能力可以被有效蒸馏。他们使用R1生成的80万条推理轨迹作为训练数据，微调了一系列小模型：

蒸馏模型	基座模型	AIME 2024	MATH-500
R1-Distill-1.5B	Qwen2.5-Math-1.5B	28.9%	83.9%
R1-Distill-7B	Qwen2.5-Math-7B	55.5%	92.0%
R1-Distill-32B	Qwen2.5-32B	72.6%	94.3%
R1-Distill-70B	Llama-3.3-70B	77.6%	95.2%
R1 (教师)	DeepSeek-V3	79.8%	97.3%

数据来源：DeepSeek-R1技术报告

这组数据揭示了一个重要事实：15亿参数的蒸馏模型，在AIME数学竞赛上达到了28.9%的准确率，而同等规模的基础模型几乎没有解题能力。推理能力可以通过蒸馏有效迁移。

思维链蒸馏的挑战

然而，思维链蒸馏并非没有挑战。2024年的研究表明，简单地让学生模型模仿教师的长链思考，效果往往不如预期。

问题在于"忠实性"（Faithfulness）。学生模型可能学会了生成看起来像推理过程的文本，但内部并没有真正执行逻辑推理。一项研究发现，当教师模型的推理链被人为篡改（加入错误步骤）时，学生模型仍然能学到"看起来正确"的输出——这意味着它在模仿形式而非内容。

另一个挑战是计算效率。长链思考意味着更多的token生成，而蒸馏数据中往往包含数千甚至上万个token的推理过程。这对训练数据的质量筛选和计算资源都提出了更高要求。

容量差距：蒸馏的理论边界

知识蒸馏不是万能的。当教师模型和学生模型的能力差距过大时，蒸馏效果会显著下降。这就是"容量差距"问题。

2024年的一项研究《Towards the Law of Capacity Gap in Distilling Language Models》发现了令人惊讶的规律：对于给定的学生模型规模，存在一个最优的教师模型规模。教师太大或太小，都会导致次优结果。

理论解释是：当教师模型过于复杂时，它学到的知识结构超出了学生模型的表示能力。学生模型"看不懂"教师的输出，只能进行浅层模仿。反之，如果教师模型本身不够强大，它传递的知识质量也会受限。

研究提出了一个线性公式：

$$S_{optimal} \approx 0.1 \times T$$

其中$S_{optimal}$是学生的最优规模，$T$是教师规模。这意味着一个10亿参数的学生，最优教师规模在100亿参数左右。

这个发现对实践有重要指导意义。DeepSeek-R1的蒸馏策略——用6710亿参数的教师蒸馏到15亿参数的学生——似乎违背了这个规律。但关键区别在于，DeepSeek使用的是相同架构的基座模型（Qwen和Llama系列），而非从零训练。学生模型的预训练权重已经包含了大量知识，蒸馏主要是对齐推理模式。

蒸馏与其他压缩技术的对比

知识蒸馏并非模型压缩的唯一手段。量化和剪枝是另外两个主流方向，各有优劣。

方法	原理	压缩比	精度损失	训练成本
知识蒸馏	学习大模型行为	10-100倍	小	中
量化	降低数值精度	2-8倍	小	低/无
剪枝	移除冗余参数	2-10倍	中	中

三者并非互斥，而是可以组合使用。典型的工作流是：先通过蒸馏获得高性能的小模型，再通过量化进一步压缩体积。DeepSeek团队在发布R1蒸馏模型的同时，也提供了INT4量化版本，将15亿参数模型压缩到约0.8GB。

一个值得注意的趋势是：随着模型规模增大，量化的边际收益递减，而蒸馏的收益增加。原因是超大模型存在大量冗余，蒸馏能够将这些冗余转化为学生模型的"智能密度"。

为什么蒸馏有效：三种理论解释

知识蒸馏的成功引发了大量理论研究。主要有三种解释框架。

解释一：暗知识的传递

这是Hinton原始论文的核心观点。软标签包含类别之间的相似性信息，这些信息在硬标签中被丢弃。例如，在ImageNet数据集中，“哈士奇"和"爱斯基摩犬"在语义上相近，但硬标签完全独立。软标签保留了这种关系，相当于给学生模型提供了"额外"的监督信号。

解释二：正则化效应

蒸馏损失可以看作一种特殊的数据增强。对于每个训练样本，教师模型提供了一个"目标分布”，而不仅仅是一个类别标签。这种分布形式的监督信号起到了正则化作用，防止学生模型过拟合训练数据。

更形式化地说，蒸馏等价于在损失函数中加入了一个先验项，这个先验来自教师模型的经验。这解释了为什么蒸馏即使在数据充足的情况下也能带来提升——它不是解决数据不足，而是解决知识编码效率。

解释三：优化引导

训练神经网络是一个非凸优化问题。教师模型的输出相当于为学生模型指明了一个"好的"解的方向。学生模型不必从头搜索整个参数空间，而是在教师引导的区域内进行精细调整。

这种视角也解释了为什么大教师蒸馏小学生效果不佳——教师指明的方向超出了学生的可达区域，学生根本无法到达那个解。

蒸馏的边界：什么情况下会失败

尽管知识蒸馏在众多任务上取得了成功，但它并非万能药。几种典型的失败模式值得警惕。

领域迁移失效

当蒸馏数据与学生模型的部署领域不一致时，蒸馏效果会大打折扣。例如，用通用对话数据蒸馏的模型，在代码生成任务上可能表现不佳。这是因为软标签编码的相似性结构是领域特定的。

对抗样本敏感

研究表明，蒸馏后的模型对对抗攻击的鲁棒性可能下降。原因在于，蒸馏过程强调匹配教师模型的"正确"输出，但可能没有完全继承教师模型的鲁棒特征。

冷启动困境

对于完全没有预训练的模型，直接蒸馏效果往往不佳。DeepSeek-R1蒸馏成功的部分原因在于，基座模型（Qwen和Llama）已经通过大规模预训练获得了强大的语言理解能力。蒸馏主要是注入推理模式，而非从零构建知识。

未来方向：从蒸馏到对齐

知识蒸馏的下一个前沿可能与AI对齐深度结合。当前，蒸馏主要用于能力迁移——让学生模型获得教师模型的技能。但同样的技术框架可以用于价值对齐——让学生模型继承教师模型的"意图"和"偏好"。

一个值得关注的趋势是宪法AI（Constitutional AI）方法的兴起。这种方法用一套规则（“宪法”）来指导模型行为，模型通过自我批评和修正来学习这些规则。本质上，这是一种更抽象的知识迁移——不是迁移具体的输出，而是迁移决策原则。

另一个方向是多教师蒸馏。不同的大模型可能在不同的任务上有优势，如何综合多个教师的知识，是一个开放问题。简单平均往往不是最优解，动态选择和加权策略正在被探索。

结语

知识蒸馏的本质是一种知识的"再编码"——将大模型中学到的复杂模式，转化为小模型可以理解和执行的简单指令。软标签只是这种再编码的一种形式，更广义的蒸馏包括数据生成、推理轨迹、注意力模式等多种形态。

十年前，Hinton用温度参数"软化"概率分布，发现了藏在边缘概率中的暗知识。今天，这个简单思想已经演变为大模型落地的核心技术。DeepSeek-R1证明了，推理能力——这个被认为需要巨大模型才能拥有的能力——可以通过蒸馏传递给小模型。

蒸馏的成功也提出了一个深刻的问题：智能的本质是什么？如果一个15亿参数的模型能够通过蒸馏获得大模型的推理能力，那么大模型的"聪明"究竟来自规模，还是来自训练方式？

答案可能介于两者之间。规模提供了可能性的空间，而蒸馏提供了抵达这个空间最优点的路径。理解这条路径，是构建更高效AI系统的关键。

参考文献

Hinton, G., Vinyals, O., & Dean, J. (2015). Distilling the Knowledge in a Neural Network. arXiv:1503.02531.
DeepSeek-AI. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948.
Romero, A., et al. (2014). FitNets: Hints for Thin Deep Nets. ICLR 2015.
Zagoruyko, S., & Komodakis, N. (2017). Paying More Attention to Attention. ICLR 2017.
Taori, R., et al. (2023). Alpaca: A Strong, Replicable Instruction-Following Model. Stanford CRFM.
Cheng, P., et al. (2024). Towards the Law of Capacity Gap in Distilling Language Models. arXiv:2311.07052.
Shridhar, K., et al. (2023). Distilling Reasoning Capabilities into Smaller Language Models. arXiv:2311.08615.
Gou, J., et al. (2021). Knowledge Distillation: A Survey. International Journal of Computer Vision.

从一个反直觉的实验说起#

温度参数：让概率分布"软"下来#

蒸馏损失函数：两个目标的平衡#

从图像分类到大语言模型：蒸馏的技术演进#

特征蒸馏与注意力迁移#

自蒸馏：模型教自己#

大模型时代的知识蒸馏#

Alpaca与指令微调的蒸馏范式#

DeepSeek-R1：推理能力的蒸馏#

思维链蒸馏的挑战#

容量差距：蒸馏的理论边界#

蒸馏与其他压缩技术的对比#

为什么蒸馏有效：三种理论解释#

解释一：暗知识的传递#

解释二：正则化效应#

解释三：优化引导#

蒸馏的边界：什么情况下会失败#

领域迁移失效#

对抗样本敏感#

冷启动困境#

未来方向：从蒸馏到对齐#

结语#

参考文献#

更多精彩内容

知识蒸馏：为什么大模型能教小模型学会本事

神经网络剪枝为何难以落地从彩票假说到LLM稀疏化的三十年技术博弈

为什么最先进的AI依然会编造事实：从训练机制到评估陷阱的技术解密

千亿参数模型如何拆分到多张GPU上训练：从数据并行到3D并行的技术突围

为什么大模型连简单的加法都会算错？从分词陷阱到算术推理的技术困境