软标签的秘密:为什么知识蒸馏能让小模型拥有大智慧

2015年3月,Geoffrey Hinton在arXiv上发表了一篇看似不起眼的论文。标题是《Distilling the Knowledge in a Neural Network》,核心观点简洁得令人惊讶:大模型学到的"软"概率分布,比"硬"的分类标签包含更多信息。 ...

13 min · 6505 words