迁移学习 | Answer

2015年3月，Geoffrey Hinton在arXiv上发表了一篇看似不起眼的论文。标题是《Distilling the Knowledge in a Neural Network》，核心观点简洁得令人惊讶：大模型学到的"软"概率分布，比"硬"的分类标签包含更多信息。 ...