知识蒸馏:为什么大模型能教小模型学会本事
2015年3月,Geoffrey Hinton在arXiv上发表了一篇只有9页的论文,标题是《Distilling the Knowledge in a Neural Network》。这篇论文没有提出什么新的网络架构,也没有刷新任何榜单,却彻底改变了模型部署的游戏规则。 ...
2015年3月,Geoffrey Hinton在arXiv上发表了一篇只有9页的论文,标题是《Distilling the Knowledge in a Neural Network》。这篇论文没有提出什么新的网络架构,也没有刷新任何榜单,却彻底改变了模型部署的游戏规则。 ...