对比学习如何用"比较"重构神经网络的表示能力

2018年,OpenAI的研究员Alec Radford正在思考一个问题:如何让神经网络理解图像和文本之间的关系,而不需要人工标注的百万级训练数据?传统的监督学习范式需要告诉模型"这是一只猫"、“那是一辆车”,但人类学习概念的方式似乎并非如此。我们通过比较和对比来理解世界——知道什么相似,什么不同,什么属于同一类别,什么截然相反。 ...

17 min · 8021 words

Logits:神经网络输出的原始真相,从概念到实践的完整解析

当你问一个大语言模型"法国的首都是哪里?",它回答"巴黎"。这个看似简单的过程背后,模型经历了一系列复杂的计算。在最终的文字出现之前,模型首先要给出一个答案:对于词表中的每一个词,它认为这个词作为下一个输出的可能性有多大。这个"可能性"的原始形式,就是logits。 ...

13 min · 6400 words

知识蒸馏:为什么大模型能教小模型学会本事

2015年3月,Geoffrey Hinton在arXiv上发表了一篇只有9页的论文,标题是《Distilling the Knowledge in a Neural Network》。这篇论文没有提出什么新的网络架构,也没有刷新任何榜单,却彻底改变了模型部署的游戏规则。 ...

18 min · 8568 words

软标签的秘密:为什么知识蒸馏能让小模型拥有大智慧

2015年3月,Geoffrey Hinton在arXiv上发表了一篇看似不起眼的论文。标题是《Distilling the Knowledge in a Neural Network》,核心观点简洁得令人惊讶:大模型学到的"软"概率分布,比"硬"的分类标签包含更多信息。 ...

13 min · 6505 words

为什么最先进的AI依然会编造事实:从训练机制到评估陷阱的技术解密

2023年5月,纽约联邦法院审理一起看似普通的航空伤害赔偿案。原告Roberto Mata的代理律师提交了一份详尽的法律简报,引用了Zicherman v. Korean Air Lines Co.、Varghese v. China Southern Airlines Co.等多个先例。问题在于——这些案例在现实中根本不存在。 ...

10 min · 4628 words