Logit Lens:Transformer的每一层都在"想"什么
当一个大语言模型输出"巴黎是法国的首都"时,这句话并非在最后一层突然涌现。在Transformer的数十层神经网络中,每一层都在逐步构建、修正、精炼这个预测。但如何窥视这个"黑箱"内部的思考过程? ...
当一个大语言模型输出"巴黎是法国的首都"时,这句话并非在最后一层突然涌现。在Transformer的数十层神经网络中,每一层都在逐步构建、修正、精炼这个预测。但如何窥视这个"黑箱"内部的思考过程? ...
引言:一个被忽视了三十年的问题 2015年,Samy Bengio和Oriol Vinyals在NIPS上发表了一篇看似平凡的论文,提出了Scheduled Sampling方法。这篇论文的开头写道:“序列预测模型在训练和推理时使用不同的输入——训练时使用真实的前序token,推理时使用模型自己的预测。这种不匹配会导致错误累积。“这个被命名为Exposure Bias的问题,此后成为了序列生成领域最常被引用、却也最容易被误解的概念之一。 ...
2014年,Yann Dauphin和同事们在NIPS上发表了一篇引起广泛关注的论文。他们发现,在训练深度神经网络时,真正阻碍优化的不是我们一直担心的"局部最小值",而是另一种被忽视已久的东西——鞍点。这个发现彻底改变了我们对神经网络优化的理解。 ...
2017年,一个深度学习团队在部署图像分类模型时遇到了诡异的现象:模型在验证集上的准确率比训练时低了近5个百分点。他们检查了数据预处理、超参数设置、模型架构,一切看起来都正常。最后,一位细心的工程师发现了一个被忽视的细节——在验证循环中,他们忘记了调用model.eval()。 ...
1986年,Michael I. Jordan在研究认知心理学时提出了一个革命性的想法:让神经网络拥有"记忆"。这个被称为Jordan网络的架构,首次实现了神经网络对序列数据的处理能力。四年后,Jeffrey Elman简化了这个设计,创造了现在被称为简单循环网络(SRN)的经典RNN架构。 ...
把三句话塞进一个batch里,会发生什么? “我是一只猫"有4个token,“今天天气真好"也是4个,而"人工智能正在改变世界,从医疗到教育,从交通到金融"则有18个。GPU需要把它们打包成一个规整的tensor——而tensor必须是矩形的。 ...
一个被误解的定理 在深度学习面试中,经常会出现这样一个问题:为什么神经网络需要非线性激活函数? 很多人会回答"因为线性函数的组合仍然是线性的"。但这个回答虽然正确,却只触及了问题的表面。更深层次的问题是:为什么加上非线性激活函数后,神经网络就能逼近任意复杂的函数? ...