深度学习 | Answer

Logit Lens：Transformer的每一层都在"想"什么

当一个大语言模型输出"巴黎是法国的首都"时，这句话并非在最后一层突然涌现。在Transformer的数十层神经网络中，每一层都在逐步构建、修正、精炼这个预测。但如何窥视这个"黑箱"内部的思考过程？ ...

Exposure Bias的数学本质：为什么误差会以二次方速度累积

引言：一个被忽视了三十年的问题 2015年，Samy Bengio和Oriol Vinyals在NIPS上发表了一篇看似平凡的论文，提出了Scheduled Sampling方法。这篇论文的开头写道：“序列预测模型在训练和推理时使用不同的输入——训练时使用真实的前序token，推理时使用模型自己的预测。这种不匹配会导致错误累积。“这个被命名为Exposure Bias的问题，此后成为了序列生成领域最常被引用、却也最容易被误解的概念之一。 ...

神经网络的优化景观：为什么非凸损失函数没有想象中可怕

2014年，Yann Dauphin和同事们在NIPS上发表了一篇引起广泛关注的论文。他们发现，在训练深度神经网络时，真正阻碍优化的不是我们一直担心的"局部最小值"，而是另一种被忽视已久的东西——鞍点。这个发现彻底改变了我们对神经网络优化的理解。 ...

归一化层的双重身份：为什么BatchNorm在训练和推理时判若两人

2017年，一个深度学习团队在部署图像分类模型时遇到了诡异的现象：模型在验证集上的准确率比训练时低了近5个百分点。他们检查了数据预处理、超参数设置、模型架构，一切看起来都正常。最后，一位细心的工程师发现了一个被忽视的细节——在验证循环中，他们忘记了调用model.eval()。 ...

RNN为什么无法记住超过二十步的信息：从梯度消失到现代序列模型的四十年技术突围

1986年，Michael I. Jordan在研究认知心理学时提出了一个革命性的想法：让神经网络拥有"记忆"。这个被称为Jordan网络的架构，首次实现了神经网络对序列数据的处理能力。四年后，Jeffrey Elman简化了这个设计，创造了现在被称为简单循环网络(SRN)的经典RNN架构。 ...

变长序列处理：大模型如何应对长短不一的输入

把三句话塞进一个batch里，会发生什么？ “我是一只猫"有4个token，“今天天气真好"也是4个，而"人工智能正在改变世界，从医疗到教育，从交通到金融"则有18个。GPU需要把它们打包成一个规整的tensor——而tensor必须是矩形的。 ...

万能逼近定理：为什么两层神经网络能逼近任意函数

一个被误解的定理在深度学习面试中，经常会出现这样一个问题：为什么神经网络需要非线性激活函数？很多人会回答"因为线性函数的组合仍然是线性的"。但这个回答虽然正确，却只触及了问题的表面。更深层次的问题是：为什么加上非线性激活函数后，神经网络就能逼近任意复杂的函数？ ...