RNN为什么无法记住超过二十步的信息:从梯度消失到现代序列模型的四十年技术突围
1986年,Michael I. Jordan在研究认知心理学时提出了一个革命性的想法:让神经网络拥有"记忆"。这个被称为Jordan网络的架构,首次实现了神经网络对序列数据的处理能力。四年后,Jeffrey Elman简化了这个设计,创造了现在被称为简单循环网络(SRN)的经典RNN架构。 ...
1986年,Michael I. Jordan在研究认知心理学时提出了一个革命性的想法:让神经网络拥有"记忆"。这个被称为Jordan网络的架构,首次实现了神经网络对序列数据的处理能力。四年后,Jeffrey Elman简化了这个设计,创造了现在被称为简单循环网络(SRN)的经典RNN架构。 ...
引言:序列建模的至暗时刻 1997年,当Sepp Hochreiter和Jürgen Schmidhuber在《Neural Computation》期刊上发表那篇改变深度学习历史的论文时,他们解决的是一个困扰研究者多年的根本性问题:循环神经网络(RNN)无法学习长期依赖。 ...
1986年,David Rumelhart、Geoffrey Hinton和Ronald Williams发表了那篇改变整个机器学习领域的论文——《Learning representations by back-propagating errors》。反向传播算法让多层神经网络的训练成为可能,研究者们兴奋地开始堆叠越来越多的层,期待更深的网络能学习更复杂的特征。 ...