LSTM | Answer

RNN为什么无法记住超过二十步的信息：从梯度消失到现代序列模型的四十年技术突围

1986年，Michael I. Jordan在研究认知心理学时提出了一个革命性的想法：让神经网络拥有"记忆"。这个被称为Jordan网络的架构，首次实现了神经网络对序列数据的处理能力。四年后，Jeffrey Elman简化了这个设计，创造了现在被称为简单循环网络(SRN)的经典RNN架构。 ...

LSTM长短期记忆网络：为什么这个门控机制统治了序列建模二十年

引言：序列建模的至暗时刻 1997年，当Sepp Hochreiter和Jürgen Schmidhuber在《Neural Computation》期刊上发表那篇改变深度学习历史的论文时，他们解决的是一个困扰研究者多年的根本性问题：循环神经网络（RNN）无法学习长期依赖。 ...

梯度消失与梯度爆炸：为什么深层神经网络曾经只能堆叠五层？

1986年，David Rumelhart、Geoffrey Hinton和Ronald Williams发表了那篇改变整个机器学习领域的论文——《Learning representations by back-propagating errors》。反向传播算法让多层神经网络的训练成为可能，研究者们兴奋地开始堆叠越来越多的层，期待更深的网络能学习更复杂的特征。 ...