RNN为什么无法记住超过二十步的信息:从梯度消失到现代序列模型的四十年技术突围

1986年,Michael I. Jordan在研究认知心理学时提出了一个革命性的想法:让神经网络拥有"记忆"。这个被称为Jordan网络的架构,首次实现了神经网络对序列数据的处理能力。四年后,Jeffrey Elman简化了这个设计,创造了现在被称为简单循环网络(SRN)的经典RNN架构。 ...

17 min · 8206 words