RNN为什么无法记住超过二十步的信息：从梯度消失到现代序列模型的四十年技术突围

1986年，Michael I. Jordan在研究认知心理学时提出了一个革命性的想法：让神经网络拥有"记忆"。这个被称为Jordan网络的架构，首次实现了神经网络对序列数据的处理能力。四年后，Jeffrey Elman简化了这个设计，创造了现在被称为简单循环网络(SRN)的经典RNN架构。

然而，这个被寄予厚望的架构很快遇到了一个致命问题：当序列长度超过二十步时，网络似乎完全"忘记"了之前看到的信息。这不仅仅是工程上的挫折，而是一个深刻的数学困境——一个困扰深度学习研究者三十年的根本性障碍。

一个序列的旅程：RNN如何处理时间

在理解RNN为何失败之前，我们需要先理解它如何工作。与传统的前馈神经网络不同，RNN的核心思想是"参数共享"：用同一组权重处理序列中的每一个时间步。

考虑一个简单的序列处理任务：预测句子中的下一个词。当我们读入"The cat sat on the"时，网络需要记住"cat"这个主语，才能正确预测"mat"而不是"ate"。RNN通过一个隐藏状态$h_t$来实现这种记忆：

$$h_t = \tanh(W_{hh} h_{t-1} + W_{xh} x_t + b_h)$$

这个公式看起来简单，但每一个符号都承载着深刻的含义。$h_t$是时刻$t$的隐藏状态，它编码了"到目前为止网络看到的所有信息"。$W_{hh}$是循环权重矩阵，它决定了历史信息如何影响当前状态。$W_{xh}$将当前输入$x_t$映射到隐藏空间。tanh激活函数将输出压缩到$[-1, 1]$范围，防止数值爆炸。

关键在于第一项$W_{hh} h_{t-1}$：这是RNN区别于普通神经网络的本质。每个隐藏状态都依赖前一个隐藏状态，形成了一个完整的因果链。

graph LR
    X1[x1] --> H1[h1]
    X2[x2] --> H2[h2]
    X3[x3] --> H3[h3]
    X4[x4] --> H4[h4]
    
    H0[h0] --> H1
    H1 --> H2
    H2 --> H3
    H3 --> H4
    
    H1 --> Y1[y1]
    H2 --> Y2[y2]
    H3 --> Y3[y3]
    H4 --> Y4[y4]
    
    subgraph "时间展开的RNN"
        H0
        H1
        H2
        H3
        H4
    end

如果我们将这个递归过程在时间轴上展开，就得到了上图所示的结构。这揭示了一个关键事实：一个处理$T$步序列的RNN，本质上是一个$T$层的深度神经网络。区别在于，这$T$层共享同一组参数$W_{hh}$。

RNN的完整计算流程

让我们更详细地看看RNN在每个时间步的计算过程。下图展示了单个RNN单元的内部结构：

graph TB
    subgraph "RNN单元 @ 时刻t"
        XT[输入 xt] --> LIN1["线性变换: Wxh × xt"]
        HT1[上一隐藏状态 ht-1] --> LIN2["线性变换: Whh × ht-1"]
        
        LIN1 --> ADD["加法 + 偏置"]
        LIN2 --> ADD
        ADD --> TANH["tanh激活"]
        TANH --> HT[隐藏状态 ht]
        
        HT --> OUT["输出 yt = Why × ht"]
        HT --> NEXT["传递到下一时刻"]
    end

这里的关键观察是：每个时间步都执行相同的操作，但使用不同的输入和隐藏状态。网络需要学习如何将这些简单的操作组合成复杂的序列处理能力。

梯度的逆向旅行：BPTT算法的困境

训练神经网络需要计算损失函数对参数的梯度。对于RNN，这个过程被称为"时间反向传播"(Backpropagation Through Time, BPTT)，由Paul Werbos在1990年提出。

假设我们在序列末端计算了一个损失$L$，想要更新循环权重$W_{hh}$。因为$W_{hh}$在每一个时间步都被使用，所以梯度必须考虑它对所有时间步的影响：

$$\frac{\partial L}{\partial W_{hh}} = \sum_{t=1}^{T} \frac{\partial L}{\partial h_T} \cdot \frac{\partial h_T}{\partial h_t} \cdot \frac{\partial h_t}{\partial W_{hh}}$$

问题出在中间那项$\frac{\partial h_T}{\partial h_t}$。它告诉我们：最终隐藏状态对早期隐藏状态的敏感度如何？用链式法则展开：

$$\frac{\partial h_T}{\partial h_t} = \prod_{k=t+1}^{T} \frac{\partial h_k}{\partial h_{k-1}}$$

这是一个连乘积，包含$T-t$个雅可比矩阵。每个雅可比矩阵$\frac{\partial h_k}{\partial h_{k-1}}$描述了相邻时间步之间的梯度传递。对RNN的递归公式求导：

$$\frac{\partial h_k}{\partial h_{k-1}} = \text{diag}(\phi'(z_k)) \cdot W_{hh}$$

其中$\phi'(z_k)$是tanh的导数，$z_k$是激活前的值。$\text{diag}(\phi'(z_k))$是一个对角矩阵，对角线元素是tanh在每个维度的导数。

现在我们面临的核心问题变得清晰：要计算到达时间步$t$的梯度，我们需要将$T-t$个矩阵相乘。这个乘积的行为完全由矩阵的特征值决定。

特征值的诅咒：为什么梯度会消失

当我们将矩阵连乘时，结果矩阵的范数会呈现指数增长或衰减，取决于矩阵的谱半径——即最大特征值的绝对值。

设$W_{hh}$的谱半径为$\rho$。如果我们暂时忽略tanh导数的影响，经过$k$步的矩阵乘法后：

$$\|W_{hh}^k\| \approx \rho^k$$

这意味着：

当$\rho < 1$时，梯度按$\rho^k$指数衰减
当$\rho > 1$时，梯度按$\rho^k$指数增长
当$\rho = 1$时，梯度可能保持稳定

但在RNN中，情况更加复杂。tanh的导数$\phi'(x) = 1 - \tanh^2(x)$总是介于0和1之间。当隐藏状态接近饱和（接近$\pm 1$）时，导数趋近于0。即使隐藏状态处于非饱和区，典型的导数值也只有0.5左右。

实际上，每一步的梯度传递因子大约是：

$$\gamma = \bar{\phi'} \cdot \rho$$

其中$\bar{\phi'}$是平均tanh导数。假设$\bar{\phi'} \approx 0.5$，$\rho \approx 0.9$，则$\gamma \approx 0.45$。

经过$k$步后，梯度衰减因子为$\gamma^k$。当$k = 10$时，$\gamma^{10} \approx 3.4 \times 10^{-4}$。当$k = 20$时，$\gamma^{20} \approx 1.2 \times 10^{-7}$。

这就是问题的本质：梯度以指数速度衰减。经过二十步，梯度已经衰减到原来的一千万分之一。这意味着早期时间步的权重几乎无法得到有效更新。

下图直观展示了梯度随时间步衰减的过程：

graph TB
    subgraph "梯度在时间上的衰减过程"
        L["损失 L"] --> G4["梯度 @ t=4<br/>范数: 1.0"]
        G4 --> M4["× diagφ'× Whh<br/>衰减因子: 0.45"]
        M4 --> G3["梯度 @ t=3<br/>范数: 0.45"]
        G3 --> M3["× diagφ'× Whh<br/>衰减因子: 0.45"]
        M3 --> G2["梯度 @ t=2<br/>范数: 0.20"]
        G2 --> M2["× diagφ'× Whh<br/>衰减因子: 0.45"]
        M2 --> G1["梯度 @ t=1<br/>范数: 0.09"]
        G1 --> M1["× diagφ'× Whh<br/>衰减因子: 0.45"]
        M1 --> G0["梯度 @ t=0<br/>范数: 0.04"]
    end
    
    style L fill:#ff6b6b
    style G4 fill:#ffd93d
    style G3 fill:#ffd93d
    style G2 fill:#feca57
    style G1 fill:#ff9f43
    style G0 fill:#ee5a24

可以看到，仅仅经过5个时间步，梯度范数就从1.0衰减到了0.04，衰减了25倍。对于更长的序列，这种衰减会更加严重。

历史的回声：Hochreiter的开创性发现

1991年，年仅25岁的Sepp Hochreiter在德国慕尼黑技术大学完成了他的毕业论文。在这篇后来成为经典的论文中，他首次系统地分析了梯度消失问题。

Hochreiter的洞察是：这不仅仅是数值不稳定的问题，而是RNN架构本身的内在属性。无论你如何调整学习率、初始化权重或选择激活函数，都无法从根本上解决这个问题。

他在论文中证明：对于任何使用梯度下降训练的RNN，学习长程依赖的时间复杂度随着依赖距离指数增长。换句话说，要让RNN学会跨越$k$步的依赖关系，需要的训练样本数量和迭代次数是$O(e^k)$量级。

这篇论文的深远影响在于：它不是在抱怨某个特定实现的缺陷，而是在说——在当前的架构范式下，这个问题是无法避免的。唯一的出路是改变架构本身。

三年后，Yoshua Bengio、Patrice Simard和Paolo Frasconi在IEEE Transactions on Neural Networks上发表了另一篇里程碑论文"Learning Long-Term Dependencies with Gradient Descent is Difficult"。他们用更严格的数学证明了类似结论，并指出：即使在理论上RNN能够建模任意长度的依赖，在实际训练中，这些依赖几乎不可能被有效学习。

非对称的困境：消失与爆炸

梯度消失和梯度爆炸看起来是对称的问题，但实际上它们有着本质的不同。

梯度爆炸可以通过一个简单的技巧解决：梯度裁剪。当梯度范数超过某个阈值时，将其缩放回阈值：

$$g \leftarrow g \cdot \frac{\theta}{\|g\|}, \text{ if } \|g\| > \theta$$

这个技巧几乎不损失信息——梯度方向保持不变，只是幅度被限制。在实践中，梯度裁剪已经成为训练RNN的标准做法。

但梯度消失无法用类似的方法解决。一旦梯度衰减到接近零，我们无法"放大"它，因为我们不知道应该往哪个方向放大。信息已经丢失了。

这种非对称性揭示了一个深刻的事实：梯度消失才是真正的根本问题。解决它需要重新思考网络架构，而不是简单地调整训练技巧。

门控的智慧：LSTM如何突破困境

1997年，Hochreiter和他的导师Jürgen Schmidhuber提出了长短期记忆网络(Long Short-Term Memory, LSTM)。这个架构直接回应了梯度消失问题，其核心创新是"常数误差转盘"(Constant Error Carousel, CEC)。

LSTM引入了一个独立的细胞状态$c_t$，它以加法而非乘法方式更新：

$$c_t = f_t \odot c_{t-1} + i_t \odot \tilde{c}_t$$

其中$f_t$是遗忘门，$i_t$是输入门，$\tilde{c}_t$是候选细胞状态，$\odot$表示逐元素乘法。

关键在于第一项$f_t \odot c_{t-1}$。当我们将这个更新展开$k$步时：

$$\frac{\partial c_t}{\partial c_{t-k}} = \prod_{j=t-k+1}^{t} f_j$$

这是逐元素的乘积，而不是矩阵乘法。更重要的是，遗忘门$f_j$的值由sigmoid函数产生，范围在$(0, 1)$。如果网络学会将$f_j$设置为接近1的值，梯度可以几乎无损地传递。

与标准RNN对比：

RNN的梯度传递因子是$\gamma^k \approx 0.45^k$，十步后衰减到千分之一
LSTM的梯度传递因子是$\bar{f}^k$，如果$\bar{f} \approx 0.99$，十步后仍保留约90%的梯度

这就是"常数误差转盘"的含义：当遗忘门接近1时，误差（梯度）像坐在转盘上一样，在时间维度上循环流动，几乎不衰减。

graph LR
    subgraph "LSTM Cell"
        CT1[ct-1] --> MUL1["× ft"]
        MUL1 --> ADD["+"]
        IT[it] --> MUL2["× "]
        CTILDE["c̃t"] --> MUL2
        MUL2 --> ADD
        ADD --> CT[ct]
        CT --> HT["ht = ot × tanhct"]
    end
    
    FT["ft = σWf·ht-1, xt + bf"] --> MUL1
    IT --> MUL2
    
    subgraph "梯度流"
        direction TB
        G1["∂L/∂ct"] --> G2["∂L/∂ct-1 = ft × ∂L/∂ct"]
    end

LSTM的梯度流如上图所示。注意那条从$c_{t-1}$直接到$c_t$的路径——这是梯度高速公路。只要遗忘门$f_t$学习到接近1的值，梯度就可以畅通无阻地流过这条路径。

LSTM完整架构解析

LSTM的完整结构比上面的简化图更复杂。下图展示了LSTM单元的所有组件：

graph TB
    subgraph "LSTM单元完整结构"
        HT1["上一隐藏状态 ht-1"] --> CONC["拼接"]
        XT["当前输入 xt"] --> CONC
        CONC --> FT["遗忘门 ft = σWf·ht-1,xt + bf"]
        CONC --> IT["输入门 it = σWi·ht-1,xt + bi"]
        CONC --> OT["输出门 ot = σWo·ht-1,xt + bo"]
        CONC -> CTILDE["候选状态 c̃t = tanhWc·ht-1,xt + bc"]
        
        FT --> MUL1["×"]
        CT1["上一细胞状态 ct-1"] --> MUL1
        MUL1 --> ADD["+"]
        
        IT --> MUL2["×"]
        CTILDE --> MUL2
        MUL2 --> ADD
        
        ADD --> CT["细胞状态 ct"]
        CT --> TANH["tanh"]
        OT --> MUL3["×"]
        TANH --> MUL3
        MUL3 --> HT["隐藏状态 ht"]
    end
    
    style FT fill:#ff6b6b
    style IT fill:#4ecdc4
    style OT fill:#45b7d1
    style CT fill:#96ceb4

三个门各有其职责：

遗忘门：决定从细胞状态中丢弃什么信息
输入门：决定什么新信息将被存储
输出门：决定基于细胞状态输出什么值

简化的智慧：GRU的设计哲学

2014年，Kyunghyun Cho等人在提出了门控循环单元(GRU)，作为LSTM的简化版本。GRU只有两个门（重置门和更新门），参数量更少：

$$z_t = \sigma(W_z \cdot [h_{t-1}, x_t])$$

$$r_t = \sigma(W_r \cdot [h_{t-1}, x_t])$$

$$\tilde{h}_t = \tanh(W \cdot [r_t \odot h_{t-1}, x_t])$$

$$h_t = (1 - z_t) \odot h_{t-1} + z_t \odot \tilde{h}_t$$

注意最后一行：隐藏状态的更新是前一个隐藏状态和候选状态的加权平均。当更新门$z_t$接近0时，隐藏状态几乎不变，梯度得以保留。

graph TB
    subgraph "GRU单元结构"
        HT1["上一隐藏状态 ht-1"] --> CONC["拼接"]
        XT["当前输入 xt"] --> CONC
        
        CONC --> ZT["更新门 zt = σWz·ht-1,xt"]
        CONC --> RT["重置门 rt = σWr·ht-1,xt"]
        
        RT --> MUL1["×"]
        HT1 --> MUL1
        MUL1 --> CONCAT["拼接"]
        XT --> CONCAT
        CONCAT --> HTILDE["候选状态 h̃t = tanhWh·rt⊙ht-1,xt"]
        
        ZT --> SUB["1 - zt"]
        SUB --> MUL2["×"]
        HT1 --> MUL2
        
        ZT --> MUL3["×"]
        HTILDE --> MUL3
        
        MUL2 --> ADD["+"]
        MUL3 --> ADD
        ADD --> HT["隐藏状态 ht"]
    end
    
    style ZT fill:#ff6b6b
    style RT fill:#4ecdc4

GRU和LSTM的选择取决于具体任务。研究表明：

对于数据量较小、计算资源有限的场景，GRU通常表现更好
对于需要建模复杂长程依赖的大规模任务，LSTM可能更优
在大多数序列任务上，两者性能相近

序列处理的范式革命：为什么Transformer取代了RNN

尽管LSTM和GRU部分解决了梯度消失问题，但它们仍然有一个根本性的局限：序列计算必须按顺序进行。

在RNN中，$h_t$依赖$h_{t-1}$，$h_{t-1}$依赖$h_{t-2}$，以此类推。这意味着我们无法并行计算所有时间步的隐藏状态。对于长度为$T$的序列，RNN的时间复杂度是$O(T)$，且无法通过增加硬件来加速。

2017年，“Attention is All You Need"论文提出了Transformer架构，彻底改变了这个局面。Transformer的核心创新是自注意力机制：

$$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$

与RNN的顺序处理不同，自注意力允许每个位置直接"看到"所有其他位置。这意味着：

所有位置可以并行计算
任意两个位置之间的距离恒为1（通过注意力权重直接连接）
梯度可以直接从任何位置流向任何其他位置

graph TB
    subgraph "RNN: 顺序处理 O(T)"
        direction LR
        X1["x1"] --> H1["h1"]
        H1 --> H2["h2"]
        H2 --> H3["h3"]
        H3 --> H4["h4"]
        X2["x2"] --> H2
        X3["x3"] --> H3
        X4["x4"] --> H4
        style H1 fill:#ffd93d
        style H2 fill:#feca57
        style H3 fill:#ff9f43
        style H4 fill:#ee5a24
    end
    
    subgraph "Transformer: 并行处理 O(1) depth"
        direction TB
        X1T["x1"] --> ATT["自注意力<br/>并行计算所有位置"]
        X2T["x2"] --> ATT
        X3T["x3"] --> ATT
        X4T["x4"] --> ATT
        ATT --> O1["y1"]
        ATT --> O2["y2"]
        ATT --> O3["y3"]
        ATT --> O4["y4"]
        style ATT fill:#4ecdc4
    end

上图对比了两种架构的处理方式。在RNN中，信息必须沿着时间轴一步一步传递；在Transformer中，所有位置同时参与注意力计算。

然而，Transformer也付出了代价：自注意力的空间复杂度是$O(T^2)$，因为需要计算所有位置对之间的注意力分数。这使得Transformer在处理超长序列时面临内存瓶颈。

RNN的复兴：现代状态空间模型

有趣的是，在Transformer统治序列建模几年后，RNN的思想正在以新的形式回归。

2023年，Albert Gu和Tri Dao提出了Mamba架构，基于选择性状态空间模型。Mamba结合了RNN的线性复杂度和Transformer的长程建模能力：

$$h_t = \bar{A}_t h_{t-1} + \bar{B}_t x_t$$

$$y_t = C_t h_t$$

其中$\bar{A}_t$、$\bar{B}_t$、$C_t$是依赖于输入的可学习参数。这种设计允许模型根据当前输入动态调整状态转换——选择性记忆。

2024年，Sepp Hochreiter的团队提出了xLSTM，将原始LSTM扩展到大规模场景。xLSTM引入了指数门控和矩阵记忆，使其能够与Transformer竞争。

graph LR
    subgraph "序列模型演进史"
        RNN["RNN 1986<br/>顺序处理<br/>梯度消失"]
        LSTM["LSTM 1997<br/>门控机制<br/>解决梯度消失"]
        GRU["GRU 2014<br/>简化门控<br/>更少参数"]
        TRF["Transformer 2017<br/>自注意力<br/>并行训练"]
        MAMBA["Mamba 2023<br/>选择性状态<br/>线性复杂度"]
        
        RNN --> LSTM
        LSTM --> GRU
        RNN -.->|"复兴"| MAMBA
        TRF -.->|"启发"| MAMBA
    end
    
    style RNN fill:#ff6b6b
    style LSTM fill:#4ecdc4
    style GRU fill:#45b7d1
    style TRF fill:#96ceb4
    style MAMBA fill:#ff9f43

这些现代架构揭示了一个重要趋势：RNN的问题不在于"循环"本身，而在于梯度的传递方式。一旦我们找到了保证梯度稳定流动的方法，循环架构的效率优势就会重新显现。

实践指南：何时选择RNN

尽管Transformer在大多数NLP任务上占据主导地位，RNN仍有其适用场景：

实时流处理：当数据以流的形式到达，无法获取完整序列时，RNN的在线处理能力变得至关重要。语音识别、实时翻译等场景需要在收到每个输入时立即产生输出，这正是RNN的设计初衷。

内存受限环境：RNN的内存占用与序列长度线性相关，而Transformer是平方相关。在嵌入式设备、移动端部署时，RNN可能是唯一可行的选择。

超长序列处理：当序列长度达到十万或百万级别时，Transformer的$O(T^2)$内存占用变得不可接受。Mamba等现代RNN变体在这种情况下具有明显优势。

因果性要求：在需要严格遵守因果关系的场景（如时间序列预测），RNN天生只能看到历史信息，避免了未来信息泄露的问题。

训练RNN的实用技巧

如果你决定使用RNN，以下技巧可以帮助缓解梯度问题：

梯度裁剪：将梯度范数限制在合理范围（通常1-5），防止梯度爆炸。这是训练RNN的必备技巧：

torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)

权重初始化：使用正交初始化可以让初始权重矩阵的特征值都为1，避免早期的梯度衰减：

for name, param in model.named_parameters():
    if 'weight_hh' in name:
        torch.nn.init.orthogonal_(param)

遗忘门偏置初始化：对于LSTM，将遗忘门偏置初始化为正值（如1.0），使初始遗忘门接近1：

# LSTM的遗忘门偏置是bias_ih和bias_hh对应位置的第二个分段
model.lstm.bias_ih_l0.data[hidden_size:2*hidden_size].fill_(1.0)
model.lstm.bias_hh_l0.data[hidden_size:2*hidden_size].fill_(1.0)

序列截断训练：在实践中，通常使用截断BPTT，每$k$步进行一次梯度更新：

# 每隔k步进行梯度更新
for i in range(0, len(sequence), k):
    loss = compute_loss(sequence[i:i+k])
    loss.backward()
    optimizer.step()
    optimizer.zero_grad()

回望四十年：从认知科学到深度学习

RNN的故事始于1980年代的认知科学研究，经历了梯度消失的黑暗时期，在LSTM的设计中获得突破，最终被Transformer的并行范式取代，而现在又以状态空间模型的形式复兴。

这个历程揭示了一个深刻的道理：好的架构设计不是追求"完美”，而是在特定约束下找到正确的权衡。RNN选择了顺序处理以换取线性复杂度，Transformer选择了全局注意力以换取并行能力，Mamba选择了选择性状态以换取两者的平衡。

理解梯度消失问题，不仅仅是理解一个技术细节，更是理解深度学习发展的核心脉络。它告诉我们：数学上的障碍往往不是可以通过调参绕过的工程问题，而是需要重新思考基本假设的架构问题。

每当我们看到一个新的架构突破——无论是ResNet的残差连接、Transformer的自注意力，还是Mamba的选择性状态——背后都有着对梯度流动的深刻理解。RNN的困境催生了这些创新，而这些创新又反过来丰富了我们对序列建模的理解。

对于今天的学习者和实践者，RNN不仅仅是一个"过时"的架构。它是理解序列模型的基石，是掌握梯度流动的最佳教材，更是启发创新的灵感来源。当你下次设计一个处理序列数据的系统时，不妨问自己：梯度是如何在这个系统中流动的？它在哪里可能消失？在哪里可能爆炸？

这个简单的问题，可能会带你走向下一个突破。

参考文献

Hochreiter, S. (1991). Untersuchungen zu dynamischen neuronalen Netzen. Diploma thesis, TU Munich.
Bengio, Y., Simard, P., & Frasconi, P. (1994). Learning long-term dependencies with gradient descent is difficult. IEEE Transactions on Neural Networks, 5(2), 157-166.
Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural Computation, 9(8), 1735-1780.
Cho, K., et al. (2014). Learning phrase representations using RNN encoder-decoder for statistical machine translation. EMNLP 2014.
Pascanu, R., Mikolov, T., & Bengio, Y. (2013). On the difficulty of training recurrent neural networks. ICML 2013.
Vaswani, A., et al. (2017). Attention is all you need. NeurIPS 2017.
Gu, A., & Dao, T. (2023). Mamba: Linear-time sequence modeling with selective state spaces. arXiv:2312.00752.
Beck, M., et al. (2024). xLSTM: Extended Long Short-Term Memory. arXiv:2405.04517.
Werbos, P. J. (1990). Backpropagation through time: what it does and how to do it. Proceedings of the IEEE, 78(10), 1550-1560.
Zhang, J., et al. (2024). A comparative study of RNN, LSTM, GRU, and hybrid models. PMC Article 12329085.

一个序列的旅程：RNN如何处理时间#

RNN的完整计算流程#

梯度的逆向旅行：BPTT算法的困境#

特征值的诅咒：为什么梯度会消失#

历史的回声：Hochreiter的开创性发现#

非对称的困境：消失与爆炸#

门控的智慧：LSTM如何突破困境#

LSTM完整架构解析#

简化的智慧：GRU的设计哲学#

序列处理的范式革命：为什么Transformer取代了RNN#

RNN的复兴：现代状态空间模型#

实践指南：何时选择RNN#

训练RNN的实用技巧#

回望四十年：从认知科学到深度学习#

参考文献#

更多精彩内容

LSTM长短期记忆网络：为什么这个门控机制统治了序列建模二十年

梯度消失与梯度爆炸：为什么深层神经网络曾经只能堆叠五层？

万能逼近定理：为什么两层神经网络能逼近任意函数

Logits：神经网络输出的原始真相，从概念到实践的完整解析

自动微分与反向传播为什么这个六十岁的算法是深度学习的基石