一个被误解的定理

在深度学习面试中,经常会出现这样一个问题:为什么神经网络需要非线性激活函数? 很多人会回答"因为线性函数的组合仍然是线性的"。但这个回答虽然正确,却只触及了问题的表面。更深层次的问题是:为什么加上非线性激活函数后,神经网络就能逼近任意复杂的函数?

这个问题的答案指向了神经网络理论中最著名的定理之一——万能逼近定理(Universal Approximation Theorem)。然而,这个定理在深度学习社区中常被误解甚至滥用。有人用它来证明"神经网络可以解决任何问题",有人则认为它只是一个存在性证明,对实践毫无指导意义。

真相介于两者之间。万能逼近定理确实告诉我们,理论上一个两层的神经网络就足以逼近任何连续函数,但它同时揭示了一个更深刻的问题:如果两层网络理论上已经足够,为什么我们还需要几十层甚至上百层的深度网络?

定理的核心陈述

万能逼近定理的严格数学表述最早由George Cybenko在1989年证明,随后Kurt Hornik等人在1991年给出了更一般化的版本。Cybenko的原始定理可以表述为:

定理(Cybenko 1989): 设 $\sigma: \mathbb{R} \to \mathbb{R}$ 是一个非常数、有界、连续的函数(称为sigmoidal函数)。定义函数类:

$$\Sigma_n(\sigma) = \left\{ g: \mathbb{R}^n \to \mathbb{R} \mid g(x) = \sum_{j=1}^N \alpha_j \sigma(w_j^T x + b_j), N \in \mathbb{N}, \alpha_j, b_j \in \mathbb{R}, w_j \in \mathbb{R}^n \right\}$$

则 $\Sigma_n(\sigma)$ 在 $C([0,1]^n)$ 空间中稠密,即对于任意 $f \in C([0,1]^n)$ 和任意 $\epsilon > 0$,存在 $g \in \Sigma_n(\sigma)$ 使得:

$$\sup_{x \in [0,1]^n} |g(x) - f(x)| < \epsilon$$

用更通俗的话说:一个包含单个隐藏层的前馈神经网络,只要隐藏层有足够多的神经元,并且使用适当的非线性激活函数,就能够以任意精度逼近任何定义在紧集上的连续函数。

graph LR
    A[输入层 x] --> B[隐藏层<br/>足够多的神经元<br/>非线性激活函数]
    B --> C[输出层<br/>线性组合]
    C --> D[输出 f̂ x]
    
    style B fill:#e1f5fe,stroke:#01579b
    style D fill:#c8e6c9,stroke:#2e7d32

Hornik等人在1991年进一步推广了这个结果,证明了激活函数不需要满足sigmoidal的性质,只需要满足非多项式(non-polynomial)的条件即可。这解释了为什么ReLU、GELU、Swish等现代激活函数都能作为万能逼近器的激活函数。

为什么线性激活函数不行

在深入定理的证明之前,让我们先回答那个面试题:为什么线性激活函数不行?

这是一个可以用简洁数学证明的问题。假设我们有一个多层神经网络,每一层都使用线性激活函数 $\sigma(z) = z$。考虑一个两层网络:

$$h = W_1 x + b_1$$

$$y = W_2 h + b_2 = W_2(W_1 x + b_1) + b_2 = (W_2 W_1)x + (W_2 b_1 + b_2)$$

令 $W' = W_2 W_1$,$b' = W_2 b_1 + b_2$,则:

$$y = W'x + b'$$

这正是单层线性网络的形式!这个结论可以推广到任意层数:任何深度的纯线性网络都等价于单层线性网络。

从线性代数的角度看,这是因为线性变换的组合仍然是线性变换。具体来说,设 $L_1, L_2, \ldots, L_n$ 是一组线性变换,它们的复合 $L_n \circ L_{n-1} \circ \cdots \circ L_1$ 仍然是一个线性变换。

这意味着,如果没有非线性激活函数,无论网络有多深,它都只能表示线性函数。在函数空间中,所有线性函数构成的子空间相对于整个连续函数空间是"稀疏"的——大多数我们关心的函数(如分类边界、语言模型中的概率分布)都不是线性的。

flowchart TB
    subgraph Linear["线性激活函数网络"]
        L1[Layer 1: W₁x + b₁]
        L2[Layer 2: W₂h + b₂]
        L3[Layer n: Wₙh + bₙ]
        L1 --> L2 --> L3
        L3 --> LEq["等价于: W'x + b'<br/>单层线性变换"]
    end
    
    subgraph NonLinear["非线性激活函数网络"]
        N1[Layer 1: σ W₁x + b₁ ]
        N2[Layer 2: σ W₂h + b₂ ]
        N3[Layer n: σ Wₙh + bₙ ]
        N1 --> N2 --> N3
        N3 --> NEq["可以表示<br/>任意复杂函数"]
    end
    
    style LEq fill:#ffcdd2,stroke:#c62828
    style NEq fill:#c8e6c9,stroke:#2e7d32

定理的证明思路

Cybenko的原始证明使用了泛函分析中的高级工具,特别是Hahn-Banach定理和Riesz表示定理。虽然完整的证明需要相当的数学背景,但其核心思想可以用相对直观的方式理解。

反证法的核心逻辑

Cybenko的证明采用反证法。假设存在某个连续函数 $f$ 不能被神经网络逼近,那么根据泛函分析的工具,可以构造一个有界线性泛函 $L$,使得 $L(f) \neq 0$ 但对所有神经网络输出 $g$,都有 $L(g) = 0$。

关键在于证明这样的泛函不存在。根据Riesz表示定理,任何有界线性泛函 $L$ 都可以表示为某个测度 $\mu$ 的积分:

$$L(g) = \int g \, d\mu$$

如果对所有神经网络输出 $g(x) = \sum_j \alpha_j \sigma(w_j^T x + b_j)$ 都有 $L(g) = 0$,那么可以推出:

$$\int \sigma(w^T x + b) \, d\mu(x) = 0, \quad \forall w, b$$

通过对这个积分进行傅里叶变换,最终可以推出 $\mu = 0$,这意味着 $L$ 是零泛函,与 $L(f) \neq 0$ 矛盾。

直观的几何理解

虽然数学证明很抽象,但Michael Nielsen在其著作《Neural Networks and Deep Learning》中提供了一个优美的几何直观。

考虑一个使用sigmoid激活函数的神经元。当权重 $w$ 很大时,sigmoid函数 $\sigma(wx + b)$ 会趋近于一个阶跃函数,阶跃位置在 $s = -b/w$。通过调整偏置 $b$,我们可以控制阶跃发生的位置。

graph TB
    subgraph Step["构造阶跃函数"]
        S1["σ wx+b, w很大 "]
        S2["≈ 阶跃函数"]
        S3["阶跃位置 s = -b/w"]
        S1 --> S2 --> S3
    end
    
    subgraph Bump["构造凸起函数"]
        B1["两个阶跃函数相减"]
        B2["h·σ w x-s₁ - h·σ w x-s₂ "]
        B3["= 凸起函数,高度h"]
        B1 --> B2 --> B3
    end
    
    subgraph Approx["逼近任意函数"]
        A1["多个凸起函数叠加"]
        A2["Σ hᵢ · bumpᵢ x "]
        A3["≈ 任意连续函数"]
        A1 --> A2 --> A3
    end
    
    Step --> Bump --> Approx

更具体地说:

  1. 构造阶跃函数:使用一个神经元 $\sigma(1000(x - s))$,当 $x < s$ 时输出接近0,当 $x > s$ 时输出接近1。

  2. 构造凸起函数:使用两个阶跃函数相减。$h \cdot \sigma(1000(x - s_1)) - h \cdot \sigma(1000(x - s_2))$ 产生一个在 $[s_1, s_2]$ 区间内高度为 $h$ 的凸起。

  3. 逼近任意函数:将多个凸起函数叠加,可以逼近任何连续函数。这类似于用很多小矩形逼近曲线——只是这里用光滑的凸起代替矩形。

这个直观理解揭示了一个重要事实:神经网络本质上是在构造一个"可学习的查表"。每个凸起对应函数在一个小区间内的值,通过增加神经元数量(即增加凸起数量),可以无限提高逼近精度。

ReLU的万能逼近性

Cybenko原始定理要求激活函数是有界且连续的sigmoidal函数。然而,现代深度学习中最流行的激活函数ReLU(Rectified Linear Unit)定义为:

$$\text{ReLU}(x) = \max(0, x)$$

ReLU是无界的,也不是sigmoidal的。那么ReLU网络是否满足万能逼近性?

答案是肯定的。Hanin和Sellke在2017年证明了ReLU网络的万能逼近定理:

定理(Hanin-Sellke 2017): 设 $f: [0,1]^d \to \mathbb{R}$ 是任意连续函数,$\epsilon > 0$ 是任意精度。则存在一个ReLU神经网络 $g$,使得:

$$\sup_{x \in [0,1]^d} |g(x) - f(x)| < \epsilon$$

这个网络只需要两层,但宽度可能非常大。

ReLU万能逼近的直观理解是:ReLU函数可以看作两个线性函数的拼接($0$ 和 $x$)。通过组合多个ReLU,可以构造出分段线性函数。而分段线性函数可以逼近任何连续函数——这与我们在微积分中学到的"用折线逼近曲线"的思想一致。

graph LR
    subgraph ReLU["ReLU激活函数"]
        R1["ReLU x = max 0,x "]
        R2["分段线性函数"]
        R1 --> R2
    end
    
    subgraph Compose["组合ReLU"]
        C1["多个ReLU叠加"]
        C2["更复杂的分段线性函数"]
        C1 --> C2
    end
    
    subgraph Approx["逼近能力"]
        A1["足够多的分段"]
        A2["逼近任意连续函数"]
        A1 --> A2
    end
    
    ReLU --> Compose --> Approx
    
    style R2 fill:#e3f2fd,stroke:#1565c0
    style C2 fill:#e8f5e9,stroke:#2e7d32
    style A2 fill:#fff3e0,stroke:#ef6c00

值得注意的是,虽然ReLU网络的万能逼近定理成立,但所需的网络宽度可能非常大。一篇发表在Neural Computation上的研究表明,用ReLU网络逼近某些函数需要的神经元数量可能比使用sigmoid网络更多。这提醒我们:万能逼近性只是"理论上能做",不意味着"实践中高效"。

定理的局限性

万能逼近定理在深度学习理论中占据重要地位,但它有几个关键的局限性,这些局限性常常被忽视或误解。

存在性而非构造性

这是万能逼近定理最大的局限:它只证明了存在这样的神经网络,但完全没有告诉我们如何找到这个网络。

具体来说,定理告诉我们存在一组权重 $\{w_j, b_j, \alpha_j\}$ 使得网络能逼近目标函数 $f$,但:

  • 它没有提供任何算法来找到这些权重
  • 它没有说明需要多少个神经元
  • 它没有保证梯度下降或其他优化算法能找到这组权重

这就像告诉你在森林某处埋着宝藏,但不给你地图。知道宝藏存在是有价值的,但这并不能帮助你找到它。

从实际训练的角度,神经网络的参数空间是非凸的,存在大量局部极小值。即使理论上存在一组完美逼近目标函数的参数,优化算法也可能陷入次优解。

维数灾难

万能逼近定理的另一个严重局限是维数灾难(Curse of Dimensionality)

考虑逼近定义在 $d$ 维空间上的函数。如果我们用"凸起"方法来逼近,每个凸起覆盖输入空间的一小块区域。要覆盖整个输入空间 $[0,1]^d$ 达到精度 $\epsilon$,需要的凸起数量大约是 $O(\epsilon^{-d})$。

这意味着,当输入维度 $d$ 增加时,所需的神经元数量呈指数增长。例如,如果 $\epsilon = 0.1$:

  • 当 $d = 1$ 时,需要约 $10$ 个神经元
  • 当 $d = 10$ 时,需要约 $10^{10}$ 个神经元
  • 当 $d = 100$ 时,需要约 $10^{100}$ 个神经元

这就是为什么传统方法在处理高维数据时困难重重。图像分类任务中,输入维度可能是 $224 \times 224 \times 3 = 150,528$,按照这个估计,需要的神经元数量是不可想象的。

graph LR
    A[输入维度 d] --> B{神经元需求}
    B -->|d=1| C[约 10 个神经元]
    B -->|d=10| D[约 10¹⁰ 个神经元]
    B -->|d=100| E[约 10¹⁰⁰ 个神经元]
    B -->|d=1000+| F[天文数字<br/>完全不可行]
    
    style C fill:#c8e6c9,stroke:#2e7d32
    style D fill:#fff9c4,stroke:#f9a825
    style E fill:#ffccbc,stroke:#e64a19
    style F fill:#ffcdd2,stroke:#c62828

对连续性的要求

万能逼近定理只对连续函数成立。对于不连续函数,比如阶跃函数(虽然可以通过连续函数很好地逼近),定理不保证能够用神经网络精确表示。

好在实践中,我们遇到的大多数目标函数要么是连续的,要么可以用连续函数很好地逼近。这个限制在实际应用中影响较小。

为什么还需要深层网络

既然万能逼近定理告诉我们两层网络理论上已经足够,为什么现代深度学习要使用几十层甚至上百层的网络?这个问题的答案揭示了深度学习的核心洞见。

Telgarsky定理:深度的指数优势

Matus Telgarsky在2016年证明了一个深刻的结果,表明在某些情况下,深层网络比浅层网络有指数级的优势

定理(Telgarsky 2016): 存在一类函数,可以用深度为 $O(k)$ 的多项式宽度网络精确表示,但如果用深度为 $O(\sqrt{k})$ 的网络来逼近,则需要指数级宽度($\Omega(2^k)$ 个神经元)。

具体来说,Telgarsky构造了一个特殊的"锯齿"函数,可以通过深层网络高效表示,但对于浅层网络则需要极宽才能逼近。这个函数本质上是通过对某个简单函数的反复组合得到的。

这个定理告诉我们:深度的价值不在于增加表达能力(浅层网络已经足够),而在于提高参数效率。 深层网络可以用更少的参数表示同样的函数。

graph TB
    subgraph Shallow["浅层网络"]
        S1["深度: O √k "]
        S2["宽度: Ω 2ᵏ 个神经元"]
        S3["总参数: 指数级"]
        S1 --> S2 --> S3
    end
    
    subgraph Deep["深层网络"]
        D1["深度: O k "]
        D2["宽度: 多项式级"]
        D3["总参数: 多项式级"]
        D1 --> D2 --> D3
    end
    
    Target["目标函数"] --> Shallow
    Target --> Deep
    
    style S3 fill:#ffcdd2,stroke:#c62828
    style D3 fill:#c8e6c9,stroke:#2e7d32

层次化表示与组合性函数

深层网络之所以高效,与目标函数的结构密切相关。现实中许多有趣的问题具有**组合性(compositionality)**结构——函数可以表示为更简单函数的复合。

例如,图像识别可以分解为:

$$\text{图像} \to \text{边缘} \to \text{纹理} \to \text{部件} \to \text{物体} \to \text{场景}$$

这种层次化结构与深层网络的结构天然契合。每一层可以学习表示一个层次的抽象:

  • 第一层学习边缘检测
  • 第二层学习纹理模式
  • 第三层学习部件识别
  • 以此类推

如果用浅层网络来表示同样的函数,网络需要"一次性"学习所有层次的抽象,这大大增加了学习难度和所需参数量。

2025年发表在ICLR上的一篇论文从理论上证明了:深层网络可以高效学习具有组合结构且满足一定平滑性条件的函数,而浅层网络在这些情况下会遇到维数灾难。

深度网络如何克服维数灾难

前面提到,浅层网络逼近高维函数会遇到维数灾难。深层网络如何克服这个问题?

关键洞见是:许多高维函数实际上具有低维有效结构。

考虑一个典型的图像:虽然像素维度可能很高(比如 $1000 \times 1000$),但图像的实际内容往往位于一个低维流形上。所有可能的"猫的图片"虽然分布在百万维空间中,但它们构成的集合可能是低维的。

深层网络通过层次化表示,逐步提取这些低维结构。每一层的变换都可能在降低数据的有效维度。这使得深层网络能够避开维数灾难,高效地学习和表示高维函数。

从数学角度,研究发现当目标函数具有组合结构 $f = f_L \circ f_{L-1} \circ \cdots \circ f_1$,且每个 $f_i$ 满足一定的平滑性条件时,深层网络可以用多项式数量的参数逼近 $f$,而浅层网络需要指数数量的参数。

实践启示

万能逼近定理虽然是一个理论结果,但它对深度学习实践有重要的指导意义。

对网络设计的启示

  1. 激活函数的选择:根据定理,任何非多项式函数理论上都可以作为激活函数。但实践中,选择还要考虑训练效率、梯度传播等因素。ReLU及其变体(GELU、Swish)在现代网络中占据主导地位,原因包括计算效率高、缓解梯度消失等。

  2. 网络深度的选择:虽然万能逼近定理表明两层网络理论上足够,但考虑到参数效率和实际可训练性,深层网络是更实用的选择。具体深度需要根据任务的复杂度、数据规模、计算资源等因素综合考虑。

  3. 网络宽度的选择:理论上,越宽的网络逼近能力越强。但过宽的网络会增加训练难度和过拟合风险。现代实践倾向于使用较深但不太宽的网络架构。

对理解大模型的启示

大型语言模型(如GPT、LLaMA)的成功可以从万能逼近定理的角度来理解:

  • 这些模型本质上是学习一个极其复杂的函数(从文本到文本的映射)
  • 模型的巨大参数量(数百亿甚至数千亿)提供了逼近这个复杂函数所需的"神经元"
  • Transformer架构中的多头注意力、前馈网络等组件提供了丰富的非线性变换能力

但同时也要认识到,万能逼近只告诉我们表示能力的问题,大模型的成功还依赖于:

  • 大规模训练数据提供的信息
  • 高效的优化算法(如Adam、AdamW)
  • 合理的架构设计(如注意力机制、残差连接)
  • 分布式训练技术

常见的误解

万能逼近定理在深度学习社区中常被误解。以下是一些常见的错误观点:

误解一: “万能逼近定理证明神经网络可以解决任何问题。”

纠正: 定理只说明神经网络可以逼近任何连续函数。但实际问题的目标函数可能不连续,而且逼近只是机器学习的一部分——泛化能力、训练效率同样重要。

误解二: “既然两层网络理论上足够,深层网络是过度设计。”

纠正: 理论上的存在性不等于实际可行性。深层网络在参数效率、训练稳定性、实际性能等方面都有显著优势。

误解三: “万能逼近定理让神经网络成为"万能"工具。”

纠正: 定理的"万能"只是指函数逼近能力。在实际应用中,数据质量、任务定义、评估标准等都是决定成功的关键因素。神经网络的强大逼近能力是必要条件,但不是充分条件。

总结

万能逼近定理是深度学习理论的基石之一。它告诉我们,带有适当非线性激活函数的两层神经网络,理论上可以逼近任何连续函数。这个定理解释了为什么非线性激活函数是必需的——线性激活函数会将任何深度的网络坍缩成单层。

然而,定理的价值远不止于回答面试题。它深刻地揭示了深度学习中一个看似矛盾的现象:如果浅层网络已经足够强大,为什么我们需要深层网络? 答案在于效率——深层网络可以用远少于浅层网络的参数来表示复杂的组合性函数,这种效率对于实际可训练性和泛化能力至关重要。

从Cybenko 1989年的原始证明到Telgarsky 2016年的深度优势定理,再到最新的维数灾难突破研究,万能逼近定理的演变反映了我们对神经网络理解的深化。它不再只是一个存在性定理,而是成为了理解网络架构设计、分析模型能力边界的重要工具。

对于深度学习实践者,万能逼近定理的启示是明确的:不要满足于知道"神经网络能做什么",更要深入理解"神经网络如何高效地做到"。这种从存在性到构造性的思维方式转变,正是理论指导实践的核心价值所在。


参考文献

  1. Cybenko, G. (1989). Approximation by superpositions of a sigmoidal function. Mathematics of Control, Signals and Systems, 2(4), 303-314.

  2. Hornik, K., Stinchcombe, M., & White, H. (1989). Multilayer feedforward networks are universal approximators. Neural Networks, 2(5), 359-366.

  3. Hornik, K. (1991). Approximation capabilities of multilayer feedforward networks. Neural Networks, 4(2), 251-257.

  4. Telgarsky, M. (2016). Benefits of depth in neural networks. Conference on Learning Theory (COLT), 1517-1539.

  5. Hanin, B., & Sellke, M. (2017). Approximating continuous functions by ReLU nets of minimal width. arXiv preprint arXiv:1710.11278.

  6. Nielsen, M. A. (2015). Neural Networks and Deep Learning. Determination Press. Chapter 4: A visual proof that neural nets can compute any function.

  7. Yarotsky, D. (2017). Error bounds for approximations with deep ReLU networks. Neural Networks, 94, 103-114.

  8. Petersen, P., & Voigtlaender, F. (2018). Optimal approximation of piecewise smooth functions using deep ReLU networks. Neural Networks, 108, 296-330.

  9. Liang, S., & Srikant, R. (2017). Why deep neural networks for function approximation? ICLR 2017.

  10. Eldan, R., & Shamir, O. (2016). The power of depth for feedforward neural networks. Conference on Learning Theory, 907-940.

  11. Safran, I., & Shamir, O. (2017). Depth-width tradeoffs in approximating functions with ReLU networks. ICML 2017, 281-290.

  12. Bengio, Y., & Delalleau, O. (2011). On the expressive power of deep architectures. Algorithmic Learning Theory, 18-36.

  13. Mhaskar, H. N., & Micchelli, C. A. (1992). Approximation by superposition of sigmoidal and radial basis functions. Advances in Applied Mathematics, 13(3), 350-373.

  14. Barron, A. R. (1993). Universal approximation bounds for superpositions of a sigmoidal function. IEEE Transactions on Information Theory, 39(3), 930-945.

  15. Pinkus, A. (1999). Approximation theory of the MLP model in neural networks. Acta Numerica, 8, 143-195.

  16. Lu, Z., Pu, H., Wang, F., Hu, Z., & Wang, L. (2017). The expressive power of neural networks: A view from the width. NeurIPS 2017.

  17. Hanin, B. (2019). Universal function approximation by deep neural nets with bounded width and ReLU activations. Mathematics, 7(10), 992.

  18. Kidger, P., & Lyons, T. (2020). Universal approximation with deep narrow networks. Conference on Learning Theory, 2306-2327.

  19. Park, S., Yun, C., Lee, J., & Shin, J. (2021). Minimum width for universal approximation. ICLR 2021.

  20. Shen, Z., Yang, H., & Zhang, S. (2021). Neural network approximation: Three hidden layers are enough. Neural Networks, 141, 160-173.

  21. Cai, Y. (2019). Achieve the minimum width of neural networks for universal approximation. ICLR 2019 Workshop on Deep Learning Theory.

  22. Johnson, J. (2019). Deep, skinny neural networks are not universal approximators. ICLR 2019.

  23. Delalleau, O., & Bengio, Y. (2011). Shallow vs. deep sum-product networks. NeurIPS 2011, 666-674.

  24. Montufar, G. F., Pascanu, R., Cho, K., & Bengio, Y. (2014). On the number of linear regions of deep neural networks. NeurIPS 2014, 2924-2932.

  25. Poole, B., Lahiri, S., Raghu, M., Sohl-Dickstein, J., & Ganguli, S. (2016). Exponential expressivity in deep neural networks through transient chaos. NeurIPS 2016.

  26. Raghu, M., Poole, B., Kleinberg, J., Ganguli, S., & Sohl-Dickstein, J. (2017). On the expressive power of deep architectures. ICML 2017.

  27. Hahn, D. A., & Srinivasa, S. (2023). A theoretical framework for deep learning. Nature Machine Intelligence, 5(1), 65-74.

  28. Cohen, N., & Shashua, A. (2016). Inductive bias of deep convolutional networks through pooling geometry. ICLR 2017.

  29. Cohen, N., Sharir, O., & Shashua, A. (2016). On the expressive power of deep learning: A tensor analysis. Conference on Learning Theory, 698-722.

  30. Poggio, T., Mhaskar, H., Rosasco, L., Miranda, B., & Liao, Q. (2017). Why and when can deep-but not shallow-networks avoid the curse of dimensionality: A review. International Journal of Automation and Computing, 14(5), 503-519.

  31. Schmidt-Hieber, J. (2020). Nonparametric regression using deep neural networks with ReLU activation function. Annals of Statistics, 48(4), 1875-1897.

  32. Bauer, B., & Kohler, M. (2019). On deep learning as a remedy for the curse of dimensionality in nonparametric regression. Annals of Statistics, 47(4), 2263-2285.

  33. Nakada, R., & Imaizumi, M. (2020). Adaptive approximation and estimation of deep neural network to intrinsic dimensionality. NeurIPS 2020.

  34. Chen, M., Jiang, H., Liao, W., & Zhao, T. (2022). Efficient approximation of deep ReLU networks for functions with compositionality. Journal of Machine Learning Research, 23(1), 1-52.

  35. Liu, H., Chen, M., Er, S., Liao, W., Zhang, R., & Zhao, T. (2022). Benefits of overparameterization in deep learning: A theoretical perspective. Journal of Machine Learning Research, 23(1), 1-50.

  36. Suzuki, T. (2019). Adaptivity of deep ReLU network for learning in Besov and mixed smooth Besov spaces: Optimal rate and curse of dimensionality. ICLR 2019.

  37. Suzuki, T., & Nitanda, A. (2021). Deep learning is adaptive to intrinsic dimensionality of model complexity in nonparametric regression. Annals of Statistics, 49(1), 503-525.

  38. Schmidt-Hieber, J. (2019). Deep ReLU networks have a U-approximation property. Journal of Approximation Theory, 243, 1-8.

  39. Yarotsky, D. (2018). Optimal approximation of continuous functions by very deep ReLU networks. Conference on Learning Theory, 639-649.

  40. Hanin, B. (2018). Which neural network architectures give rise to exploding and vanishing gradients? NeurIPS 2018.

  41. He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. CVPR 2016, 770-778.

  42. Vaswani, A., Shazeer, N., Parmar, N., et al. (2017). Attention is all you need. NeurIPS 2017.

  43. Brown, T. B., Mann, B., Ryder, N., et al. (2020). Language models are few-shot learners. NeurIPS 2020.

  44. Sanford, C., Hsu, D., & Servedio, R. (2023). Smoothing the geometry of ReLU networks: How depth reduces the curse of dimensionality. Conference on Learning Theory.

  45. Bölcskei, H., Grohs, P., Kutyniok, G., & Petersen, P. (2019). Optimal approximation with sparsely connected deep neural networks. SIAM Journal on Mathematics of Data Science, 1(1), 8-45.