一个被误解的定理
在深度学习面试中,经常会出现这样一个问题:为什么神经网络需要非线性激活函数? 很多人会回答"因为线性函数的组合仍然是线性的"。但这个回答虽然正确,却只触及了问题的表面。更深层次的问题是:为什么加上非线性激活函数后,神经网络就能逼近任意复杂的函数?
这个问题的答案指向了神经网络理论中最著名的定理之一——万能逼近定理(Universal Approximation Theorem)。然而,这个定理在深度学习社区中常被误解甚至滥用。有人用它来证明"神经网络可以解决任何问题",有人则认为它只是一个存在性证明,对实践毫无指导意义。
真相介于两者之间。万能逼近定理确实告诉我们,理论上一个两层的神经网络就足以逼近任何连续函数,但它同时揭示了一个更深刻的问题:如果两层网络理论上已经足够,为什么我们还需要几十层甚至上百层的深度网络?
定理的核心陈述
万能逼近定理的严格数学表述最早由George Cybenko在1989年证明,随后Kurt Hornik等人在1991年给出了更一般化的版本。Cybenko的原始定理可以表述为:
定理(Cybenko 1989): 设 $\sigma: \mathbb{R} \to \mathbb{R}$ 是一个非常数、有界、连续的函数(称为sigmoidal函数)。定义函数类:
$$\Sigma_n(\sigma) = \left\{ g: \mathbb{R}^n \to \mathbb{R} \mid g(x) = \sum_{j=1}^N \alpha_j \sigma(w_j^T x + b_j), N \in \mathbb{N}, \alpha_j, b_j \in \mathbb{R}, w_j \in \mathbb{R}^n \right\}$$则 $\Sigma_n(\sigma)$ 在 $C([0,1]^n)$ 空间中稠密,即对于任意 $f \in C([0,1]^n)$ 和任意 $\epsilon > 0$,存在 $g \in \Sigma_n(\sigma)$ 使得:
$$\sup_{x \in [0,1]^n} |g(x) - f(x)| < \epsilon$$用更通俗的话说:一个包含单个隐藏层的前馈神经网络,只要隐藏层有足够多的神经元,并且使用适当的非线性激活函数,就能够以任意精度逼近任何定义在紧集上的连续函数。
graph LR
A[输入层 x] --> B[隐藏层<br/>足够多的神经元<br/>非线性激活函数]
B --> C[输出层<br/>线性组合]
C --> D[输出 f̂ x]
style B fill:#e1f5fe,stroke:#01579b
style D fill:#c8e6c9,stroke:#2e7d32
Hornik等人在1991年进一步推广了这个结果,证明了激活函数不需要满足sigmoidal的性质,只需要满足非多项式(non-polynomial)的条件即可。这解释了为什么ReLU、GELU、Swish等现代激活函数都能作为万能逼近器的激活函数。
为什么线性激活函数不行
在深入定理的证明之前,让我们先回答那个面试题:为什么线性激活函数不行?
这是一个可以用简洁数学证明的问题。假设我们有一个多层神经网络,每一层都使用线性激活函数 $\sigma(z) = z$。考虑一个两层网络:
$$h = W_1 x + b_1$$$$y = W_2 h + b_2 = W_2(W_1 x + b_1) + b_2 = (W_2 W_1)x + (W_2 b_1 + b_2)$$
令 $W' = W_2 W_1$,$b' = W_2 b_1 + b_2$,则:
$$y = W'x + b'$$这正是单层线性网络的形式!这个结论可以推广到任意层数:任何深度的纯线性网络都等价于单层线性网络。
从线性代数的角度看,这是因为线性变换的组合仍然是线性变换。具体来说,设 $L_1, L_2, \ldots, L_n$ 是一组线性变换,它们的复合 $L_n \circ L_{n-1} \circ \cdots \circ L_1$ 仍然是一个线性变换。
这意味着,如果没有非线性激活函数,无论网络有多深,它都只能表示线性函数。在函数空间中,所有线性函数构成的子空间相对于整个连续函数空间是"稀疏"的——大多数我们关心的函数(如分类边界、语言模型中的概率分布)都不是线性的。
flowchart TB
subgraph Linear["线性激活函数网络"]
L1[Layer 1: W₁x + b₁]
L2[Layer 2: W₂h + b₂]
L3[Layer n: Wₙh + bₙ]
L1 --> L2 --> L3
L3 --> LEq["等价于: W'x + b'<br/>单层线性变换"]
end
subgraph NonLinear["非线性激活函数网络"]
N1[Layer 1: σ W₁x + b₁ ]
N2[Layer 2: σ W₂h + b₂ ]
N3[Layer n: σ Wₙh + bₙ ]
N1 --> N2 --> N3
N3 --> NEq["可以表示<br/>任意复杂函数"]
end
style LEq fill:#ffcdd2,stroke:#c62828
style NEq fill:#c8e6c9,stroke:#2e7d32
定理的证明思路
Cybenko的原始证明使用了泛函分析中的高级工具,特别是Hahn-Banach定理和Riesz表示定理。虽然完整的证明需要相当的数学背景,但其核心思想可以用相对直观的方式理解。
反证法的核心逻辑
Cybenko的证明采用反证法。假设存在某个连续函数 $f$ 不能被神经网络逼近,那么根据泛函分析的工具,可以构造一个有界线性泛函 $L$,使得 $L(f) \neq 0$ 但对所有神经网络输出 $g$,都有 $L(g) = 0$。
关键在于证明这样的泛函不存在。根据Riesz表示定理,任何有界线性泛函 $L$ 都可以表示为某个测度 $\mu$ 的积分:
$$L(g) = \int g \, d\mu$$如果对所有神经网络输出 $g(x) = \sum_j \alpha_j \sigma(w_j^T x + b_j)$ 都有 $L(g) = 0$,那么可以推出:
$$\int \sigma(w^T x + b) \, d\mu(x) = 0, \quad \forall w, b$$通过对这个积分进行傅里叶变换,最终可以推出 $\mu = 0$,这意味着 $L$ 是零泛函,与 $L(f) \neq 0$ 矛盾。
直观的几何理解
虽然数学证明很抽象,但Michael Nielsen在其著作《Neural Networks and Deep Learning》中提供了一个优美的几何直观。
考虑一个使用sigmoid激活函数的神经元。当权重 $w$ 很大时,sigmoid函数 $\sigma(wx + b)$ 会趋近于一个阶跃函数,阶跃位置在 $s = -b/w$。通过调整偏置 $b$,我们可以控制阶跃发生的位置。
graph TB
subgraph Step["构造阶跃函数"]
S1["σ wx+b, w很大 "]
S2["≈ 阶跃函数"]
S3["阶跃位置 s = -b/w"]
S1 --> S2 --> S3
end
subgraph Bump["构造凸起函数"]
B1["两个阶跃函数相减"]
B2["h·σ w x-s₁ - h·σ w x-s₂ "]
B3["= 凸起函数,高度h"]
B1 --> B2 --> B3
end
subgraph Approx["逼近任意函数"]
A1["多个凸起函数叠加"]
A2["Σ hᵢ · bumpᵢ x "]
A3["≈ 任意连续函数"]
A1 --> A2 --> A3
end
Step --> Bump --> Approx
更具体地说:
-
构造阶跃函数:使用一个神经元 $\sigma(1000(x - s))$,当 $x < s$ 时输出接近0,当 $x > s$ 时输出接近1。
-
构造凸起函数:使用两个阶跃函数相减。$h \cdot \sigma(1000(x - s_1)) - h \cdot \sigma(1000(x - s_2))$ 产生一个在 $[s_1, s_2]$ 区间内高度为 $h$ 的凸起。
-
逼近任意函数:将多个凸起函数叠加,可以逼近任何连续函数。这类似于用很多小矩形逼近曲线——只是这里用光滑的凸起代替矩形。
这个直观理解揭示了一个重要事实:神经网络本质上是在构造一个"可学习的查表"。每个凸起对应函数在一个小区间内的值,通过增加神经元数量(即增加凸起数量),可以无限提高逼近精度。
ReLU的万能逼近性
Cybenko原始定理要求激活函数是有界且连续的sigmoidal函数。然而,现代深度学习中最流行的激活函数ReLU(Rectified Linear Unit)定义为:
$$\text{ReLU}(x) = \max(0, x)$$ReLU是无界的,也不是sigmoidal的。那么ReLU网络是否满足万能逼近性?
答案是肯定的。Hanin和Sellke在2017年证明了ReLU网络的万能逼近定理:
定理(Hanin-Sellke 2017): 设 $f: [0,1]^d \to \mathbb{R}$ 是任意连续函数,$\epsilon > 0$ 是任意精度。则存在一个ReLU神经网络 $g$,使得:
$$\sup_{x \in [0,1]^d} |g(x) - f(x)| < \epsilon$$这个网络只需要两层,但宽度可能非常大。
ReLU万能逼近的直观理解是:ReLU函数可以看作两个线性函数的拼接($0$ 和 $x$)。通过组合多个ReLU,可以构造出分段线性函数。而分段线性函数可以逼近任何连续函数——这与我们在微积分中学到的"用折线逼近曲线"的思想一致。
graph LR
subgraph ReLU["ReLU激活函数"]
R1["ReLU x = max 0,x "]
R2["分段线性函数"]
R1 --> R2
end
subgraph Compose["组合ReLU"]
C1["多个ReLU叠加"]
C2["更复杂的分段线性函数"]
C1 --> C2
end
subgraph Approx["逼近能力"]
A1["足够多的分段"]
A2["逼近任意连续函数"]
A1 --> A2
end
ReLU --> Compose --> Approx
style R2 fill:#e3f2fd,stroke:#1565c0
style C2 fill:#e8f5e9,stroke:#2e7d32
style A2 fill:#fff3e0,stroke:#ef6c00
值得注意的是,虽然ReLU网络的万能逼近定理成立,但所需的网络宽度可能非常大。一篇发表在Neural Computation上的研究表明,用ReLU网络逼近某些函数需要的神经元数量可能比使用sigmoid网络更多。这提醒我们:万能逼近性只是"理论上能做",不意味着"实践中高效"。
定理的局限性
万能逼近定理在深度学习理论中占据重要地位,但它有几个关键的局限性,这些局限性常常被忽视或误解。
存在性而非构造性
这是万能逼近定理最大的局限:它只证明了存在这样的神经网络,但完全没有告诉我们如何找到这个网络。
具体来说,定理告诉我们存在一组权重 $\{w_j, b_j, \alpha_j\}$ 使得网络能逼近目标函数 $f$,但:
- 它没有提供任何算法来找到这些权重
- 它没有说明需要多少个神经元
- 它没有保证梯度下降或其他优化算法能找到这组权重
这就像告诉你在森林某处埋着宝藏,但不给你地图。知道宝藏存在是有价值的,但这并不能帮助你找到它。
从实际训练的角度,神经网络的参数空间是非凸的,存在大量局部极小值。即使理论上存在一组完美逼近目标函数的参数,优化算法也可能陷入次优解。
维数灾难
万能逼近定理的另一个严重局限是维数灾难(Curse of Dimensionality)。
考虑逼近定义在 $d$ 维空间上的函数。如果我们用"凸起"方法来逼近,每个凸起覆盖输入空间的一小块区域。要覆盖整个输入空间 $[0,1]^d$ 达到精度 $\epsilon$,需要的凸起数量大约是 $O(\epsilon^{-d})$。
这意味着,当输入维度 $d$ 增加时,所需的神经元数量呈指数增长。例如,如果 $\epsilon = 0.1$:
- 当 $d = 1$ 时,需要约 $10$ 个神经元
- 当 $d = 10$ 时,需要约 $10^{10}$ 个神经元
- 当 $d = 100$ 时,需要约 $10^{100}$ 个神经元
这就是为什么传统方法在处理高维数据时困难重重。图像分类任务中,输入维度可能是 $224 \times 224 \times 3 = 150,528$,按照这个估计,需要的神经元数量是不可想象的。
graph LR
A[输入维度 d] --> B{神经元需求}
B -->|d=1| C[约 10 个神经元]
B -->|d=10| D[约 10¹⁰ 个神经元]
B -->|d=100| E[约 10¹⁰⁰ 个神经元]
B -->|d=1000+| F[天文数字<br/>完全不可行]
style C fill:#c8e6c9,stroke:#2e7d32
style D fill:#fff9c4,stroke:#f9a825
style E fill:#ffccbc,stroke:#e64a19
style F fill:#ffcdd2,stroke:#c62828
对连续性的要求
万能逼近定理只对连续函数成立。对于不连续函数,比如阶跃函数(虽然可以通过连续函数很好地逼近),定理不保证能够用神经网络精确表示。
好在实践中,我们遇到的大多数目标函数要么是连续的,要么可以用连续函数很好地逼近。这个限制在实际应用中影响较小。
为什么还需要深层网络
既然万能逼近定理告诉我们两层网络理论上已经足够,为什么现代深度学习要使用几十层甚至上百层的网络?这个问题的答案揭示了深度学习的核心洞见。
Telgarsky定理:深度的指数优势
Matus Telgarsky在2016年证明了一个深刻的结果,表明在某些情况下,深层网络比浅层网络有指数级的优势。
定理(Telgarsky 2016): 存在一类函数,可以用深度为 $O(k)$ 的多项式宽度网络精确表示,但如果用深度为 $O(\sqrt{k})$ 的网络来逼近,则需要指数级宽度($\Omega(2^k)$ 个神经元)。
具体来说,Telgarsky构造了一个特殊的"锯齿"函数,可以通过深层网络高效表示,但对于浅层网络则需要极宽才能逼近。这个函数本质上是通过对某个简单函数的反复组合得到的。
这个定理告诉我们:深度的价值不在于增加表达能力(浅层网络已经足够),而在于提高参数效率。 深层网络可以用更少的参数表示同样的函数。
graph TB
subgraph Shallow["浅层网络"]
S1["深度: O √k "]
S2["宽度: Ω 2ᵏ 个神经元"]
S3["总参数: 指数级"]
S1 --> S2 --> S3
end
subgraph Deep["深层网络"]
D1["深度: O k "]
D2["宽度: 多项式级"]
D3["总参数: 多项式级"]
D1 --> D2 --> D3
end
Target["目标函数"] --> Shallow
Target --> Deep
style S3 fill:#ffcdd2,stroke:#c62828
style D3 fill:#c8e6c9,stroke:#2e7d32
层次化表示与组合性函数
深层网络之所以高效,与目标函数的结构密切相关。现实中许多有趣的问题具有**组合性(compositionality)**结构——函数可以表示为更简单函数的复合。
例如,图像识别可以分解为:
$$\text{图像} \to \text{边缘} \to \text{纹理} \to \text{部件} \to \text{物体} \to \text{场景}$$这种层次化结构与深层网络的结构天然契合。每一层可以学习表示一个层次的抽象:
- 第一层学习边缘检测
- 第二层学习纹理模式
- 第三层学习部件识别
- 以此类推
如果用浅层网络来表示同样的函数,网络需要"一次性"学习所有层次的抽象,这大大增加了学习难度和所需参数量。
2025年发表在ICLR上的一篇论文从理论上证明了:深层网络可以高效学习具有组合结构且满足一定平滑性条件的函数,而浅层网络在这些情况下会遇到维数灾难。
深度网络如何克服维数灾难
前面提到,浅层网络逼近高维函数会遇到维数灾难。深层网络如何克服这个问题?
关键洞见是:许多高维函数实际上具有低维有效结构。
考虑一个典型的图像:虽然像素维度可能很高(比如 $1000 \times 1000$),但图像的实际内容往往位于一个低维流形上。所有可能的"猫的图片"虽然分布在百万维空间中,但它们构成的集合可能是低维的。
深层网络通过层次化表示,逐步提取这些低维结构。每一层的变换都可能在降低数据的有效维度。这使得深层网络能够避开维数灾难,高效地学习和表示高维函数。
从数学角度,研究发现当目标函数具有组合结构 $f = f_L \circ f_{L-1} \circ \cdots \circ f_1$,且每个 $f_i$ 满足一定的平滑性条件时,深层网络可以用多项式数量的参数逼近 $f$,而浅层网络需要指数数量的参数。
实践启示
万能逼近定理虽然是一个理论结果,但它对深度学习实践有重要的指导意义。
对网络设计的启示
-
激活函数的选择:根据定理,任何非多项式函数理论上都可以作为激活函数。但实践中,选择还要考虑训练效率、梯度传播等因素。ReLU及其变体(GELU、Swish)在现代网络中占据主导地位,原因包括计算效率高、缓解梯度消失等。
-
网络深度的选择:虽然万能逼近定理表明两层网络理论上足够,但考虑到参数效率和实际可训练性,深层网络是更实用的选择。具体深度需要根据任务的复杂度、数据规模、计算资源等因素综合考虑。
-
网络宽度的选择:理论上,越宽的网络逼近能力越强。但过宽的网络会增加训练难度和过拟合风险。现代实践倾向于使用较深但不太宽的网络架构。
对理解大模型的启示
大型语言模型(如GPT、LLaMA)的成功可以从万能逼近定理的角度来理解:
- 这些模型本质上是学习一个极其复杂的函数(从文本到文本的映射)
- 模型的巨大参数量(数百亿甚至数千亿)提供了逼近这个复杂函数所需的"神经元"
- Transformer架构中的多头注意力、前馈网络等组件提供了丰富的非线性变换能力
但同时也要认识到,万能逼近只告诉我们表示能力的问题,大模型的成功还依赖于:
- 大规模训练数据提供的信息
- 高效的优化算法(如Adam、AdamW)
- 合理的架构设计(如注意力机制、残差连接)
- 分布式训练技术
常见的误解
万能逼近定理在深度学习社区中常被误解。以下是一些常见的错误观点:
误解一: “万能逼近定理证明神经网络可以解决任何问题。”
纠正: 定理只说明神经网络可以逼近任何连续函数。但实际问题的目标函数可能不连续,而且逼近只是机器学习的一部分——泛化能力、训练效率同样重要。
误解二: “既然两层网络理论上足够,深层网络是过度设计。”
纠正: 理论上的存在性不等于实际可行性。深层网络在参数效率、训练稳定性、实际性能等方面都有显著优势。
误解三: “万能逼近定理让神经网络成为"万能"工具。”
纠正: 定理的"万能"只是指函数逼近能力。在实际应用中,数据质量、任务定义、评估标准等都是决定成功的关键因素。神经网络的强大逼近能力是必要条件,但不是充分条件。
总结
万能逼近定理是深度学习理论的基石之一。它告诉我们,带有适当非线性激活函数的两层神经网络,理论上可以逼近任何连续函数。这个定理解释了为什么非线性激活函数是必需的——线性激活函数会将任何深度的网络坍缩成单层。
然而,定理的价值远不止于回答面试题。它深刻地揭示了深度学习中一个看似矛盾的现象:如果浅层网络已经足够强大,为什么我们需要深层网络? 答案在于效率——深层网络可以用远少于浅层网络的参数来表示复杂的组合性函数,这种效率对于实际可训练性和泛化能力至关重要。
从Cybenko 1989年的原始证明到Telgarsky 2016年的深度优势定理,再到最新的维数灾难突破研究,万能逼近定理的演变反映了我们对神经网络理解的深化。它不再只是一个存在性定理,而是成为了理解网络架构设计、分析模型能力边界的重要工具。
对于深度学习实践者,万能逼近定理的启示是明确的:不要满足于知道"神经网络能做什么",更要深入理解"神经网络如何高效地做到"。这种从存在性到构造性的思维方式转变,正是理论指导实践的核心价值所在。
参考文献
-
Cybenko, G. (1989). Approximation by superpositions of a sigmoidal function. Mathematics of Control, Signals and Systems, 2(4), 303-314.
-
Hornik, K., Stinchcombe, M., & White, H. (1989). Multilayer feedforward networks are universal approximators. Neural Networks, 2(5), 359-366.
-
Hornik, K. (1991). Approximation capabilities of multilayer feedforward networks. Neural Networks, 4(2), 251-257.
-
Telgarsky, M. (2016). Benefits of depth in neural networks. Conference on Learning Theory (COLT), 1517-1539.
-
Hanin, B., & Sellke, M. (2017). Approximating continuous functions by ReLU nets of minimal width. arXiv preprint arXiv:1710.11278.
-
Nielsen, M. A. (2015). Neural Networks and Deep Learning. Determination Press. Chapter 4: A visual proof that neural nets can compute any function.
-
Yarotsky, D. (2017). Error bounds for approximations with deep ReLU networks. Neural Networks, 94, 103-114.
-
Petersen, P., & Voigtlaender, F. (2018). Optimal approximation of piecewise smooth functions using deep ReLU networks. Neural Networks, 108, 296-330.
-
Liang, S., & Srikant, R. (2017). Why deep neural networks for function approximation? ICLR 2017.
-
Eldan, R., & Shamir, O. (2016). The power of depth for feedforward neural networks. Conference on Learning Theory, 907-940.
-
Safran, I., & Shamir, O. (2017). Depth-width tradeoffs in approximating functions with ReLU networks. ICML 2017, 281-290.
-
Bengio, Y., & Delalleau, O. (2011). On the expressive power of deep architectures. Algorithmic Learning Theory, 18-36.
-
Mhaskar, H. N., & Micchelli, C. A. (1992). Approximation by superposition of sigmoidal and radial basis functions. Advances in Applied Mathematics, 13(3), 350-373.
-
Barron, A. R. (1993). Universal approximation bounds for superpositions of a sigmoidal function. IEEE Transactions on Information Theory, 39(3), 930-945.
-
Pinkus, A. (1999). Approximation theory of the MLP model in neural networks. Acta Numerica, 8, 143-195.
-
Lu, Z., Pu, H., Wang, F., Hu, Z., & Wang, L. (2017). The expressive power of neural networks: A view from the width. NeurIPS 2017.
-
Hanin, B. (2019). Universal function approximation by deep neural nets with bounded width and ReLU activations. Mathematics, 7(10), 992.
-
Kidger, P., & Lyons, T. (2020). Universal approximation with deep narrow networks. Conference on Learning Theory, 2306-2327.
-
Park, S., Yun, C., Lee, J., & Shin, J. (2021). Minimum width for universal approximation. ICLR 2021.
-
Shen, Z., Yang, H., & Zhang, S. (2021). Neural network approximation: Three hidden layers are enough. Neural Networks, 141, 160-173.
-
Cai, Y. (2019). Achieve the minimum width of neural networks for universal approximation. ICLR 2019 Workshop on Deep Learning Theory.
-
Johnson, J. (2019). Deep, skinny neural networks are not universal approximators. ICLR 2019.
-
Delalleau, O., & Bengio, Y. (2011). Shallow vs. deep sum-product networks. NeurIPS 2011, 666-674.
-
Montufar, G. F., Pascanu, R., Cho, K., & Bengio, Y. (2014). On the number of linear regions of deep neural networks. NeurIPS 2014, 2924-2932.
-
Poole, B., Lahiri, S., Raghu, M., Sohl-Dickstein, J., & Ganguli, S. (2016). Exponential expressivity in deep neural networks through transient chaos. NeurIPS 2016.
-
Raghu, M., Poole, B., Kleinberg, J., Ganguli, S., & Sohl-Dickstein, J. (2017). On the expressive power of deep architectures. ICML 2017.
-
Hahn, D. A., & Srinivasa, S. (2023). A theoretical framework for deep learning. Nature Machine Intelligence, 5(1), 65-74.
-
Cohen, N., & Shashua, A. (2016). Inductive bias of deep convolutional networks through pooling geometry. ICLR 2017.
-
Cohen, N., Sharir, O., & Shashua, A. (2016). On the expressive power of deep learning: A tensor analysis. Conference on Learning Theory, 698-722.
-
Poggio, T., Mhaskar, H., Rosasco, L., Miranda, B., & Liao, Q. (2017). Why and when can deep-but not shallow-networks avoid the curse of dimensionality: A review. International Journal of Automation and Computing, 14(5), 503-519.
-
Schmidt-Hieber, J. (2020). Nonparametric regression using deep neural networks with ReLU activation function. Annals of Statistics, 48(4), 1875-1897.
-
Bauer, B., & Kohler, M. (2019). On deep learning as a remedy for the curse of dimensionality in nonparametric regression. Annals of Statistics, 47(4), 2263-2285.
-
Nakada, R., & Imaizumi, M. (2020). Adaptive approximation and estimation of deep neural network to intrinsic dimensionality. NeurIPS 2020.
-
Chen, M., Jiang, H., Liao, W., & Zhao, T. (2022). Efficient approximation of deep ReLU networks for functions with compositionality. Journal of Machine Learning Research, 23(1), 1-52.
-
Liu, H., Chen, M., Er, S., Liao, W., Zhang, R., & Zhao, T. (2022). Benefits of overparameterization in deep learning: A theoretical perspective. Journal of Machine Learning Research, 23(1), 1-50.
-
Suzuki, T. (2019). Adaptivity of deep ReLU network for learning in Besov and mixed smooth Besov spaces: Optimal rate and curse of dimensionality. ICLR 2019.
-
Suzuki, T., & Nitanda, A. (2021). Deep learning is adaptive to intrinsic dimensionality of model complexity in nonparametric regression. Annals of Statistics, 49(1), 503-525.
-
Schmidt-Hieber, J. (2019). Deep ReLU networks have a U-approximation property. Journal of Approximation Theory, 243, 1-8.
-
Yarotsky, D. (2018). Optimal approximation of continuous functions by very deep ReLU networks. Conference on Learning Theory, 639-649.
-
Hanin, B. (2018). Which neural network architectures give rise to exploding and vanishing gradients? NeurIPS 2018.
-
He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. CVPR 2016, 770-778.
-
Vaswani, A., Shazeer, N., Parmar, N., et al. (2017). Attention is all you need. NeurIPS 2017.
-
Brown, T. B., Mann, B., Ryder, N., et al. (2020). Language models are few-shot learners. NeurIPS 2020.
-
Sanford, C., Hsu, D., & Servedio, R. (2023). Smoothing the geometry of ReLU networks: How depth reduces the curse of dimensionality. Conference on Learning Theory.
-
Bölcskei, H., Grohs, P., Kutyniok, G., & Petersen, P. (2019). Optimal approximation with sparsely connected deep neural networks. SIAM Journal on Mathematics of Data Science, 1(1), 8-45.