数据增强技术：为何简单的变换能显著提升模型泛化能力

在深度学习的实践中，有一个现象困扰着无数从业者：当训练数据有限时，模型往往能轻松记住训练集，却在新数据上表现糟糕。这种过拟合问题催生了各种解决方案——正则化、Dropout、早停，但最简单有效的方法之一常常被忽视：直接制造更多数据。数据增强（Data Augmentation）正是这样一种看似朴素却蕴含深刻原理的技术。它通过对现有样本施加变换来生成新的训练样本，在不采集额外数据的情况下扩充训练集。但为什么简单的旋转、翻转或同义词替换就能显著提升模型泛化能力？这个问题的答案涉及统计学、优化理论和几何学习的深层原理。

mindmap
  root((数据增强))
    理论基础
      正则化理论
      流形假说
      方差减少
      核函数视角
    图像增强
      几何变换
      颜色变换
      Mixup
      CutMix
      AutoAugment
    文本增强
      EDA
      回译
      上下文增强
      LLM生成
    音频增强
      SpecAugment
      时间扭曲
      频率遮蔽
    应用场景
      低资源学习
      对比学习
      鲁棒训练

从正则化到流形：数据增强的理论根基

理解数据增强为何有效，需要回到机器学习的核心问题：如何从有限的训练样本中学习到泛化良好的模型。传统机器学习理论告诉我们，模型的泛化误差可以分解为偏差和方差两部分。偏差衡量模型对真实规律的拟合程度，方差则衡量模型对训练数据扰动的敏感度。当训练数据不足时，高容量模型（如深度神经网络）会过度拟合训练数据中的噪声，导致方差急剧上升。

graph LR
    A[有限训练数据] --> B[高方差/过拟合]
    B --> C[泛化能力差]
    
    A --> D[数据增强]
    D --> E[扩充训练集]
    D --> F[引入正则化]
    D --> G[平滑决策边界]
    
    E --> H[降低方差]
    F --> H
    G --> H
    
    H --> I[提升泛化能力]

数据增强的作用可以从多个角度理解。最早的解释来自 Bishop 在 1995 年的研究：添加噪声训练等价于 Tikhonov 正则化。当我们对输入数据添加随机扰动时，实际上是在鼓励模型学习对输入变化不敏感的函数，这正是正则化的本质。但这种解释只揭示了问题的一部分。

2019 年，Dao 等人在 ICML 发表的论文《A Kernel Theory of Modern Data Augmentation》提供了更深入的理论框架。他们将数据增强视为一种核函数操作，证明了数据增强通过两种机制改善模型：特征平均（feature averaging）和方差正则化（variance regularization）。具体来说，对于变换集合 $\mathcal{T}$，数据增强后的期望损失可以写成：

$$L_{aug}(f) = \mathbb{E}_{x,y}\mathbb{E}_{t \sim \mathcal{T}}[\ell(f(t(x)), y)]$$

这个公式揭示了数据增强的本质：它不是简单地增加样本数量，而是改变了损失函数的几何结构。当变换集合 $\mathcal{T}$ 包含那些保持标签不变的变换时（如图片的水平翻转），数据增强强制模型学习对这些变换不变的特征表示。

flowchart TB
    subgraph 原始数据分布
        A1[样本 x₁] 
        A2[样本 x₂]
        A3[样本 x₃]
    end
    
    subgraph 增强变换群 T
        T1[旋转]
        T2[翻转]
        T3[缩放]
        T4[颜色抖动]
    end
    
    subgraph 增强后数据流形
        B1[t₁x₁]
        B2[t₂x₁]
        B3[t₁x₂]
        B4[t₃x₃]
        B5[...]
    end
    
    A1 --> T1 --> B1
    A1 --> T2 --> B2
    A2 --> T1 --> B3
    A3 --> T3 --> B4

更深层的理解来自流形假说（Manifold Hypothesis）。该假说认为，自然数据（如图像、文本）分布在高维空间中的低维流形上。数据增强的有效性在于它近似地沿着这个流形移动数据点，而不是随机跳转到高维空间中的任意位置。当增强后的样本仍位于数据流形附近时，模型就能从这些"合理的变体"中学习到更鲁棒的特征。

Chen 等人在 2020 年 NeurIPS 发表的《A Group-Theoretic Framework for Data Augmentation》进一步形式化了这一思想。他们证明，数据增强等价于在保持数据分布近似不变的群轨道上进行平均操作，这导致了估计量的方差减少：

$$\text{Var}(\hat{\theta}_{aug}) \leq \text{Var}(\hat{\theta})$$

其中 $\hat{\theta}_{aug}$ 是使用数据增强后的参数估计量。这一结果从理论上解释了一个经验观察：数据增强在数据量较少时效果最为显著。

图像领域的革命：从简单变换到智能增强

计算机视觉是数据增强应用最成熟的领域，也是理解该技术的最佳起点。传统的图像增强方法包括几何变换（旋转、翻转、缩放、裁剪）和颜色变换（亮度调整、对比度变化、色彩抖动）。这些方法的理论基础很直观：真实世界中的物体不会因为相机角度或光照条件的微小变化而改变其身份，因此模型应该对这些变化保持不变性。

graph TB
    subgraph 传统图像增强
        A[几何变换]
        A1[旋转 Rotation]
        A2[翻转 Flip]
        A3[裁剪 Crop]
        A4[缩放 Scale]
        
        B[颜色变换]
        B1[亮度 Brightness]
        B2[对比度 Contrast]
        B3[饱和度 Saturation]
        B4[色调 Hue]
    end
    
    A --> A1
    A --> A2
    A --> A3
    A --> A4
    
    B --> B1
    B --> B2
    B --> B3
    B --> B4

但简单的变换组合已经无法满足现代深度学习的需求。2017 年，Zhang 等人在 ICLR 发表的 Mixup 方法开启了数据增强的新范式。Mixup 的核心思想是在两个样本之间进行线性插值：

$$\tilde{x} = \lambda x_i + (1-\lambda) x_j$$

$$\tilde{y} = \lambda y_i + (1-\lambda) y_j$$

其中 $\lambda \sim \text{Beta}(\alpha, \alpha)$，$x_i, x_j$ 是两个输入样本，$y_i, y_j$ 是对应的标签（通常为 one-hot 向量）。这种方法源自 Vicinal Risk Minimization（VRM）理论，它建议不仅要最小化训练样本上的风险，还要最小化训练样本邻域上的风险。

Mixup 的效果令人惊讶：它不仅提高了分类准确率，还显著改善了模型校准（calibration），即模型预测概率与实际准确率的匹配程度。后续研究表明，Mixup 训练的模型在对抗样本攻击下也表现出更强的鲁棒性。这是因为线性插值强制模型在样本之间学习平滑的决策边界，避免了过度自信的预测。

CutMix 是另一种重要的混合增强方法，由 Yun 等人在 2019 年 ICCV 发表。与 Mixup 的全局插值不同，CutMix 从一张图像中裁剪一个区域，粘贴到另一张图像的对应位置：

$$\tilde{x} = M \odot x_i + (1-M) \odot x_j$$

其中 $M$ 是二值掩码，$\odot$ 表示逐元素乘法。CutMix 的标签同样按区域面积比例混合。实验表明，CutMix 在需要空间定位能力的任务上表现优于 Mixup，因为它保留了更多的局部特征信息。

flowchart LR
    subgraph Mixup
        M1[图像 A] --> M3["混合图像<br/>λA + (1-λ)B"]
        M2[图像 B] --> M3
        M4[标签 A] --> M5["混合标签<br/>λyA + (1-λ)yB"]
        M6[标签 B] --> M5
    end
    
    subgraph CutMix
        C1[图像 A] --> C3["裁剪粘贴<br/>区域混合"]
        C2[图像 B] --> C3
        C4[标签 A] --> C5["面积比例混合"]
        C6[标签 B] --> C5
    end

当简单的变换策略组合使用时，效果会如何？Google 的 AutoAugment 项目试图用强化学习自动搜索最优的增强策略组合。Cubuk 等人在 2018 年 CVPR 发表的论文中，将增强策略搜索空间定义为一系列变换操作的序列，每个操作包含变换类型和强度两个参数。搜索目标是找到在验证集上表现最好的策略。实验表明，自动搜索得到的策略显著优于人工设计的基准策略。

但 AutoAugment 的计算成本很高——需要在代理任务上进行大量搜索。RandAugment 提出了更简单的解决方案：只需两个超参数——变换次数 $N$ 和变换强度 $M$。每次增强时，从预定义的变换集合中随机选择 $N$ 个变换，每个变换以强度 $M$ 应用。尽管方法简单，RandAugment 在 ImageNet 上取得了与 AutoAugment 相当甚至更好的效果。

这种简单方法的成功揭示了一个重要洞见：增强策略的多样性可能比精确优化更重要。当随机变换足够多样时，模型被迫学习更通用的特征，而不是针对特定变换模式的捷径。

文本增强的困境与突破

相比图像，文本数据的增强面临根本性挑战：语言是离散的，微小的词序变化可能导致语义完全不同。将图像旋转 90 度不会改变其中的猫，但将句子中的"不喜欢"替换为"喜欢"却完全颠倒了含义。

flowchart TB
    subgraph 文本增强挑战
        A[离散性] --> A1["词替换可能改变语义<br/>'不高兴' → '不快乐' ✓<br/>'不高兴' → '高兴' ✗"]
        B[语法约束] --> B1["词序敏感<br/>'我喜欢你' ≠ '你喜欢我'"]
        C[语义保持] --> C1["同义词不总是等价<br/>'便宜' vs '廉价' 感情色彩不同"]
    end
    
    subgraph 解决方案
        D[EDA] --> D1["简单规则操作<br/>同义词替换/随机删除"]
        E[回译] --> E1["跨语言转换<br/>保持语义的改写"]
        F[LLM生成] --> F1["生成式数据扩充<br/>可控且自然"]
    end

2019 年，Wei 和 Zou 在 EMNLP 发表的 EDA（Easy Data Augmentation）提出了四种简单的文本增强操作：

同义词替换（SR）：随机选择句子中的非停用词，用其同义词替换
随机插入（RI）：随机选择句子中的一个词，将其同义词插入到随机位置
随机交换（RS）：随机交换句子中两个词的位置
随机删除（RD）：以概率 $p$ 随机删除句子中的每个词

EDA 的实验结果令人鼓舞：在五个文本分类任务上，EDA 平均带来了显著提升。更重要的是，当训练数据较少时（50% 训练集），使用 EDA 的效果与使用全部训练数据相当。这印证了数据增强对小数据集特别有效的理论预测。

但 EDA 也有明显的局限性：它依赖 WordNet 等外部知识库获取同义词，且随机操作可能产生不自然的句子。回译（Back-translation）提供了更优雅的解决方案。这种方法最早由 Sennrich 等人在 2016 年 ACL 发表，用于神经机器翻译。其核心思想是：将句子翻译到另一种语言，再翻译回来，得到的回译句子通常与原句意思相近但措辞不同。

sequenceDiagram
    participant 原句
    participant 翻译模型
    participant 中间语言
    participant 回译模型
    participant 增强句
    
    原句->>翻译模型: "我喜欢学习"
    翻译模型->>中间语言: "I like studying"
    中间语言->>回译模型: "I like studying"
    回译模型->>增强句: "我热爱学习"
    
    Note over 原句,增强句: 语义保持，措辞不同

回译的优势在于它能生成语法正确且语义保持的句子，因为这些句子是由训练良好的翻译模型生成的。这种方法已被广泛应用于低资源语言翻译、文本分类、问答系统等多个任务。

随着预训练语言模型的兴起，基于模型的增强方法展现出更大潜力。Kobayashi 在 2018 年提出的 Contextual Augmentation 使用 RNN 语言模型，根据上下文预测可以替换目标词的候选词。这种方法考虑了词的语义和语法角色，生成的句子更加自然。

G-DAugc 方法进一步利用 GPT 等生成模型，直接生成新的训练样本。关键挑战是如何确保生成样本的质量和多样性。一种有效策略是使用过滤机制：先让生成模型产生大量候选样本，再用一个在原始数据上训练的分类器筛选高质量样本。

Feng 等人在 2021 年 ACL 发表的 NLP 数据增强综述系统梳理了这个领域的方法。他们提出了一个分类框架，将方法分为三类：

基于规则的方法（如 EDA）：简单易实现，但改进幅度有限
基于插值的方法（如 Mixup）：源自视觉领域，需要适配文本的离散特性
基于模型的方法（如回译、生成模型）：效果更好，但实现成本更高

音频增强：频谱上的舞蹈

语音识别是另一个数据增强大显身手的领域。与图像和文本不同，音频数据有其独特的时间结构和频率特性。Park 等人在 2019 年提出的 SpecAugment 直接在梅尔频谱图上进行操作，包含三种变换：

graph TB
    subgraph SpecAugment 三种操作
        A[时间扭曲<br/>Time Warping]
        B[频率遮蔽<br/>Frequency Masking]
        C[时间遮蔽<br/>Time Masking]
    end
    
    subgraph 效果
        A --> A1["模拟语速变化<br/>非线性时间扭曲"]
        B --> B1["模拟信号失真<br/>遮蔽连续频率段"]
        C --> C1["模拟短暂静音/噪声<br/>遮蔽连续时间步"]
    end
    
    D[原始频谱图] --> A
    D --> B
    D --> C
    
    A --> E[增强后频谱图]
    B --> E
    C --> E

时间扭曲（Time Warping）：沿时间轴对频谱进行非线性扭曲，模拟语速变化
频率遮蔽（Frequency Masking）：随机遮蔽一段连续的频率通道，模拟信号失真
时间遮蔽（Time Masking）：随机遮蔽一段连续的时间步，模拟短暂静音或噪声

SpecAugment 的设计理念独特：它不是在原始音频上操作，而是在神经网络的特征输入上操作。这使得方法可以无缝集成到任何语音识别系统中。实验表明，SpecAugment 在 LibriSpeech 和 Switchboard 数据集上都取得了当时最优的结果，且不需要额外的语言模型。

SpecAugment 的成功还揭示了一个更广泛的原理：增强操作不必只作用于原始输入，在特征空间进行增强同样有效，有时甚至更有效。这与 Mixup 的嵌入空间变体（Manifold Mixup）的思想一致。

对比学习中的增强：从辅助到核心

数据增强在自监督学习中的角色经历了根本性转变。在传统监督学习中，增强只是提升性能的辅助手段；但在对比学习中，增强成为定义学习目标的核心组件。

flowchart TB
    subgraph SimCLR 对比学习框架
        X[输入样本 x]
        T1["增强 t₁"]
        T2["增强 t₂"]
        
        X --> T1 --> V1["视图 v₁ = t₁x"]
        X --> T2 --> V2["视图 v₂ = t₂x"]
        
        V1 --> E1[编码器 f]
        V2 --> E2[编码器 f]
        
        E1 --> H1[投影头 g]
        E2 --> H2[投影头 g]
        
        H1 --> Z1["表示 z₁"]
        H2 --> Z2["表示 z₂"]
        
        Z1 --> L["对比损失<br/>拉近 z₁, z₂<br/>推开其他样本"]
        Z2 --> L
    end

SimCLR 框架是这一转变的典型代表。Chen 等人在 2020 年 ICML 发表的论文中，对比学习的关键不是网络架构或损失函数，而是数据增强的组合方式。具体来说，对于每个输入样本 $x$，应用两次随机增强得到两个视图 $t_1(x)$ 和 $t_2(x)$。对比学习的目标是让这两个视图的表示相似，同时与其他样本的表示区分开。

SimCLR 的消融实验揭示了一个惊人的发现：增强组合至关重要。单独使用任何一种增强（如裁剪、颜色抖动、高斯模糊）效果都有限，但当这些增强组合使用时，性能大幅提升。最好的组合是随机裁剪加颜色抖动——这两个变换迫使模型学习对局部纹理和颜色都不敏感的语义特征。

这一发现的意义深远：数据增强不仅是扩充数据的手段，更是定义学习目标的方式。在监督学习中，标签定义了什么特征重要；在对比学习中，增强策略定义了什么特征应该被忽略。如果增强只包含颜色变换，模型可能只学习形状特征；如果增强包含旋转，模型可能只学习旋转不变特征。增强策略直接决定了模型学习到的表示特性。

实践指南：何时用、怎么用

数据增强如此强大，但并非万能药。正确使用需要理解其适用条件和潜在陷阱。

graph LR
    subgraph 数据量与增强效果
        A[小数据集<br/><1000样本] --> A1["增强效果显著<br/>提升20-30%"]
        B[中等数据集<br/>1000-10000样本] --> B1["增强效果中等<br/>提升5-15%"]
        C[大数据集<br/>>100000样本] --> C1["增强效果有限<br/>提升<5%"]
    end
    
    subgraph 推荐策略
        A --> D["强增强<br/>Mixup/CutMix/EDA"]
        B --> E["中等增强<br/>标准变换组合"]
        C --> F["轻量增强<br/>基本翻转/裁剪"]
    end

数据量与增强效果的倒 U 型关系。增强的价值与数据量负相关：数据越少，增强效果越显著。EDA 的实验显示，在仅使用 50% 训练数据时，增强后的效果可以媲美使用全部数据。但当数据量充足时（如 ImageNet 的百万级样本），简单增强的边际收益急剧下降。这解释了一个看似矛盾的现象：尽管增强在学术界被广泛使用，工业界的大规模训练却常常省略复杂增强——因为数据和算力已经足够。

增强强度的黄金中庸。增强既不能太弱（无法产生足够多样性），也不能太强（破坏语义标签）。这个平衡点因任务而异，需要通过实验确定。一个经验法则是：增强后的样本应该对人类来说仍然是可理解的、标签正确的。如果增强导致图片变得无法辨认，或者句子变得语法错误，那就是过度增强。

领域知识的价值。最有效的增强策略往往利用了领域知识。在医学图像中，增强应该模拟医学上合理的变体（如不同的成像条件），而不是任意的变换。在自然语言中，增强应该保持语法正确和语义一致。盲目应用通用增强策略可能适得其反。

增强与正则化的协同。数据增强本身就是一种正则化，但它与其他正则化技术（如权重衰减、Dropout）可以协同使用。有研究发现，增强可以允许使用更小的权重衰减，因为增强本身已经提供了足够的正则化效果。

评估增强策略。如何知道选用的增强策略是否有效？除了最终性能指标，还可以观察训练曲线：有效的增强应该使训练更难（训练准确率下降），但验证性能更好。如果训练准确率居高不下但验证性能不佳，说明增强不足；如果训练准确率也很低且验证性能差，可能是增强过度。

增强的阴暗面：何时会失败

数据增强不是银弹，错误使用可能导致严重问题。

语义漂移是最常见的失败模式。当增强操作意外改变了样本的标签时，模型会学习到错误的关联。例如，过度旋转数字"6"会变成"9"；将"not good"中的"good"替换为"bad"会变成"not bad"，情感完全反转。这类问题在文本增强中尤其普遍，因为语言的语义对词序和否定词非常敏感。

分布偏移是更隐蔽的问题。增强样本应该来自与真实数据相似的分布，但不当增强可能产生"不自然"的样本。例如，对医学图像应用过度激进的色彩变换可能产生真实医学环境中不会出现的样本，模型可能学习到这些人工痕迹而非真正的医学特征。部署后遇到真实数据时，性能会急剧下降。

计算开销也不容忽视。复杂的增强策略（如 AutoAugment 搜索、生成模型生成）可能需要大量计算资源。在资源受限的场景下，简单策略可能更具性价比。此外，在线增强（训练时动态生成）会增加每个 epoch 的时间；离线增强（预先生成并存储）则会增加存储开销。

增强偏见是新出现的问题。当使用 LLM 生成增强数据时，模型可能继承或放大预训练数据中的偏见。例如，如果要求 GPT 生成关于不同职业的文本，它可能生成带有性别偏见的内容（如"护士"默认为女性，“工程师"默认为男性）。使用这些数据训练模型会固化这些偏见。

未来展望

数据增强领域正在快速发展，几个方向尤其值得关注：

mindmap
  root((未来方向))
    自动化搜索
      更高效的搜索算法
      更大的变换空间
      任务特定先验
    可解释性
      理论预测框架
      增强效果归因
      最优策略推导
    跨模态增强
      图像-文本协同
      视频-音频联合
      多模态一致性
    对抗性增强
      鲁棒性提升
      攻击防御平衡
      认证鲁棒性
    课程学习
      动态增强强度
      阶段性策略
      自适应选择

自动化的增强策略搜索。AutoAugment 和 RandAugment 开创了自动搜索增强策略的方向，但仍有很大改进空间。未来的研究可能会探索更高效的搜索方法、更大的变换空间、以及任务特定的先验知识。

可解释的增强。目前的增强策略选择很大程度上依赖经验。我们缺乏一个理论框架来预测什么样的增强对特定任务有效。发展这样的框架将使我们能够更理性地设计增强策略，而不是盲目尝试。

跨模态增强。随着多模态学习的兴起，如何在不同模态之间一致地应用增强成为新挑战。例如，在图像-文本对上，图像增强（如裁剪）可能需要与文本增强（如描述裁剪区域）协同进行。

对抗性增强。使用对抗样本作为增强数据可以提高模型对攻击的鲁棒性。但如何平衡鲁棒性和标准性能，以及如何设计有效的对抗增强策略，仍需要更多研究。

数据增强与课程学习。研究表明，在训练的不同阶段使用不同强度的增强可能有益。例如，早期使用轻量增强帮助模型快速学习基本模式，后期使用强增强提升泛化能力。如何设计这种增强课程是一个有趣的研究方向。

结语

数据增强远不止是一种扩充数据的技术技巧。它深刻地改变了我们对机器学习的理解：模型学到的不仅是从数据中提取的模式，还包括我们从数据设计中选择"忽略"的东西。当我们告诉模型旋转后的猫仍然是猫，我们就在教它形状比方向更重要；当我们使用 Mixup 在样本间插值，我们就在鼓励它学习平滑的决策边界。

在这个意义上，数据增强体现了机器学习的一个核心原则：好的归纳偏置（Inductive Bias）比更多的数据更重要。当我们没有无限数据时，聪明的数据增强可以模拟数据的多样性；当我们有无限数据时，精心设计的增强可以引导模型学习正确的特征。

从图像到文本，从音频到视频，从监督学习到自监督学习，数据增强已经渗透到机器学习的每个角落。理解它的原理、掌握它的技术、认识它的局限，是每个实践者的必修课。因为在深度学习的世界里，如何对待数据，决定了模型能走多远。

参考文献

Wei, J., & Zou, K. (2019). EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks. EMNLP-IJCNLP.
Sennrich, R., Haddow, B., & Birch, A. (2016). Improving Neural Machine Translation Models with Monolingual Data. ACL.
Zhang, H., Cisse, M., Dauphin, Y. N., & Lopez-Paz, D. (2018). mixup: Beyond Empirical Risk Minimization. ICLR.
Yun, S., Han, D., Oh, S. J., Chun, S., Choe, N., & Yoo, Y. (2019). CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features. ICCV.
Cubuk, E. D., Zoph, B., Mane, D., Vasudevan, V., & Le, Q. V. (2019). AutoAugment: Learning Augmentation Policies from Data. CVPR.
Cubuk, E. D., Zoph, B., Shlens, J., & Le, Q. V. (2020). RandAugment: Practical Automated Data Augmentation with a Reduced Search Space. NeurIPS.
Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020). A Simple Framework for Contrastive Learning of Visual Representations. ICML.
Park, D. S., Chan, W., Zhang, Y., Chiu, C. C., Zoph, B., Cubuk, E. D., & Le, Q. V. (2019). SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition. Interspeech.
Bishop, C. M. (1995). Training with Noise is Equivalent to Tikhonov Regularization. Neural Computation.
Dao, T., Gu, A., Ratner, A. J., Smith, V., De Sa, C., & Ré, C. (2019). A Kernel Theory of Modern Data Augmentation. ICML.
Chen, S., Dobriban, E., & Lee, J. (2020). A Group-Theoretic Framework for Data Augmentation. NeurIPS.
Feng, S. Y., Gangal, V., Wei, J., Chandar, S., Vosoughi, S., Mitamura, T., & Hovy, E. (2021). A Survey of Data Augmentation Approaches for NLP. ACL Findings.
Wang, Z., et al. (2024). A Comprehensive Survey on Data Augmentation. arXiv:2405.09591.
Kobayashi, S. (2018). Contextual Augmentation: Data Augmentation by Words with Paradigmatic Relations. NAACL.
Anaby-Tavor, A., et al. (2020). Do Not Have Enough Data? Deep Learning to the Rescue! AAAI.
Verma, V., et al. (2019). Manifold Mixup: Better Representations by Interpolating Hidden States. ICML.
Xie, Q., et al. (2020). Unsupervised Data Augmentation for Consistency Training. NeurIPS.
DeVries, T., & Taylor, G. W. (2017). Improved Regularization of Convolutional Neural Networks with Cutout. arXiv.
Shorten, C., & Khoshgoftaar, T. M. (2019). A Survey on Image Data Augmentation for Deep Learning. Journal of Big Data.
Hernández-García, A., & König, P. (2020). Data Augmentation Instead of Explicit Regularization. arXiv.
Rajput, S., et al. (2019). Does Data Augmentation Lead to Positive Margin? ICML.
Gontijo-Lopes, R., et al. (2020). Tradeoffs in Data Augmentation: An Empirical Study. ICLR.
Iyyer, M., et al. (2018). Adversarial Example Generation with Syntactically Controlled Paraphrase Networks. NAACL.
Kumar, A., et al. (2019). Submodular Optimization-based Diverse Paraphrasing and Its Effectiveness in Data Augmentation. NAACL.
Yang, Y., et al. (2020). G-DAUG: Generative Data Augmentation for Commonsense Reasoning. EMNLP Findings.
Longpre, S., et al. (2020). How Effective is Task-agnostic Data Augmentation for Pretrained Transformers? arXiv.
Fadaee, M., Bisazza, A., & Monz, C. (2017). Data Augmentation for Low-Resource Neural Machine Translation. ACL.
Sahin, G. G., & Steedman, M. (2018). Data Augmentation via Dependency Tree Morphing for Low-Resource Languages. EMNLP.
Ding, B., et al. (2020). DAGA: Data Augmentation with a Generation Approach for Low-Resource Tagging Tasks. EMNLP.
Nguyen, X. P., et al. (2020). Data Diversification: A Simple Strategy for Neural Machine Translation. NeurIPS.
Ghiasi, G., et al. (2021). Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation. CVPR.
Inoue, H. (2019). Data Augmentation by Pairing Samples for Images Classification. arXiv.
Zhong, Z., et al. (2020). Random Erasing Data Augmentation. AAAI.
Singh, K. K., & Lee, Y. J. (2017). Hide-and-Seek: Forcing a Network to be Meticulous for Weakly-supervised Object and Action Localization. ICCV.
Takahashi, R., et al. (2019). Data Augmentation Using Random Image Cropping and Patching for Deep CNNs. IEEE Transactions on Circuits and Systems for Video Technology.
Lim, S., et al. (2019). Fast AutoAugment. NeurIPS.
Hataya, R., et al. (2020). Faster AutoAugment: Augmentation Policy Search with GAN-Based Bilevel Optimization. ICML.
Gao, F., et al. (2019). Soft Contextual Data Augmentation for Neural Machine Translation. ACL.
Guo, H. (2020). Nonlinear Mixup: Out-of-Manifold Data Augmentation for Text Classification. AAAI.
Cheng, Y., et al. (2020). AdvAug: Robust Adversarial Augmentation for Neural Machine Translation. ACL.
Chen, J., et al. (2020). MixText: Linguistically-informed Interpolation of Hidden Space for Semi-supervised Text Classification. ACL.
Sinha, A., et al. (2021). Negative Data Augmentation. ICLR.
Wu, Y., et al. (2020). Generalization through Memorization: Nearest Neighbor Language Models. ICLR.
Guo, D., et al. (2020). Sequence-Level Mixed Sample Data Augmentation. EMNLP.
Iwana, B. K., & Uchida, S. (2021). An Empirical Survey of Data Augmentation for Time Series Classification with Neural Networks. PLOS ONE.

从正则化到流形：数据增强的理论根基#

图像领域的革命：从简单变换到智能增强#

文本增强的困境与突破#

音频增强：频谱上的舞蹈#

对比学习中的增强：从辅助到核心#

实践指南：何时用、怎么用#

增强的阴暗面：何时会失败#

未来展望#

结语#

参考文献#

更多精彩内容

过拟合、欠拟合与偏差-方差权衡：机器学习最核心困境的完整解析

Early Stopping：为什么"提前终止"能拯救你的模型免于过拟合

对比学习如何用"比较"重构神经网络的表示能力

标签平滑的默认值为何是0.1：从训练稳定性到收敛理论的数学解析

Dropout机制：为什么随机丢弃神经元反而能提升泛化能力