数据增强（Data Augmentation）

1. 简介

在深度学习模型训练过程中，训练数据不足是一个常见问题。虽然在很多计算机视觉任务中，比如图像分类、人脸识别、手写识别等，已经有大量公开数据集可用，但在某些领域（如医疗图像识别）获取大量带标签数据依然非常困难。

为了解决这个问题，数据增强（Data Augmentation） 技术被广泛使用。它通过人工手段扩充训练数据集，从而提升模型的泛化能力。

✅ 核心目的：在训练样本有限时，提升数据集的多样性与质量。

根据应用场景不同，数据增强技术可以分为多种类型，包括图像、语音、自然语言处理等领域的增强方法。本文主要聚焦图像领域的增强技术。

这是最常见也是最简单的图像增强方式。主要包括以下几种操作：

如下图所示，这些操作可以显著改变图像外观，从而模拟真实世界中可能遇到的不同拍摄角度和光照条件。

data augmentation with geometric transformations

⚠️ 注意：在使用几何变换时，要确保变换不会改变图像的语义。例如，将数字 9 垂直翻转后会变成 6，这会导致标签错误。因此，应根据具体任务选择合适的变换方式。

当数据集样本数量少且缺乏多样性时，可以使用基于深度学习的方法进行增强。其中最常用的是：

例如在人脸识别任务中，GAN 可以合成不存在的人脸图像，从而扩充训练集：

gan for data augmentation

✅ 适用场景：

数据增强最常见的是在训练集中使用，以提高模型的泛化性能。但在某些情况下，也可以考虑在验证集和测试集中使用。

通常不建议在测试阶段使用数据增强，因为这会扭曲测试数据分布，导致模型评估结果失真。

但在某些场景下，可以使用一种叫做 Test-Time Augmentation (TTA) 的技术来提升模型在测试阶段的性能。例如：

假设我们要训练一个人脸识别模型，要求模型能识别各种角度的人脸，但训练数据中人脸角度单一。此时在测试阶段使用 TTA 可以更真实地评估模型在实际场景中的表现。

验证集的作用是评估模型在不同超参数设置下的性能表现。因此，是否在验证集上使用增强取决于你的目标：

⚠️ 建议：验证阶段使用增强要谨慎，避免误导模型选择。

数据增强是解决训练数据不足或样本分布不均问题的重要手段。它主要包括：

在使用时要注意：

数据增强不是万能的，它只是提高模型泛化能力的工具之一。最终还是要根据具体任务和数据分布选择合适的方法。