当前位置：首页 > news >正文

从代码学习深度学习 - 图像增广 PyTorch 版

news 来源：原创 2025/4/25 8:30:16

文章目录

前言
一、图像增广的基本概念
二、PyTorch中的图像增广实现
三、数据加载与处理
四、模型训练与评估
五、实验设置与执行
六、实验结果与分析
七、讨论
总结

前言

在深度学习中，数据是关键。尤其是在计算机视觉任务中，高质量且丰富多样的数据对模型性能有着决定性的影响。然而，获取大量标注的图像数据往往成本高昂且耗时。这时，图像增广（Image Augmentation）技术就显得尤为重要，它通过对现有数据进行变换生成更多样化的训练样本，帮助模型学习更鲁棒的特征表示，从而提高泛化能力。

本文将通过代码示例，介绍如何在PyTorch框架下实现图像增广，并分析其对模型性能的影响。我们将使用CIFAR-10数据集，通过ResNet-18模型进行图像分类任务，展示图像增广的实际应用与效果。值得注意的是，本文只展示了与图像增广与训练有关的代码，完整代码在下方链接提供，包含了丰富的注释。

完整代码:下载链接

一、图像增广的基本概念

图像增广是指通过对原始图像进行一系列变换（如旋转、缩放、翻转等），生成新的训练样本，以扩充训练数据集。这些变换通常不会改变图像的语义信息，但可以帮助模型学习到更多样化的特征，增强对各种变化的适应能力。

常见的图像增广方法包括：

几何变换：旋转、翻转、缩放、裁剪等
颜色变换：亮度、对比度、色调调整等
噪声添加：高斯噪声、椒盐噪声等
遮挡：随机遮挡图像的一部分

在本教程中，我们将重点关注简单而有效的水平翻转增广方法。

二、PyTorch中的图像增广实现

PyTorch通过torchvision.transforms模块提供了丰富的图像增广功能。让我们看看如何定义增广操作：

import torchvision  # 导入PyTorch视觉库，用于图像转换和数据增强
# 定义训练数据的转换流程，包含随机水平翻转和张量转换
train_augs = torchvision.transforms.Compose([torchvision.transforms.RandomHorizontalFlip(),  # 随机水平翻转图像，数据增强的常用方法torchvision.transforms.ToTensor()               # 将PIL图像或NumPy数组转换为张量，并将像素值归一化到[0,1]区间
])
# 定义测试数据的转换流程，只包含张量转换，不进行数据增强
test_augs = torchvision.transforms.Compose([torchvision.transforms.ToTensor()               # 将PIL图像或NumPy数组转换为张量，并将像素值归一化到[0,1]区间
])

在上面的代码中，我们定义了两个转换流程：

train_augs：用于训练数据，包含随机水平翻转（概率为0.5）和张量转换
test_augs：用于测试数据，只包含张量转换，不进行数据增强

注意，我们只对训练数据进行增广，测试数据保持原样，这是因为我们希望在真实场景中评估模型性能。

三、数据加载与处理

接下来，我们需要加载CIFAR-10数据集并应用上述定义的增广操作：

import multiprocessing  # 导入多进程模块，用于获取CPU核心数
def get_dataloader_workers():"""根据可用CPU核心数动态设置worker数量返回:workers: 数据加载器的工作进程数，不超过4个"""# 返回可用CPU核心数和4之间的较小值，避免创建过多进程return min(4, multiprocessing.cpu_count())def load_cifar10(is_train, augs, batch_size):"""加载CIFAR10数据集参数:is_train: 布尔值，是否加载训练集augs: 数据增强和转换操作batch_size: 批量大小返回:dataloader: 数据加载器"""# 创建CIFAR10数据集，根据is_train参数决定加载训练集还是测试集dataset = torchvision.datasets.CIFAR10(root="data", train=is_train,transform=augs, download=True)# 创建DataLoader，用于批量加载数据# 训练集时打乱数据，测试集时保持原顺序dataloader = torch.utils.data.DataLoader(dataset, batch_size=batch_size,shuffle=is_train, num_workers=get_dataloader_workers(