从代码学习深度学习 - 图像增广 PyTorch 版
文章目录
- 前言
- 一、图像增广的基本概念
- 二、PyTorch中的图像增广实现
- 三、数据加载与处理
- 四、模型训练与评估
- 五、实验设置与执行
- 六、实验结果与分析
- 七、讨论
- 总结
前言
在深度学习中,数据是关键。尤其是在计算机视觉任务中,高质量且丰富多样的数据对模型性能有着决定性的影响。然而,获取大量标注的图像数据往往成本高昂且耗时。这时,图像增广(Image Augmentation)技术就显得尤为重要,它通过对现有数据进行变换生成更多样化的训练样本,帮助模型学习更鲁棒的特征表示,从而提高泛化能力。
本文将通过代码示例,介绍如何在PyTorch框架下实现图像增广,并分析其对模型性能的影响。我们将使用CIFAR-10数据集,通过ResNet-18模型进行图像分类任务,展示图像增广的实际应用与效果。值得注意的是,本文只展示了与图像增广与训练有关的代码,完整代码在下方链接提供,包含了丰富的注释。
完整代码:下载链接
一、图像增广的基本概念
图像增广是指通过对原始图像进行一系列变换(如旋转、缩放、翻转等),生成新的训练样本,以扩充训练数据集。这些变换通常不会改变图像的语义信息,但可以帮助模型学习到更多样化的特征,增强对各种变化的适应能力。
常见的图像增广方法包括:
- 几何变换:旋转、翻转、缩放、裁剪等
- 颜色变换:亮度、对比度、色调调整等
- 噪声添加:高斯噪声、椒盐噪声等
- 遮挡:随机遮挡图像的一部分
在本教程中,我们将重点关注简单而有效的水平翻转增广方法。
二、PyTorch中的图像增广实现
PyTorch通过torchvision.transforms
模块提供了丰富的图像增广功能。让我们看看如何定义增广操作:
import torchvision # 导入PyTorch视觉库,用于图像转换和数据增强
# 定义训练数据的转换流程,包含随机水平翻转和张量转换
train_augs = torchvision.transforms.Compose([torchvision.transforms.RandomHorizontalFlip(), # 随机水平翻转图像,数据增强的常用方法torchvision.transforms.ToTensor() # 将PIL图像或NumPy数组转换为张量,并将像素值归一化到[0,1]区间
])
# 定义测试数据的转换流程,只包含张量转换,不进行数据增强
test_augs = torchvision.transforms.Compose([torchvision.transforms.ToTensor() # 将PIL图像或NumPy数组转换为张量,并将像素值归一化到[0,1]区间
])
在上面的代码中,我们定义了两个转换流程:
train_augs
:用于训练数据,包含随机水平翻转(概率为0.5)和张量转换test_augs
:用于测试数据,只包含张量转换,不进行数据增强
注意,我们只对训练数据进行增广,测试数据保持原样,这是因为我们希望在真实场景中评估模型性能。
三、数据加载与处理
接下来,我们需要加载CIFAR-10数据集并应用上述定义的增广操作:
import multiprocessing # 导入多进程模块,用于获取CPU核心数
def get_dataloader_workers():"""根据可用CPU核心数动态设置worker数量返回:workers: 数据加载器的工作进程数,不超过4个"""# 返回可用CPU核心数和4之间的较小值,避免创建过多进程return min(4, multiprocessing.cpu_count())def load_cifar10(is_train, augs, batch_size):"""加载CIFAR10数据集参数:is_train: 布尔值,是否加载训练集augs: 数据增强和转换操作batch_size: 批量大小返回:dataloader: 数据加载器"""# 创建CIFAR10数据集,根据is_train参数决定加载训练集还是测试集dataset = torchvision.datasets.CIFAR10(root="data", train=is_train,transform=augs, download=True)# 创建DataLoader,用于批量加载数据# 训练集时打乱数据,测试集时保持原顺序dataloader = torch.utils.data.DataLoader(dataset, batch_size=batch_size,shuffle=is_train, num_workers=get_dataloader_workers(