# 基于PyTorch的食品图像分类系统:从训练到部署全流程指南
基于PyTorch的食品图像分类系统:从训练到部署全流程指南
本文将详细介绍如何使用PyTorch框架构建一个完整的食品图像分类系统,涵盖数据预处理、模型构建、训练优化以及模型保存与加载的全过程。
1. 系统概述
本系统实现了一个基于卷积神经网络(CNN)的食品图像分类器,主要特点包括:
- 支持20种不同食品的分类
- 使用数据增强提高模型泛化能力
- 实现了完整的训练-验证-测试流程
- 提供模型保存与加载功能
2. 数据准备与预处理
2.1 数据增强策略
我们为训练集和验证集分别设计了不同的数据增强策略:
data_transforms = {'train': # 训练集 也可以使用PIL库 smote 训练集transforms.Compose([ # transforms.Compose用于将多个图像预处理操作整合在一起transforms.Resize([300, 300]), # 使图像变换大小transforms.RandomRotation(45), # 随机旋转,-42到45度之间随机选transforms.CenterCrop(256), # 从中心开始裁剪[256.256]transforms.RandomHorizontalFlip(p=0.5), # 随机水平旋转,随机概率为0.5transforms.RandomVerticalFlip(p=0.5), # 随机垂直旋转,随机概率0.5transforms.ColorJitter(brightness=0.2, contrast=0.1, saturation=0.1, hue=0.1), # 随机改变图像参数,参数分别表示 亮度、对比度、饱和度、色温transforms.RandomGrayscale(p=0.1), # 概率转换成灰度率,3通道就是R=G=Btransforms.ToTensor(), # 将PIL图像或NumPy ndarray转换为tensor类型,并将像素值的范围从[0, 255]缩放到[0.0, 1.0],默认把通道维度放在前面transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) # 给定均值和标准差对图像进行标准化,前者为均值,后者为标准差,三个值表示三通道图像]),'valid': # 验证集transforms.Compose([ # 整合图像处理的操作transforms.Resize([256, 256]), # 缩放图像尺寸transforms.ToTensor(), # 转换为torch类型transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) # 标准化])
}
关键点说明:
- 训练集使用了丰富的数据增强来防止过拟合
- 验证集只进行必要的尺寸调整和归一化
- 使用ImageNet的均值和标准差进行归一化
2.2 自定义数据集类
我们创建了food_dataset
类来管理数据:
class food_dataset(Dataset): # food_dataset是自己创建的类名称,继承Dataset类def __init__(self, file_path, transform=None): # 类的初始化,解析数据文件txt,file_path表示文件路径,transform可选的图像转换操作self.file_path = file_path # 将文件地址传入self空间self.imgs = []self.labels = []self.transform = transform # 将数据增强操作传入self空间with open(self.file_path) as f: # 打开存放图片地址及其类别的文本文件train.txt,samples = [x.strip().split(' ') for x in f.readlines()] # 遍历文件里的每一条数据,经过处理后存入sample列表,元祖的形式存放for img_path, label in samples: # 遍历列表中的每个元组的每个元素self.imgs.append(img_path) # 将图像的路径存入img列表self.labels.append(label) # 将图片类别标签存入label列表# 初始化:把图片目录加载到self.def __len__(self): # 类实例化对象后,可以使用len函数测量对象的个数return len(self.imgs) # 返回数据集中样本的总数def __getitem__(self, idx): # 关键,可通过索引idx的形式获取每一个图片数据及标签image = Image.open(self.imgs[idx]) # 使用PIL库中的用法Image打开并识别图像,还不是tensorif self.transform: # 判断是否有图像转换操作,上述定义默认为None,有则将pil图像数据转换为tensor类型image = self.transform(image) # 图像处理为256*256,转换为tenorlabel = self.labels[idx] # label还不是tensorlabel = torch.from_numpy(np.array(label, dtype=np.int64)) # 首先指定标签类型为int型,然后将其转换为numpy数组类型,然后再使用torch.from_numpy转换为torch类型return image, label # 返回处理完的图片和标签
关键方法:
__init__
: 从文本文件加载图像路径和标签__len__
: 返回数据集大小__getitem__
: 按索引返回图像和标签
3. 模型架构设计
我们构建了一个三层的CNN模型:
class CNN(nn.Module):def __init__(self): # 翰入大小 (3,256,256)super(CNN, self).__init__()self.conv1 = nn.Sequential( # 将多个层组合成一起。nn.Conv2d( # 2d一般用于图像,3d用于视频数据(多一个时间维度),1d一般用于结构化的序in_channels=3, # 图像通道个数,1表示灰度图(确定了卷积核 组中的个数)out_channels=16, # 要得到几多少个特征图,卷积核的个数.kernel_size=5, # 卷积核大小,5*5stride=1, # 步长padding=2, # 一般希望卷积核处理后的结果大小与处理前的数据大小相同,效果会比较好。那p), # 输出的特征图为 (16,256,256)nn.ReLU(),nn.MaxPool2d(kernel_size=2), # 进行池化操作(2x2 区域),输出结果为:(16,128,128))self.conv2 = nn.Sequential(nn.Conv2d(16, 32, 5, 1, 2), # 输出(32,128,128)nn.ReLU(),nn.MaxPool2d(2) # 输出)self.conv3 = nn.Sequential(nn.Conv2d(32, 128, 5, 1, 2),nn.ReLU(),)self.out = nn.Linear(128 * 64 * 64, 20) # 全连接def forward(self, x): # 前向传播x = self.conv1(x)x = self.conv2(x)x = self.conv3(x) # 输出(64,128,64,64)x = x.view(x.size(0), -1)output = self.out(x)return output # 返回输出结果
架构特点:
- 使用
nn.Sequential
组织网络层 - 每层包含卷积、ReLU激活和池化
- 最后一层全连接输出20个类别的概率
4. 模型训练与验证
4.1 训练流程
def train(dataloader, model, loss_fn, optimizer): # 传入参数 打包的数据,卷积模型,损失函数,优化器model.train() # 表示模型开始训练batch_size_num = 1for x, y in dataloader: # 遍历打包的图片及其对应的标签,其中batch为每一个数据的编号x, y = x.to(device), y.to(device) # 把训练数据集和标签传入cpu或GPUpred = model.forward(x) # 自动初始化 W权值loss = loss_fn(pred, y) # 传入模型训练结果的预测值和真实值,通过交叉熵损失函数计算损失值L0optimizer.zero_grad() # 梯度值清零loss.backward() # 反向传播计算得到每个参数的梯度optimizer.step() # 根据梯度更新网络参数loss = loss.item() # 获取损失值if batch_size_num % 100 == 0:print(f"loss: {loss:>7f}[number:{batch_size_num}]") # 打印损失值,右对齐,长度为7batch_size_num += 1 # 右下方传入的参数,表示训练轮数
4.2 验证流程
def test(dataloader, model, loss_fn): # 定义一个test函数,用于测试模型性能global best_acc # 定义一个全局变量size = len(dataloader.dataset) # 返回打包的图片总数num_batches = len(dataloader) # 返回打包的包的个数model.eval() # 表示模型进入测试模式test_loss, correct = 0, 0 # 初始化两个值,一个用来存放总体损失值,一个存放预测准确的个数with torch.no_grad(): # 一个上下文管理器,关闭梯度计算。当你确认不会调用Tensor.backward()时可以减少for x, y in dataloader: # 遍历数据加载器中测试集图片的图片及其标签x, y = x.to(device), y.to(device) # 传入GPUpred = model.forward(x) # 前向传播,返回预测结果test_loss += loss_fn(pred, y).item() # 计算所有的损失值的和,item表示将tensor类型值转化为python标量correct += (pred.argmax(1) == y).type(torch.float).sum().item() # 判断预测的值是等于真实值,返回布尔值,将其转换为0和1,然后求和# a = (pred.argmax(1)== y) dim=1表示每一行中的最大值对应的索引号,dim=日表示每 b=(pred.argmax(1)==y).type(torch.float)test_loss /= num_batches # 总体损失值除以数据条数得到平均损失值correct /= size # 求准确率print(f"Test result:in Accuracy: {(100 * correct)}%, Avg loss: {test_loss}") # 表示准确率机器对应的损失值# acc_s.append(correct)# loss_s.append(test_loss)### 4.3 训练配置```python
# 初始化
model = CNN().to(device)
loss_fn = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)# 数据加载
#training_data包含了本次需要训练的全部数据集
training_data = food_dataset(file_path=r'D:\Users\妄生\PycharmProjects\人工智能\深度学习\train.txt', transform=data_transforms['train'])
test_data = food_dataset(file_path=r'D:\Users\妄生\PycharmProjects\人工智能\深度学习\test.txt', transform=data_transforms['valid'])train_loader = DataLoader(train_data, batch_size=64, shuffle=True)
test_loader = DataLoader(test_data, batch_size=64, shuffle=True)# 训练循环
epochs = 150 # 设置模型训练的轮数,不停更新模型参数,找到最优值
acc_s = [] # 初始化了两个空列表,用于存储模型在每个epoch结束时的准确率和损失值
loss_s = []
for t in range(epochs): # 遍历轮数print(f"Epoch {t + 1}\n---------------------------") # 表示轮数展示train(train_dataloader, model, loss_fn, optimizer) # 调用函数train传入训练集数据加载器、初始化的模型、损失函数、优化器test(test_dataloader, model, loss_fn)
运行结果
5. 模型保存与加载
5.1 保存模型
我们提供了两种保存方式:
# 方法1:仅保存模型参数(推荐)
torch.save(model.state_dict(), 'best.pth')# 方法2:保存整个模型
torch.save(model, 'best.pt')
5.2 加载模型
对应两种加载方式:
# 方法1:加载参数
model = CNN().to(device)
model.load_state_dict(torch.load('best.pth'))# 方法2:加载完整模型
model = torch.load('best.pt')
6. 模型测试与结果分析
我们实现了详细的测试函数:
def test_true(dataloader, model):correct = 0 # 正确预测的数量total = 0 # 总样本数量with torch.no_grad(): # 上下文管理器,关闭梯度运算for x, y in dataloader: # 遍历打包好的图片及其标签x, y = x.to(device), y.to(device) # 将其传入GPUpred = model.forward(x) # 前向传播_, predicted = torch.max(pred, 1) # 获取预测值的类别索引total += y.size(0) # 累加总样本数量correct += (predicted == y).sum().item() # 累加正确预测的数量result.append(predicted.item()) # 将预测值的结果转换成Python变量然后增加到列表labels.append(y.item()) # 同时将真实值的标签转变成Python标量然后存入labels列表accuracy = correct / total # 计算准确率print(f'准确率: {accuracy:.4f}') # 打印准确率# 调用测试函数
test_true(test_dataloader, model) # 导入数据和模型
print('预测值:\t', result)
print('真实值:\t', labels)
运行结果
7. 总结
本文详细介绍了基于PyTorch的食品图像分类系统的完整实现流程,从数据准备到模型部署。该系统具有以下优势:
- 高效的数据处理:完善的数据增强和加载机制
- 可靠的模型架构:经过优化的CNN结构
- 完整的训练流程:包含训练、验证和测试
- 灵活的部署方案:提供多种模型保存方式