Pytorch图像分类完整流程
1. 概述
这篇文章将介绍使用 Pytorch 进行图像分类的完整流程。在这个流程中,我们将使用一个卷积神经网络(Convolutional Neural Network,CNN)对一批图像进行分类。我们将讨论如何准备数据集、如何定义模型,以及如何进行训练和测试。
2. 准备数据集
在进行图像分类之前,我们需要准备一个数据集。数据集应该包含训练和测试数据,每个数据点都应该带有它们的标签。此外,数据集应该被分为训练集和测试集,以便我们的模型可以在未见过的数据上进行测试。
2.1 下载数据集
我们将使用 CIFAR-10 数据集进行本教程的示例。CIFAR-10 包含 60000 张 32x32 像素的彩色图像,这些图像被分为 10 个类别,每个类别包含 6000 张图像。我们可以使用 Pytorch 内置的数据集下载程序进行数据集的下载和准备。
import torchvision
import torchvision.transforms as transforms
transform = transforms.Compose(
[transforms.ToTensor(),
transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])
trainset = torchvision.datasets.CIFAR10(root='./data', train=True,
download=True, transform=transform)
testset = torchvision.datasets.CIFAR10(root='./data', train=False,
download=True, transform=transform)
在这个代码片段中,我们使用 torchvision.transforms 模块定义了一个将图像转换为张量的操作。我们还使用 Normalize 操作将每个像素的值归一化为 -1 到 1 之间的范围内。这将有助于模型在训练时更快地收敛。
我们使用 torchvision.datasets.CIFAR10 类从指定的 root 目录下载和准备数据集。我们将 train 参数设置为 True,以便下载训练集。我们设置 test 参数为 False,以便下载测试集。我们还将 transform 参数设置为我们定义的转换操作,以便将数据转换为张量并进行归一化。
2.2 创建数据加载器
在我们准备好数据集后,我们需要创建一个数据加载器,以便我们可以一批批地处理数据。数据加载器可以帮助我们实现以下功能:
- 随机化每个批次的数据,以便模型不会对数据的顺序产生任何偏见。
- 加载预处理数据并将其转换为张量类型。
- 确保在处理数据时使用适当的线程数。
import torch.utils.data as data
batch_size = 4
trainloader = data.DataLoader(trainset, batch_size=batch_size,
shuffle=True, num_workers=2)
testloader = data.DataLoader(testset, batch_size=batch_size,
shuffle=False, num_workers=2)
在这个代码片段中,我们创建了两个数据加载器:trainloader 和 testloader。我们将每个批次的大小设置为 4,并且将 shuffle 参数设置为 True,以便在处理数据时随机化每个批次中的数据。num_workers 参数表示在处理数据时使用的线程数。
3. 定义模型
在我们定义模型之前,我们需要了解什么是卷积神经网络。卷积神经网络是一种特殊的神经网络,它使用卷积层从图像中提取特征。卷积层包含一组可学习的过滤器,过滤器可以在输入图像上滑动,并产生一系列特征映射。
我们将使用 Pytorch 内置的卷积神经网络类,即 torch.nn 模块中的 nn.Conv2d 类来定义我们的模型。此外,我们还将使用 nn.MaxPool2d 类中的池化层来减少每个特征映射的大小,并使用 nn.Linear 类来定义全连接层。
下面是定义模型的代码:
import torch.nn as nn
import torch.nn.functional as F
class Net(nn.Module):
def __init__(self):
super(Net, self).__init__()
self.conv1 = nn.Conv2d(3, 6, 5)
self.pool = nn.MaxPool2d(2, 2)
self.conv2 = nn.Conv2d(6, 16, 5)
self.fc1 = nn.Linear(16 * 5 * 5, 120)
self.fc2 = nn.Linear(120, 84)
self.fc3 = nn.Linear(84, 10)
def forward(self, x):
x = self.pool(F.relu(self.conv1(x)))
x = self.pool(F.relu(self.conv2(x)))
x = x.view(-1, 16 * 5 * 5)
x = F.relu(self.fc1(x))
x = F.relu(self.fc2(x))
x = self.fc3(x)
return x
net = Net()
在这个代码片段中,我们定义了一个名为“Net”的类,它继承自 nn.Module 类。我们在类的构造函数中定义了每一层的参数。我们使用 nn.Conv2d 定义了两个卷积层,每个层的过滤器大小都为 5x5。我们使用 nn.MaxPool2d 定义了两个池化层,每个层的大小为 2x2。我们还定义了三个全连接层,每个层使用 ReLU(修正线性单元)激活函数。
在 forward() 方法中,我们定义了模型的前向传播操作。我们首先使用 F.relu 激活函数对第一个卷积层的输出进行激活,然后在池化层中对其求取最大值。我们使用相同的过程对第二个卷积层的输出进行处理。接下来,我们使用 view() 方法将张量展平为一维,并传递给三个全连接层。最后一层使用 softmax() 激活函数,以便我们可以获得每个类别的概率值。
4. 训练模型
在定义模型之后,我们需要训练模型。训练模型涉及到多个部分,包括定义损失函数、选择优化器并使用训练数据进行反向传播。
4.1 定义损失函数和优化器
我们将使用分类交叉熵损失作为我们的损失函数,并使用随机梯度下降(Stochastic Gradient Descent,SGD)作为我们的优化器。
import torch.optim as optim
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)
在这个代码片段中,我们使用 nn.CrossEntropyLoss() 定义了我们的损失函数。我们还使用 optim.SGD() 定义了我们的优化器,并设置了学习率和动量参数。
4.2 训练模型
我们现在已经准备好训练我们的模型了。我们将使用以下代码段来循环遍历我们的训练数据并进行训练:
for epoch in range(2): # 多次循环遍历数据集进行训练
running_loss = 0.0
for i, data in enumerate(trainloader, 0):
# 获取输入和标签
inputs, labels = data
#将参数梯度设为零,即对上一次的梯度清零
optimizer.zero_grad()
#前向传播,后向传播,优化
outputs = net(inputs)
loss = criterion(outputs, labels)
loss.backward()
optimizer.step()
#打印平均损失
running_loss += loss.item()
if i % 2000 == 1999: # 每 2000 个小批量数据打印一次平均损失
print('[%d, %5d] loss: %.3f' %
(epoch + 1, i + 1, running_loss / 2000))
running_loss = 0.0
print('Finished Training')
在这个代码片段中,我们使用一个循环,在每一个 epoch 中遍历我们的训练集。为了避免内存不足,我们将数据分成了小批量。在循环中,我们首先将梯度设置为零,然后前向传播我们的输入,并计算损失。我们随后进行反向传播,并将优化器应用于权重和偏差。我们还打印每个 epoch 结束时的平均损失。
5. 测试模型
在训练模型之后,我们需要在测试集上测试模型的性能。我们将使用以下代码段来循环遍历测试数据,并计算模型的总体准确度。
correct = 0
total = 0
with torch.no_grad():
for data in testloader:
inputs, labels = data
outputs = net(inputs)
_, predicted = torch.max(outputs.data, 1)
total += labels.size(0)
correct += (predicted == labels).sum().item()
print('Accuracy of the network on the 10000 test images: %d %%' % (
100 * correct / total))
在这个代码片段中,我们使用 torch.no_grad() 上下文管理器来暂时关闭梯度计算。我们循环遍历测试集,并计算模型的输出。然后,我们将预测的标签与实际标签进行比较,并记录准确的数量。最后,我们计算总体准确度,并将其打印出来。
6. 结论
在这篇文章中,我们讨论了 Pytorch 图像分类的完整流程。我们首先准备了 CIFAR-10 数据集,然后创建了数据加载器。我们接着定义了一个卷积神经网络,该网络使用卷积层和池化层从图像中提取特征。我们使用分类交叉熵损失作为损失函数,并使用 SGD 作为优化器来训练我们的模型。最后,我们将模型应用于测试集,并计算了总体准确度。