使用PyTorch实现MNIST手写体识别代码-猿码集

1. MNIST手写体识别介绍

手写体识别是机器学习领域中的一个重要问题，涉及到数字识别、文本识别等领域。MNIST是一个非常有名的手写体数字图像数据集，它包含了大量的手写数字图片，其中有60000张用于训练数据集，10000张用于测试数据集。模型需要通过训练集学习到数字的特征，然后通过测试集检验模型的准确率。本文将使用PyTorch实现MNIST手写体识别模型。

2. 数据集准备

2.1 下载MNIST数据集

我们可以使用PyTorch自带的库来下载MNIST数据集：


import torch
import torchvision
train_data = torchvision.datasets.MNIST(root='./data', train=True, transform=torchvision.transforms.ToTensor(), download=True)
test_data = torchvision.datasets.MNIST(root='./data', train=False, transform=torchvision.transforms.ToTensor(), download=True)

该代码会将训练数据和测试数据下载到'./data'目录下，我们可以查看一下训练数据集的大小：


print('Training data size:', train_data.data.size())

输出结果为：Training data size: torch.Size([60000, 28, 28])，说明训练数据集共有60000张28x28像素的手写数字图片。

2.2 数据集预处理

在训练之前，我们需要对数据集进行一些预处理，例如对每张图片进行归一化处理来使得每个像素的值在0到1之间。


train_data.transform = torchvision.transforms.Compose([
    torchvision.transforms.ToTensor(),
    torchvision.transforms.Normalize((0.1307,), (0.3081,))
])
test_data.transform = torchvision.transforms.Compose([
    torchvision.transforms.ToTensor(),
    torchvision.transforms.Normalize((0.1307,), (0.3081,))
])

上述代码中，我们先将每张图片转换成PyTorch所使用的tensor格式，然后使用Normalize对每个像素进行归一化处理。

3. 构建模型

我们使用一个简单的卷积神经网络来对手写数字进行识别。

3.1 定义神经网络

我们使用PyTorch的nn.Module定义我们的卷积神经网络模型，该模型包含了三个卷积层和两个全连接层。注意，我们需要手动计算输入和输出大小。


import torch.nn as nn
import torch.nn.functional as F
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d(1, 32, kernel_size=3, padding=1)
        self.conv2 = nn.Conv2d(32, 64, kernel_size=3, padding=1)
        self.conv3 = nn.Conv2d(64, 128, kernel_size=3, padding=1)
        self.fc1 = nn.Linear(128 * 4 * 4, 512)
        self.fc2 = nn.Linear(512, 10)
    def forward(self, x):
        x = F.relu(self.conv1(x))
        x = F.max_pool2d(x, 2)
        x = F.relu(self.conv2(x))
        x = F.max_pool2d(x, 2)
        x = F.relu(self.conv3(x))
        x = F.max_pool2d(x, 2)
        x = x.view(-1, 128 * 4 * 4)
        x = F.relu(self.fc1(x))
        x = self.fc2(x)
        return x
model = Net()

3.2 定义损失函数和优化器

我们使用交叉熵作为我们的损失函数，使用Adam优化器进行梯度下降来最小化损失函数。


import torch.optim as optim
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters())

3.3 训练模型

我们使用训练集对模型进行训练，一共训练10个epoch：


num_epochs = 10
for epoch in range(num_epochs):
    running_loss = 0.0
    for i, data in enumerate(train_data, 0):
        inputs, labels = data
        optimizer.zero_grad()
        outputs = model(inputs.unsqueeze(0))
        loss = criterion(outputs, labels.unsqueeze(0))
        loss.backward()
        optimizer.step()
        running_loss += loss.item()
    print('Epoch [%d/%d], Loss: %.4f' % (epoch+1, num_epochs, running_loss/len(train_data)))

4. 测试模型

模型训练完毕后，我们使用测试集对其进行测试，计算准确率，代码如下：


correct = 0
total = 0
with torch.no_grad():
    for data in test_data:
        images, labels = data
        outputs = model(images.unsqueeze(0))
        _, predicted = torch.max(outputs.data, 1)
        total += 1
        correct += (predicted == labels).sum().item()
print('Accuracy of the network on the 10000 test images: %d %%' % (100 * correct / total))

我们可以通过修改epoch等参数来调整模型的训练效果，同时还可以尝试其他不同的模型架构和优化器等。

5. 总结

在本文中我们使用了PyTorch来构建一个卷积神经网络模型，使用MNIST数据集进行训练和测试。通过对数据集的预处理和模型的训练，我们成功地实现了手写体数字识别模型，并通过测试集计算出了其中的准确率。同时我们还提供了一些调整参数的方式，以期进一步优化模型的性能。

使用PyTorch实现MNIST手写体识别代码