【Week P1】 MNIST手写数字识别
文章目录
- 🍨 本文为🔗365天深度学习训练营 中的学习记录博客
- 🍖 原作者:K同学啊 | 接辅导、项目定制
一、环境配置
1.1 安装环境
(1)本文使用Pytorch 的 CPU版本,安装过程比较简单。
在【官网】设置自己的配置,本文选用CPU版本,所以直接安装即可,下载时间比较久。
漫长的等待之后,安装好了:
打开jupyter notebook
确认安装情况,如下图运行情况,表示已经安装好CPU版本的Pytorch
1.2 设置环境,开始本文内容
# 1. 设置环境
import sys
from datetime import datetime
import torch
import torch.nn as nn
import matplotlib.pyplot as plt
import torchvision
print("---------------------1.配置环境------------------")
print("Start time: ", datetime.today())
print("Pytorch version: " + torch.__version__)
print("Python version: " + sys.version)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
device
二、准备数据
使用dataset
下载MNIST数据集,并划分好训练集与测试集。使用dataloader
加载数据,并设置好基本的batch_size。
- 2.1 ?
torchvision.datasets.MNIST
详解(Line4 & Line9)(文末有说明)- 2.2 ?
torch.utils.data.DataLoader
详解(Line16 & Line19)(文末有说明)- 2.3 ?
squeeze()
函数(Line37)(文末有说明)
# 2.1 导入数据 :使用dataset下载MNIST数据集,并划分好训练集与测试集
print("---------------------2.1 导入数据------------------")
# torchvision.datasets是Pytorch自带的一个数据库,我们可以通过代码在线下载数据,这里使用的是torchvision.datasets中的MNIST数据集。
train_ds = torchvision.datasets.MNIST('data',
train=True,
transform=torchvision.transforms.ToTensor(), # 将数据类型转化为Tensor
download=True)
test_ds = torchvision.datasets.MNIST('data',
train=False,
transform=torchvision.transforms.ToTensor(), # 将数据类型转化为Tensor
download=True)
# torch.utils.data.DataLoader是Pytorch自带的一个数据加载器,结合了数据集和取样器,并且可以提供多个线程处理数据集。
batch_size = 32
train_dl = torch.utils.data.DataLoader(train_ds,
batch_size=batch_size,
shuffle=True)
test_dl = torch.utils.data.DataLoader(test_ds,
batch_size=batch_size)
# 取一个批次查看数据格式
# 数据的shape为:[batch_size, channel, height, weight]
# 其中batch_size为自己设定,channel,height和weight分别是图片的通道数,高度和宽度。
imgs, labels = next(iter(train_dl))
imgs.shape
# 2.2 数据可视化
# squeeze()函数的功能是从矩阵shape中,去掉维度为1的。例如一个矩阵是的shape是(5, 1),使用过这个函数后,结果为(5, )。
print("---------------------2.2 数据可视化------------------")
import numpy as np
# 指定图片大小,图像大小为20宽、5高的绘图(单位为英寸inch)
plt.figure(figsize=(20, 5))
for i, imgs in enumerate(imgs[:20]):
# 维度缩减
npimg = np.squeeze(imgs.numpy())
# 将整个figure分成2行10列,绘制第i+1个子图。
plt.subplot(2, 10, i+1)
plt.imshow(npimg, cmap=plt.cm.binary)
plt.axis('off')
#plt.show() 如果你使用的是Pycharm编译器,请加上这行代码
三、搭建网络结构
3.1 构建简单CNN网络
3.2 加载并打印模型
对于一般的CNN网络来说,都是由特征提取网络和分类网络构成,其中特征提取网络用于提取图片的特征,分类网络用于将图片进行分类。
nn.Conv2d
为卷积层,用于提取图片的特征,传入参数为输入channel,输出channel,池化核大小nn.MaxPool2d
为池化层,进行下采样,用更高层的抽象表示图像特征,传入参数为池化核大小nn.ReLU
为激活函数,使模型可以拟合非线性数据nn.Linear
为全连接层,可以起到特征提取器的作用,最后一层的全连接层也可以认为是输出层,传入参数为输入特征数和输出特征数(输入特征数由特征提取网络计算得到,如果不会计算可以直接运行网络,报错中会提示输入特征数的大小,下方网络中第一个全连接层的输入特征数为1600)nn.Sequential
可以按构造顺序连接网络,在初始化阶段就设定好网络结构,不需要在前向传播中重新写一遍
# 3. 构建简单CNN网络
print("---------------------3.1 构建简单CNN网络------------------")
import torch.nn.functional as F
num_classes = 10 # 图片的类别数
class Model(nn.Module):
def __init__(self):
super().__init__()
# 特征提取网络
self.conv1 = nn.Conv2d(1, 32, kernel_size=3) # 第一层卷积,卷积核大小为3*3
self.pool1 = nn.MaxPool2d(2) # 设置池化层,池化核大小为2*2
self.conv2 = nn.Conv2d(32, 64, kernel_size=3) # 第二层卷积,卷积核大小为3*3
self.pool2 = nn.MaxPool2d(2)
# 分类网络
self.fc1 = nn.Linear(1600, 64)
self.fc2 = nn.Linear(64, num_classes)
# 前向传播
def forward(self, x):
x = self.pool1(F.relu(self.conv1(x)))
x = self.pool2(F.relu(self.conv2(x)))
x = torch.flatten(x, start_dim=1)
x = F.relu(self.fc1(x))
x = self.fc2(x)
return x
print("---------------------3.2 加载并打印模型------------------")
from torchinfo import summary
# 将模型转移到GPU中(我们模型运行均在GPU中进行)
model = Model().to(device)
summary(model)
Q:模块
torchinfo
导入错误
解决办法:
四、开始训练
4.1 设置超参数
4.2 ? 编写训练函数(文末有说明)
4.3 编写测试函数
4.4 ? 正式训练(文末有说明)
# 4. 训练模型
print("---------------------4.1 设置超参数------------------")
loss_fn = nn.CrossEntropyLoss() # 创建损失函数
learn_rate = 1e-2 # 学习率
opt = torch.optim.SGD(model.parameters(),lr=learn_rate)
print("---------------------4.2 编写训练函数-----------------")
# 训练循环
def train(dataloader, model, loss_fn, optimizer):
size = len(dataloader.dataset) # 训练集的大小,一共60000张图片
num_batches = len(dataloader) # 批次数目,1875(60000/32)
train_loss, train_acc = 0, 0 # 初始化训练损失和正确率
for X, y in dataloader: # 获取图片及其标签
X, y = X.to(device), y.to(device)
# 计算预测误差
pred = model(X) # 网络输出
loss = loss_fn(pred, y) # 计算网络输出和真实值之间的差距,targets为真实值,计算二者差值即为损失
# 反向传播
optimizer.zero_grad() # grad属性归零
loss.backward() # 反向传播
optimizer.step() # 每一步自动更新
# 记录acc与loss
# (pred.argmax(1) == y).type(torch.float).sum().item()表示计算预测正确的样本数量,并将其作为一个标量值返回。
# 这通常用于评估分类模型的准确率或计算分类问题的正确预测数量。
train_acc += (pred.argmax(1) == y).type(torch.float).sum().item()
train_loss += loss.item()
train_acc /= size
train_loss /= num_batches
return train_acc, train_loss
print("---------------------4.3 编写测试函数-----------------")
# 测试函数和训练函数大致相同,但是由于不进行梯度下降对网络权重进行更新,所以不需要传入优化器测试函数和训练函数大致相同,但是由于不进行梯度下降对网络权重进行更新,所以不需要传入优化器。
def test (dataloader, model, loss_fn):
size = len(dataloader.dataset) # 测试集的大小,一共10000张图片
num_batches = len(dataloader) # 批次数目,313(10000/32=312.5,向上取整)
test_loss, test_acc = 0, 0
# 当不进行训练时,停止梯度更新,节省计算内存消耗
with torch.no_grad():
for imgs, target in dataloader:
imgs, target = imgs.to(device), target.to(device)
# 计算loss
target_pred = model(imgs)
loss = loss_fn(target_pred, target)
test_loss += loss.item()
test_acc += (target_pred.argmax(1) == target).type(torch.float).sum().item()
test_acc /= size
test_loss /= num_batches
return test_acc, test_loss
print("---------------------4.4 正式训练-----------------")
epochs = 5
train_loss = []
train_acc = []
test_loss = []
test_acc = []
for epoch in range(epochs):
model.train()
epoch_train_acc, epoch_train_loss = train(train_dl, model, loss_fn, opt)
model.eval()
epoch_test_acc, epoch_test_loss = test(test_dl, model, loss_fn)
train_acc.append(epoch_train_acc)
train_loss.append(epoch_train_loss)
test_acc.append(epoch_test_acc)
test_loss.append(epoch_test_loss)
template = ('Epoch:{:2d}, Train_acc:{:.1f}%, Train_loss:{:.3f}, Test_acc:{:.1f}%,Test_loss:{:.3f}')
print(template.format(epoch+1, epoch_train_acc*100, epoch_train_loss, epoch_test_acc*100, epoch_test_loss))
print('Done')
4.2 编写训练函数 中:
pred.argmax(1)
返回数组 pred 在第一个轴(即行)上最大值所在的索引。这通常用于多类分类问题中,其中 pred 是一个包含预测概率的二维数组,每行表示一个样本的预测概率分布。(pred.argmax(1) == y)
是一个布尔值,其中等号是否成立代表对应样本的预测是否正确(True 表示正确,False 表示错误)。.type(torch.float)
是将布尔数组的数据类型转换为浮点数类型,即将 True 转换为 1.0,将 False 转换为 0.0。.sum()
是对数组中的元素求和,计算出预测正确的样本数量。.item()
将求和结果转换为标量值,以便在 Python 中使用或打印。(pred.argmax(1) == y).type(torch.float).sum().item()
表示计算预测正确的样本数量,并将其作为一个标量值返回。这通常用于评估分类模型的准确率或计算分类问题的正确预测数量。
五、查看训练结果
print("---------------------5. 查看训练结果-----------------")
import matplotlib.pyplot as plt
#隐藏警告
import warnings
warnings.filterwarnings("ignore") #忽略警告信息
plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号
plt.rcParams['figure.dpi'] = 100 #分辨率
epochs_range = range(epochs)
plt.figure(figsize=(12, 3))
plt.subplot(1, 2, 1)
plt.plot(epochs_range, train_acc, label='Training Accuracy')
plt.plot(epochs_range, test_acc, label='Test Accuracy')
plt.legend(loc='lower right')
plt.title('Training and Validation Accuracy')
plt.subplot(1, 2, 2)
plt.plot(epochs_range, train_loss, label='Training Loss')
plt.plot(epochs_range, test_loss, label='Test Loss')
plt.legend(loc='upper right')
plt.title('Training and Validation Loss')
plt.show()
六、总结
2.1 ? torchvision.datasets.MNIST
详解(Line4 & Line9)
torchvision.datasets
是Pytorch自带的一个数据库,我们可以通过代码在线下载数据,这里使用的是torchvision.datasets
中的MNIST数据集。
函数原型:
torchvision.datasets.MNIST(root, train=True, transform=None, target_transform=None, download=False)
参数说明:
● root (string) :数据地址
● train (string) :True
-训练集,False
-测试集
● transform (callable, optional ):这里的参数选择一个你想要的数据转化函数,直接完成数据转化
● target_transform (callable,optional) :接受目标并对其进行转换的函数/转换。
● download (bool,optional) : 如果为True
,从互联网上下载数据集,并把数据集放在root
目录下。
Tip:设置数据集这里和
Tensorflow
有点不一样,Tensorflow
是通过官方给的标签和图片(后续从文件夹导入图片集时,通过比例
和数据集类型
)来划分训练集、测试集,如:
(1)官方导入数据
(2)从文件夹导入数据集:
2.2 ? torch.utils.data.DataLoader
详解(Line4 & Line9)
torch.utils.data.DataLoader
是Pytorch自带的一个数据加载器,结合了数据集和取样器,并且可以提供多个线程处理数据集。
函数原型:
torch.utils.data.DataLoader
(dataset, batch_size=1, shuffle=None, sampler=None, batch_sampler=None, num_workers=0, collate_fn=None, pin_memory=False, drop_last=False, timeout=0, worker_init_fn=None, multiprocessing_context=None, generator=None, *, prefetch_factor=2, persistent_workers=False, pin_memory_device=‘’)
参数说明:
dataset(string)
:加载的数据集batch_size (int,optional)
:每批加载的样本大小(默认值:1)shuffle(bool,optional)
: 如果为True,每个epoch重新排列数据。sampler (Sampler or iterable, optional)
: 定义从数据集中抽取样本的策略。 可以是任何实现了 len 的 Iterable。 如果指定,则不得指定 shuffle 。batch_sampler (Sampler or iterable, optional)
: 类似于sampler,但一次返回一批索引。与 batch_size、shuffle、sampler 和 drop_last 互斥。num_workers(int,optional)
: 用于数据加载的子进程数。 0 表示数据将在主进程中加载(默认值:0)。pin_memory (bool,optional)
: 如果为 True,数据加载器将在返回之前将张量复制到设备/CUDA 固定内存中。 如果数据元素是自定义类型,或者collate_fn返回一个自定义类型的批次。drop_last(bool,optional)
: 如果数据集大小不能被批次大小整除,则设置为 True 以删除最后一个不完整的批次。 如果 False 并且数据集的大小不能被批大小整除,则最后一批将保留。 (默认值:False)timeout(numeric,optional)
: 设置数据读取的超时时间 , 超过这个时间还没读取到数据的话就会报错。(默认值:0)worker_init_fn(callable,optional)
: 如果不是 None,这将在步长之后和数据加载之前在每个工作子进程上调用,并使用工作 id([0,num_workers - 1] 中的一个 int)的顺序逐个导入。 (默认:None)
2.3 ? squeeze()
函数(Line37)
squeeze()
函数的功能是从矩阵shape中,去掉维度为1的。例如一个矩阵是的shape是(5, 1),使用过这个函数后,结果为(5, )。
4.2 ? 编写训练函数
1. optimizer.zero_grad()
函数会遍历模型的所有参数,通过内置方法截断反向传播的梯度流,再将每个参数的梯度值设为0,即上一次的梯度记录被清空。
2. loss.backward()
PyTorch的反向传播(即
tensor.backward()
)是通过autograd包来实现的,autograd包会根据tensor进行过的数学运算来自动计算其对应的梯度。
- 具体来说,
torch.tensor
是autograd
包的基础类,如果你设置tensor
的requires_grads
为True
,就会开始跟踪这个tensor
上面的所有运算,如果做完运算后使用tensor.backward()
,所有的梯度就会自动运算,tensor
的梯度将会累加到它的.grad
属性里。- 更具体地说,损失函数
loss
是由模型的所有权重w
经过一系列运算得到的,若某个w
的requires_grads
为True
,则w
的所有上层参数(后面层的权重w)的.grad_fn
属性中就保存了对应的运算,然后在使用loss.backward()
后,会一层层的反向传播计算每个w的梯度值,并保存到该w
的.grad
属性中。- 如果没有进行
tensor.backward()
的话,梯度值将会是None
,因此loss.backward()
要写在optimizer.step()
之前。
3. optimizer.step()
step()函数的作用是执行一次优化步骤,通过梯度下降法来更新参数的值。因为梯度下降是基于梯度的,所以在执行
optimizer.step()
函数前应先执行loss.backward()
函数来计算梯度。
- 注意:optimizer只负责通过梯度下降进行优化,而不负责产生梯度,梯度是
tensor.backward()
方法产生的。
4.4 ? 正式训练
1. model.train()
model.train()
的作用是启用 Batch Normalization 和 Dropout。
- 如果模型中有BN层(Batch Normalization)和Dropout,需要在训练时添加model.train()。model.train()是保证BN层能够用到每一批数据的均值和方差。对于Dropout,model.train()是随机取一部分网络连接来训练更新参数。
2. model.eval()
model.eval()
的作用是不启用 Batch Normalization 和 Dropout。
如果模型中有BN层(Batch Normalization)和Dropout,在测试时添加model.eval()。model.eval()是保证BN层能够用全部训练数据的均值和方差,即测试过程中要保证BN层的均值和方差不变。对于Dropout,model.eval()是利用到了所有网络连接,即不进行随机舍弃神经元。
训练完train样本后,生成的模型model要用来测试样本。在model(test)之前,需要加上model.eval(),否则的话,有输入数据,即使不训练,它也会改变权值。这是model中含有BN层和Dropout所带来的的性质。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!