MNIST数据集上Pytorch中的卷积自编码器

2021-08-24 19:26 作者:深度之眼官方账号 0人读过 | 我要投稿

从pytorch进行深度学习模型的学习系列教程已经完成前5期啦！希望大家能跟着学姐共同进步！学姐制作这部分教程就是为了大家能够在新入门的时候通过实例使 Pytorch 尽可能地更加直观和易于访问。觉得不错的就帮学姐宣传宣传吧！本篇主要内容是《MNIST数据集上Pytorch中的卷积自编码器》

自编码器提供了一种压缩图像并提取最重要信息的方法。该模型还有许多扩展以提高性能，其中一些是去噪自动编码器、变分自动编码器和生成对抗网络。请大家认真食用！

系列教程传送门

认识自编码器

自编码器是一种无监督的深度学习算法，它学习输入数据的编码表示，然后将相同的输入重构为输出。它由编码器和解码器两个网络组成。Encoder将高维输入压缩为低维潜在代码，也称为潜在代码或编码空间，以从中提取最相关的信息，而Decoder则对编码数据进行解压缩并重新创建原始输入。

这种架构的目标是在编码时最大化信息并最小化重构误差。

重构误差是什么？重构误差也可以叫重构损失，通常是输入为实值时，重构输入与原始输入之间的均方误差。如果输入数据是分类数据，则使用的损失函数是交叉熵损失。

导入库和MNIST数据集

使用torchvision库导入数据集，下载训练和测试数据集，并将图像数据集转换为Tensor。

不需要对图像进行标准化，因为数据集包含彩色图像，在将训练数据集划分为训练集和验证集之后，random_split这为这两个集提供了一个随机分区。DataLoader用于创建训练，验证和测试集数据加载器，数据加载器被分割成小批量。batchsize是该模型的训练过程中每次迭代中使用的样本的数目。

定义卷积自编码器

在这里用卷积层定义自动编码器。

卷积自编码器由两类组成：一类用于编码器，一类用于解码器。

编码器将包含三个卷积层和两个全连接层。

添加了一些批处理规范层作为正则化器，解码器将具有相同的架构，但顺序相反。

初始化损失函数和优化器

我们需要在训练自动编码器之前定义构建块：

torch.device 使用 GPU 等硬件加速器训练模型
在Encoder与Decoder网络中，将被移动到的设备
nn.MSEloss 和 torch.optim.Adam

训练模型和评估模型

我们定义了一个函数来训练 AE 模型。

首先，将输入图像传递给编码器。

然后，编码后的数据被传递给编码器，我们用loss_fn(x_hat,x)计算重构损失。在我们清除梯度以不累积其他值后，我们执行反向传播。

最后，我们通过调用opt.step()来计算梯度。

创建训练函数后，定义一个函数来评估模型的性能。同上我们将图像传递给编码器，编码后的图像被传递给解码器。

然后，将所有图像批次和重建存储到两个不同的列表中，用于计算测试损失。

还有一个想法是：训练的每个时期看到重建的图像，目的是了解自动编码器如何从输入图像中学习。

接下来将测试代码分解考虑规划：

test_dataset[i][0].unsqueeze(0)用于从测试数据集中提取第i个图像，然后在0轴上增加1维，此步骤需要将图像传递给自动编码器。
decoder(encoder(img))用于获得重建图像。
plt.imshow(img.cpu().squeeze().numpy())用于绘制原始图像。

squeeze()删除之前添加的维度，对于可视化图像至关重要。

numpy()将tensor转换为ndarray，这是函数plt.imshow接受的唯一对象类型。

numpy()将tensor对象的副本返回到CPU内存中。