CNN识别手写吉尔吉斯语字母以及相关

2023-09-13 17:13 作者:潘多拉茶壶 0人读过 | 我要投稿

0. 前言

本专栏主要介绍了一下我做的一个小的深度学习项目，并分享一下我的感受。主要面向有一定深度学习经验的人，如果有任何不懂的或者我有什么错误的地方欢迎评论区留言。

这里分成两部分来介绍，首先是项目具体内容，然后是我对这个项目的一些相关讨论。

1. 项目内容

1.1 项目介绍

使用CNN（卷积神经网络）实现识别手写吉尔吉斯字母的分类器，即输入一个手写的吉尔吉斯字母的PNG图片，输出对应的字母。

数据集：https://www.kaggle.com/datasets/ilgizzhumaev/database-of-36-handwritten-kyrgyz-letters

具体大概是这个样子（共36种吉尔吉斯字母）：

1.2 注意事项

数据集文件夹直接使用了吉尔吉斯字母作为文件夹名称，在中文的windows系统下，这些名称会被识别为中文字符，程序中需要注意进行转换。
数据集为134x134的PNG图片，直接全部读取会占用大量内存，直接作为神经网络的输入也过大，这里需要对其作预处理。
数据集内部有做训练集（train）和测试集（test）的划分，严格来说测试集用作超参数的确定，会部分参与训练，因此严格来说应该要保留一个验证集（validation），其没有参与任何训练。这里直接将数据集中的测试集作为验证集，而不再去专门划分测试集，但是后续描述依旧称其为测试集（test）。
神经网络的实现这里使用tensorflow的keras包（https://keras.io/getting_started），因此程序使用python实现（即便我很讨厌python）。

1.3 数据预处理

这里统一将输入的数据转换成32x32的灰度图像作为输入，具体操作为（借助opencv包实现）：

使用opencv读取图片
如果图像有透明度通道，首先将其置于纯白的背景下得到没有透明度的BGR图像
使用opencv的内置函数将BGR图像转为单通道的灰度图像
将整个灰度图像做仿射变化，使得最亮颜色为255，而最暗颜色为0（最大化对比度）
裁剪周围多余的白色背景（容差为32）
将裁剪后的图像使用白色向周围延申成正方形图像
缩放图像到28x28
将周围填充2宽度的白色像素，得到32x32的灰度图像

预处理前后对比：

在这里最后再将得到的图像数组除以255归一化并使用浮点数存储，并且使用1减去结果（反色），使得重要的字符部分接近1而不重要的背景接近0。

1.4 CNN的结构

最后确认下来的结构如下图：

对应代码（model.py）：

其实模型本身没什么特别的，这里提几个比较重要的点：

所有卷积核采用3x3的大小。
其中DepthwiseConv2D的使用主要是控制整个模型的参数数量。
除了最后分类使用softmax，其余部分统一使用relu作为激活函数。
图片展示的为默认最简单的结构，实际可以通过dropout和BN参数来增加这两个层，以及append_layers来增加额外的中间层。

参数数量：

1.5 CNN的训练

使用交叉熵作为损失函数，使用keras默认自带的SGD优化器，设置batch_size=32，epoch=32(or 24)，初始学习率设置为0.1，策略为前4个epoch固定为0.1，后续按照0.4/epoch递减，如下图：

关于这些选取的解释为：

损失函数：由于是分类问题，选用交叉熵（回归问题则选择均方差，这是极大似然估计的结论）。
优化器，batch_size，epoch：认为这只是一个最优化问题，因此只需要保证在可以接受的时间内达到（或基本接近）最小值即可，因此（不去考虑早停的情况下）如何选择没有本质区别。
学习率：同样认为只是一个最优化问题，因此学习率只要保证迭代收敛即可。

1.6 训练结果

对于上述最简单的模型（不增加dropout或BN），有结果：

其中top-1准确率表示模型预测的概率最高的分类就是正确分类的比例，而top-5准确率表示模型预测的概率最高5个分类中包含正确分类的比例

很明显，训练过程出现了过拟合的现象，随着训练轮次增加，虽然训练集上loss持续减少，但是测试集上的loss先下降后上升。

许多地方会采用早停的技术来抑制这种过拟合现象，即对于上述情况，会在epoch=11处停止进一步训练，将其直接作为最终模型，此时测试集上的loss最小。

这里我并不推荐这种做法，首先这样我们的测试集就一定程度参与了训练过程，用来确定“训练轮次”这个超参数（上面说过，这里还是将测试集作为验证集来使用，不希望其参与训练过程）。

另一点则是，应该认为训练过程是一个最优化的过程，“早停”实际上并没有让这个模型中的参数达到最优，这样会有更多的东西影响训练结果：例如优化器的选择，batch_size，等等。