中文 MNIST 手写汉字数字识别

今天是大年初一,跨象乘云祝各位粉丝在新的一年福爱 (Ai) 盈盈,虎年虎虎声威!籍此新春之际,跨象乘云带来一份中文 MNIST 手写汉字数字数据集并附上相关代码,通过知识微店开源发布。

自从 MNIST 手写数字识别数据集发布以来,已成为机器学习的基线评估标准数据集。随着深度学习技术的发展,各种新模型均能在原版 MNIST 数据集上获得优异的表现,因此 原版 MNIST 逐步失去了挑战性。正因如此,在 MNIST 的启发下,逐步出现了更多的变种,譬如:我们此前在多个视频中采用的 Fashion MNIST 时尚衣物数据集。



在本次实验中,喜迎农历新年,我们将采用一份由纽卡斯尔大学发布的中文手写数字数据集,通过神经网络实现识别。本数据集共包含 15,000 张 64x64 像素中文手写数字图像样本。由 100 名志愿者手写,每个志愿者提供十个数字样本,每个样本包含完整的十五个汉字数字。
我们首先加载库和数据,然后,继续探索性数据分析 (EDA)。随后,进行特征工程和创建模型等树预处理工作,并且将数据集分为训练集、验证集和测试集。之后,通过 Keras 使用 Tensorflow 运行模型,并使用 Dropouts,可变学习速度 ( LearningRateScheduler ) 和基于验证集准确率 ( val_accuracy ) 的的早停策略。最后,利用最优模型对测试集进行预测。用获得的最佳模型在测试集上达到了 97% 的预测准确率。

个人用户请通过微信搜索【跨象乘云】公众号(kxcy_ai)或扫描下方二维码,关注后发送关键字【220207】,免费获取视频内代码与数据集。跨象乘云™ 原创实验演示视频内全部代码、数据集仅授权予个人用户学习与实验使用。禁止用于二次销售、分发传播、课堂教学及培训用途。校企用户采购请通过【了解我们】->【商务合作】联系。

