Fashion-MNIST 数据集

日前,跨象乘云™ 发布了《Fashion-MNIST 服饰图片分类识别 - 人工智能垂直领域工程项目案例分享》。本案例基于 Fashion-MNIST 数据集,进行卷积神经网络(CNN)模型训练,实现对服装图片分类识别。通过该项目练习,学生将了解并掌握人工智能模型训练的完整工作生命周期,从:加载数据、数据增强、数据预处理、构建模型、模型评估,到最后的应用上线测试,等技术原理与实现手段。完成本项目后,学生将可以利用该模型,自动识别本地上传的服装图片,并识别区分出各种服装类型:T-shirt/top(T恤)/ Trouser(裤子)/ Pullover(套衫)/ Dress(裙子)/ Coat(外套)/ Sandal(凉鞋)/ Shirt(汗衫)/ Sneaker(运动鞋)/Bag(包)/ Ankle boot(踝靴)。该模型的部署与应用,将极大提升服装销售平台,如:优衣库,H&M,唯品会 …… 在智能导购,库存核算,在线商品搜索等系统上的效能。

Fashion-MNIST 是一个替代 MNIST 手写数字集的图像数据集。 它是由 Zalando(一家德国的时尚科技公司)旗下的研究部门提供。其涵盖了来自 10 种类别的共 7 万个不同商品的正面图片。Fashion-MNIST 的大小、格式和训练集 / 测试集划分与原始的 MNIST 完全一致。60000/10000 的训练测试数据划分,28x28 的灰度图片。你可以直接用它来测试你的机器学习和深度学习算法性能,且不需要改动任何的代码。 这个数据集的样子大致如下(每个类别占三行):

经典的 MNIST 数据集包含了大量的手写数字。十几年来,来自机器学习、机器视觉、人工智能、深度学习领域的研究员们把这个数据集作为衡量算法的基准之一。你会在很多的会议,期刊的论文中发现这个数据集的身影。实际上,MNIST 数据集已经成为算法作者的必测的数据集之一。有人曾调侃道:『如果一个算法在 MNIST 无效,那么它就根本没法用;而如果它在 MNIST 上有效,它在其他数据上也可能无效』。
Fashion-MNIST 的目的是要成为 MNIST 数据集的一个直接替代品。作为算法作者,你不需要修改任何的代码,就可以直接使用这个数据集。Fashion-MNIST 的图片大小,训练、测试样本数及类别数与经典 MNIST 完全相同。取代 MNIST 数据集的原因由如下几个:
MNIST 太简单了。 很多深度学习算法在测试集上的准确率已经达到 99.6%!
MNIST 被用烂了。
MNIST 数字识别的任务不代表现代机器学习。在 MNIST 上的想法没法迁移到真正的机器视觉问题上。
你可以使用以下链接(https://github.com/zalandoresearch/fashion-mnist)下载这个数据集。Fashion-MNIST 的数据集的存储方式和命名与经典 MNIST 数据集(http://yann.lecun.com/exdb/mnist/)完全一致。或者,你可以直接克隆这个代码库。数据集就放在 data/fashion 下。这个代码库还包含了一些用于评测和可视化的脚本。

t-SNE 在 Fashion-MNIST(左侧)和经典 MNIST 上的可视化(右侧)

PCA 在 Fashion-MNIST(左侧)和经典 MNIST 上的可视化(右侧)

Kaggle 下载链接:https://www.kaggle.com/zalando-research/fashionmnist
头图原文:https://medium.com/tensorflow/hello-deep-learning-fashion-mnist-with-keras-50fcff8cd74a