金牌方案分享!百度西交大大数据菁英班图像分类竞赛
来源:投稿 作者:LSC
编辑:学姐
比赛名次
最终分数0.98079分,排名第一

赛题任务:
基于Caltech
数据集的图像分类,Caltech101
包含102个类,每种类别大约40到800个图像,训练集总计7999图像。本次试题需要图片为输入,通过课程学习的分类方法(支持向量机、深度神经网络、卷积神经网络等)从中识别该图像属于哪一个类别。
数据说明
images
下存储所有的训练+测试图像,trian.txt
中存储用于训练图像路径和对应标注,图片路径+\t+标签
,test.txt
中存储测试图像。
限制
只能用paddle
框架和在astudio
上运行代码
提交答案
考试提交,需要提交模型代码项目版本和结果文件。结果文件为TXT文件格式,命名为result.txt
,文件内的字段需要按照指定格式写入。
结果文件要求:
每一行为:图像名\t标签 101_0073.jpg\t13
输出结果应检查是否为1145行数据,否则成绩无效。
输出结果文件命名为result.txt,一行一个数据
基本思路
为了方便使用各种技巧,我使用了paddlex
框架,这是由paddle写出的封装性强、使用便捷的框架,并且对数据集划分训练集和验证集,使用有知识蒸馏的技巧的resnet101模型。
训练前我对训练集使用了数据增强,包括随机翻转
、mixup
、正则化
等,训练时采用了标签平滑
、学习率衰减
等策略,模型准确率达到97%,我再将全部的数据都放进模型训练,对测试集进行测试,提交后准确率达到98%。
关注【学姐带你玩AI】公众号
kaggle新赛stable diffusion火热报名中
回复“diffusion”获取baseline代码数据集,感兴趣的同学快来!