欢迎光临散文网 会员登陆 & 注册

Kaggle比赛虾皮网商品匹配大赛多模态基线模型baseline

2021-07-28 11:55 作者:深度之眼官方账号  | 我要投稿


竞赛介绍

Shopee Price Match Guarantee比赛希望我们能够从商品的图片、标题判断哪些是同样的商品

简单来讲,像是如果我在虾皮(xiapi.xiapibuy.com)上面搜寻「switch」这个词会出以下页面。



而可以看到上面其实有些是Switch主机,有些是switch+健身环,有些则是保护壳、收纳袋之类的,这次的比赛就是希望能够仅从「图片+商品标题」判断出来哪些是同样的商品,借此shopee能够做出更精准的商品推荐、比价、甚至可能可以做假货分析(同样商品价格落差太大)…等新功能


而实际data如下:



赛题任务分析


里面最重要的就是image、title、label_group这三个feature。

  • image : 这个商品的图片名称


  • title : 商品的标题


  • label_group :商品的类别,也就是我们要预测的target(同一个类别可以有多个商品)


  • 而image_phash就是一种基础的图片hashing方法(越相似的图片hashing值会越接近),在这比赛中会是最最最基础的baseline,但是因为大部分人都直接重抽图片Feature,所以image_phash等于废掉。


  • 而我们要预测的就是给定一个新的商品(一样包含image、title),找出哪些商品跟他属于一样的类别。


这个比赛最困难的就是如何对image跟title抽取feature


下面是data中的一些图片,可以看出图片的拍摄方法、品质可能差异极大,这也是其中一个对商品图片分类困难点。



而这个比赛的Evaluation方法是F1 Score,因为是标准的衡量方法,这边不赘述。


基于文本图像的多模态商品匹配模型


3.1 导入包


3.2 加载数据

有些地方空格不是很明显,大家在打代码的时候注意空格哦!


3.3 基于Resnet18提取图像特征


以下为提取商品图片图像特征的模块



把每张图片的图像特征存储起来


3.4 基于KNN算法构建图像匹配的候选结果



3.5 基于Tfidf向量与余弦相似度提取候选结果


3.6 合并图像和文本的两种结果


好了!今天的kaggle比赛的实战案例就分享到这里,需要完整代码的关注【学姐带你玩AI】公众号,后台回复“kaggle21”即可领取。


如果你想要组队打比赛不知道如何开始

或者是学习研究上有什么困难

都可以来公众号联系学姐

↓↓↓


点赞转发关注,给学姐点个赞叭!




Kaggle比赛虾皮网商品匹配大赛多模态基线模型baseline的评论 (共 条)

分享到微博请遵守国家法律