Kaggle比赛虾皮网商品匹配大赛多模态基线模型baseline
竞赛介绍
Shopee Price Match Guarantee比赛希望我们能够从商品的图片、标题判断哪些是同样的商品
简单来讲,像是如果我在虾皮(xiapi.xiapibuy.com)上面搜寻「switch」这个词会出以下页面。

而可以看到上面其实有些是Switch主机,有些是switch+健身环,有些则是保护壳、收纳袋之类的,这次的比赛就是希望能够仅从「图片+商品标题」判断出来哪些是同样的商品,借此shopee能够做出更精准的商品推荐、比价、甚至可能可以做假货分析(同样商品价格落差太大)…等新功能
而实际data如下:

赛题任务分析
里面最重要的就是image、title、label_group这三个feature。
image : 这个商品的图片名称
title : 商品的标题
label_group :商品的类别,也就是我们要预测的target(同一个类别可以有多个商品)
而image_phash就是一种基础的图片hashing方法(越相似的图片hashing值会越接近),在这比赛中会是最最最基础的baseline,但是因为大部分人都直接重抽图片Feature,所以image_phash等于废掉。
而我们要预测的就是给定一个新的商品(一样包含image、title),找出哪些商品跟他属于一样的类别。
这个比赛最困难的就是如何对image跟title抽取feature
下面是data中的一些图片,可以看出图片的拍摄方法、品质可能差异极大,这也是其中一个对商品图片分类困难点。

而这个比赛的Evaluation方法是F1 Score,因为是标准的衡量方法,这边不赘述。
基于文本图像的多模态商品匹配模型
3.1 导入包
3.2 加载数据
有些地方空格不是很明显,大家在打代码的时候注意空格哦!
3.3 基于Resnet18提取图像特征
以下为提取商品图片图像特征的模块
把每张图片的图像特征存储起来
3.4 基于KNN算法构建图像匹配的候选结果
3.5 基于Tfidf向量与余弦相似度提取候选结果
3.6 合并图像和文本的两种结果
好了!今天的kaggle比赛的实战案例就分享到这里,需要完整代码的关注【学姐带你玩AI】公众号,后台回复“kaggle21”即可领取。
如果你想要组队打比赛不知道如何开始
或者是学习研究上有什么困难
都可以来公众号联系学姐
↓↓↓


点赞转发关注,给学姐点个赞叭!