欢迎光临散文网 会员登陆 & 注册

Kaggle-H&M个性化时尚推荐Baseline(多模态)

2022-04-20 18:32 作者:深度之眼官方账号  | 我要投稿

来源:投稿 作者:peter

编辑:学姐


Peter老师

目前本科在读,目前任香港某高校人工智能中心算法研究员,多次于业界顶尖公司、研究组实习,算法开发经验丰富。


赛题链接

https://www.kaggle.com/competitions/h-and-m-personalized-fashion-recommendations 



赛题描述

在这个比赛中,您将获得客户在一段时间内的购买历史,以及支持的元数据。 可用的元数据涵盖从服装类型和客户年龄,到来自产品描述的文本数据,再到服装的图像数据。您的任务是预测在训练数据结束后的 7 天内每个客户将购买哪些商品。在此期间未进行任何购买的客户不计入评分。


※ 比赛时间线


2022年2 月 2 日 年 - 比赛开始。

2022年 5 月 2 日 年 - 报名截止日期。 您必须在此日期之前接受比赛规则才能参加比赛。

2022年5 月 2 日 年 - 团队合并截止日期。 这是参与者可以加入或合并团队的最后一天。

2022年5 月 9 日 年 - 最终提交截止日期。


※ 丰厚的奖金


第一名:15,000美元

第二名:10,000美元

第三名:8,000美元

第四名:7,000美元

第五名:5,000美元

第六名:5,000美元


※ 推荐理由


多模态学习是近日数据科学领域较新也是较火热的领域之一,内卷程度低,容易出成果也能在业界落地。是近期加入数据科学领域选择方向的不二之选。作为多模态比赛,你可以使用任何数据进行推断,如果想研究分类数据类型算法,或者深入研究NLP和CV,这取决于你。


通过参加这场比赛,你能学到从推荐系统到cv、nlp多领域的知识,拿到奖牌对于各方向的求职也大有裨益。


数据描述



题目提供了三张表格和一组照片共四种数据,数据详情如下:

  • images - 每一个article_id的商品所对应的图片

  • articles - 每一个article_id对应的商品具体的Metadata

  • customers - 每一个customer_id对应的顾客具体的Metadata

  • transactions_train - 历史购买记录

关注【学姐带你玩AI】公众号

后台回复“HM”,进入本比赛交流群,

领取baseline

数据可视化


1. 商品元数据的种类



2. 商品的种类分布


3. 客户相关的数据


4. 客户年龄分布

5. 客户对于新时尚的感知

6. 价格数据分布



评价指标


MAP@12:对于少于12次购物的客户,做完整的12个预测没有惩罚,所以对于每个客户都进行12个预测较为有利。



Baseline构建

我们利用用户不同年龄组之间的相关性进行相互预测,用户年龄组购买情况相关性系数矩阵如下:



我们对数据的观察:

  • 最相似的两个年龄组是 (49, 59] & (59, 69], 相关性系数0.68.

  • 最不相关的两个年龄组是 (-1, 19] & (69, 119], 相关性系数 0.09.

  • 基于[EDA](https://www.kaggle.com/hechtjp/EDA-based-on-timeseries), (19, 29] 是最多人的年龄类别,和此类别最相关的年龄是, 系数为0.59.

  • 各年龄段前100篇文章至少相差30%,把年龄类别分开预测会比统一预测更好

关注【学姐带你玩AI】公众号

后台回复“HM”,进入本比赛交流群,

领取baseline

Baseline流程

  • 使用基于规则的算法

  • 对每个年龄组分别预测

预测代码:



赛题难点思考


1、根据数据分析的结果进行更完善的特征工程

2、如何在预测中使用多种模态数据


关注【学姐带你玩AI】公众号

后台回复“HM”,进入本比赛交流群,

领取baseline


Kaggle-H&M个性化时尚推荐Baseline(多模态)的评论 (共 条)

分享到微博请遵守国家法律