Kaggle-H&M个性化时尚推荐Baseline(多模态)
来源:投稿 作者:peter
编辑:学姐
Peter老师
目前本科在读,目前任香港某高校人工智能中心算法研究员,多次于业界顶尖公司、研究组实习,算法开发经验丰富。
赛题链接
https://www.kaggle.com/competitions/h-and-m-personalized-fashion-recommendations

赛题描述
在这个比赛中,您将获得客户在一段时间内的购买历史,以及支持的元数据。 可用的元数据涵盖从服装类型和客户年龄,到来自产品描述的文本数据,再到服装的图像数据。您的任务是预测在训练数据结束后的 7 天内每个客户将购买哪些商品。在此期间未进行任何购买的客户不计入评分。
※ 比赛时间线
2022年2 月 2 日 年 - 比赛开始。
2022年 5 月 2 日 年 - 报名截止日期。 您必须在此日期之前接受比赛规则才能参加比赛。
2022年5 月 2 日 年 - 团队合并截止日期。 这是参与者可以加入或合并团队的最后一天。
2022年5 月 9 日 年 - 最终提交截止日期。
※ 丰厚的奖金
第一名:15,000美元
第二名:10,000美元
第三名:8,000美元
第四名:7,000美元
第五名:5,000美元
第六名:5,000美元
※ 推荐理由
多模态学习是近日数据科学领域较新也是较火热的领域之一,内卷程度低,容易出成果也能在业界落地。是近期加入数据科学领域选择方向的不二之选。作为多模态比赛,你可以使用任何数据进行推断,如果想研究分类数据类型算法,或者深入研究NLP和CV,这取决于你。
通过参加这场比赛,你能学到从推荐系统到cv、nlp多领域的知识,拿到奖牌对于各方向的求职也大有裨益。
数据描述

题目提供了三张表格和一组照片共四种数据,数据详情如下:
images - 每一个article_id的商品所对应的图片
articles - 每一个article_id对应的商品具体的Metadata
customers - 每一个customer_id对应的顾客具体的Metadata
transactions_train - 历史购买记录
关注【学姐带你玩AI】公众号
后台回复“HM”,进入本比赛交流群,
领取baseline
数据可视化
1. 商品元数据的种类

2. 商品的种类分布


3. 客户相关的数据

4. 客户年龄分布

5. 客户对于新时尚的感知

6. 价格数据分布



评价指标
MAP@12:对于少于12次购物的客户,做完整的12个预测没有惩罚,所以对于每个客户都进行12个预测较为有利。

Baseline构建
我们利用用户不同年龄组之间的相关性进行相互预测,用户年龄组购买情况相关性系数矩阵如下:

我们对数据的观察:
最相似的两个年龄组是 (49, 59] & (59, 69], 相关性系数0.68.
最不相关的两个年龄组是 (-1, 19] & (69, 119], 相关性系数 0.09.
基于[EDA](https://www.kaggle.com/hechtjp/EDA-based-on-timeseries), (19, 29] 是最多人的年龄类别,和此类别最相关的年龄是, 系数为0.59.
各年龄段前100篇文章至少相差30%,把年龄类别分开预测会比统一预测更好
关注【学姐带你玩AI】公众号
后台回复“HM”,进入本比赛交流群,
领取baseline
Baseline流程
使用基于规则的算法
对每个年龄组分别预测
预测代码:
赛题难点思考
1、根据数据分析的结果进行更完善的特征工程
2、如何在预测中使用多种模态数据
关注【学姐带你玩AI】公众号
后台回复“HM”,进入本比赛交流群,
领取baseline