【kaggle新赛】美国专利短语相似度大赛baseline
NO.1 赛题分析+baseline

1、赛题链接
https://www.kaggle.com/competitions/us-patent-phrase-to-phrase-matching/overview
2、赛题描述
本次竞赛的目标是通过建立一个模型来判断子不同语境下,不同专利短语之间的相似程度,字面上相似的短语间,在不同语境下的相似度可能完全不同。
商业价值:帮助us专利机构在面对大量新的专利申请时候,进行归档处理
※ 比赛时间线
• 2022 5月 21日 年 - 开始日期。
• 2022 6 月 13 日 年 - 报名截止日期。 您必须在此日期之前接受比赛规则才能参加比赛。
• 2022 6 月 13 日 年 - 团队合并截止日期。 这是参与者可以加入或合并团队的最后一天。
• 2022 6 月 20 日 年 - 最终提交截止日期。
※ 丰厚的奖金
• 一等奖:12,000美元
• 二等奖:8,000美元
• 三等奖:5,000美元
3、数据描述
本次比赛提供了5份数据分别是 train, test, sample_submission, 其中test, sample_submission为提交答案时用。
重点是如下1个文件
train.csv 文件标记了短语之前的相似度
3.1 训练数据分析:
• id - 一个unique 标记符来表示 row id.
• anchor - 第一个短语.
• target - 第二个短语
• context - 前文说的,短语1和短语2是在那种语境下进行判断的
• score - 两个短语之间的相似度得分
其中
Number of rows in train data: 36473
Number of columns in train data: 5
数据样例

在标记数据中,anchor 短语长度分布,具体的分布如下,最长大概是5个词

traget 短语长度分布,具体的分布如下, 最长大概是11个词

context, 不同的“语境”及不同的专利体系分类下
* A: Human Necessities
* B: Operations and Transport
* C: Chemistry and Metallurgy
* D: Textiles
* E: Fixed Constructions
* F: Mechanical Engineering
* G: Physics
* H: Electricity
* Y: Emerging Cross-Sectional Technologies

score 相似度得分:模型的label监督数据

4、评价指标
Pearson correlation coefficient:
https://en.wikipedia.org/wiki/Pearson_correlation_coefficient
5、构建训练数据
下面演示如何将3个数据merge到一起, 具体可以详见baseline代码,里面有更为详细的介绍
分桶后的数据如下:

6、Baseline流程
1. 加载数据,切分CV,定义dataloader
2. 定义模型
3. 定义训练函数
4. 定义eval函数
5. 调参完成训练,上传权重提交成绩
7、赛题难点思考
1、cv 和 lb的不一致导致的提分问题
2、专业领域很多简称和没有在vocab中收录的词会不会对模型造成影响
8、无痛涨分Trick
多drop out 对比学习
对抗训练
r_drop
模型融合
本赛题带打课程
开营时间:5月14日
关注【学姐带你玩AI】公众号
回复“报名”添加课程顾问
立即跟班打比赛