欢迎光临散文网 会员登陆 & 注册

【kaggle新赛】美国专利短语相似度大赛baseline

2022-05-10 19:58 作者:深度之眼官方账号  | 我要投稿

NO.赛题分析+baseline


1、赛题链接


https://www.kaggle.com/competitions/us-patent-phrase-to-phrase-matching/overview


2、赛题描述


本次竞赛的目标是通过建立一个模型来判断子不同语境下,不同专利短语之间的相似程度,字面上相似的短语间,在不同语境下的相似度可能完全不同。


商业价值:帮助us专利机构在面对大量新的专利申请时候,进行归档处理


比赛时间线


2022 5 21 年 - 开始日期。

2022 6 13 年 - 报名截止日期。 您必须在此日期之前接受比赛规则才能参加比赛。

2022 6 13 年 - 团队合并截止日期。 这是参与者可以加入或合并团队的最后一天。

2022 6 20 年 - 最终提交截止日期。


丰厚的奖金


• 一等奖:12,000美元

• 二等奖:8,000美元

• 三等奖:5,000美元


3、数据描述


本次比赛提供了5份数据分别是 train, test, sample_submission, 其中test, sample_submission为提交答案时用。


重点是如下1个文件

  • train.csv 文件标记了短语之前的相似度


3.1 训练数据分析:


• id - 一个unique 标记符来表示 row id.

• anchor - 第一个短语.

• target - 第二个短语

• context - 前文说的,短语1和短语2是在那种语境下进行判断的

• score - 两个短语之间的相似度得分


其中

Number of rows in train data: 36473

Number of columns in train data: 5


数据样例



在标记数据中,anchor 短语长度分布,具体的分布如下,最长大概是5个词



traget 短语长度分布,具体的分布如下, 最长大概是11个词



context, 不同的“语境”及不同的专利体系分类下


* A: Human Necessities

* B: Operations and Transport

* C: Chemistry and Metallurgy

* D: Textiles

* E: Fixed Constructions

* F: Mechanical Engineering

* G: Physics

* H: Electricity

* Y: Emerging Cross-Sectional Technologies



score 相似度得分:模型的label监督数据



4、评价指标


Pearson correlation coefficient:

https://en.wikipedia.org/wiki/Pearson_correlation_coefficient


5、构建训练数据


下面演示如何将3个数据merge到一起, 具体可以详见baseline代码,里面有更为详细的介绍

分桶后的数据如下:



6、Baseline流程


1. 加载数据,切分CV,定义dataloader




2. 定义模型




3. 定义训练函数


4. 定义eval函数




5. 调参完成训练,上传权重提交成绩




7、赛题难点思考


1、cv 和 lb的不一致导致的提分问题

2、专业领域很多简称和没有在vocab中收录的词会不会对模型造成影响


8、无痛涨分Trick

  • 多drop out 对比学习

  • 对抗训练

  • r_drop

  • 模型融合

本赛题带打课程

开营时间:5月14日

关注【学姐带你玩AI】公众号

回复“报名”添加课程顾问

立即跟班打比赛

【kaggle新赛】美国专利短语相似度大赛baseline的评论 (共 条)

分享到微博请遵守国家法律