【kaggle】K12主题-内容检索大赛baseline
课前导读
1、课程介绍
赛题介绍:
本次竞赛的目标是简化教育内容与课程中特定主题的匹配过程。你将开发一个准确和高效的模型,该模型是在K-12教育材料库中训练出来的,这些材料被组织成各种主题分类法。这些材料使用不同的语言,涵盖广泛的主题,特别是STEM(科学、技术、工程和数学)
赛题框架:
pytorch, huggingface, faiss
适合人群:
对NLP有一定基础的同学
竞赛笔记
一、赛题分析+baseline

1、赛题链接
https://www.kaggle.com/competitions/learning-equality-curriculum-recommendations
2、赛题描述
通过对K12场景的数据分析和建模,帮助同学熟练使用bert等预训练语言模型,尤其在文本检索语义召回学习领域,带领大家输入了解和实战对比学习范式等新方法
※ 比赛时间线
December 15, 2022 - Start Date.
March 7, 2023 - Entry Deadline.
March 7, 2023 - Team Merger Deadline.
March 14, 2023 - Final Submission Deadline.
※ 丰厚的奖金
一等奖:12,000美元
二等奖:8,000美元
三等奖:5,000美元
四等奖:5,000美元
3、数据描述
本次比赛有3个数据源分别是content
,topic
,correlations
, 分别存着content
文本信息,topic
的文本信息以及content
和topic
的匹配关系:
content shape: (154047, 8)
topic shape: (76972, 9)
correlations shape: (61517, 2)
content length 数据分布


topic 数据分布


4、评价指标

5、构建训练数据

6、Baseline流程

7、赛题难点思考
如何在多语言场景下高效表征topic和content
8、无痛涨分Trick
awp,对抗训练,multi-dropout
新赛正在报名中
关注【学姐带你玩AI】公众号回复“ k12baseline”领取baseline代码。

添加小享报名本次比赛班👉关注【学姐带你玩AI】公众号回复“ k12baseline”