欢迎光临散文网 会员登陆 & 注册

NLP新赛kaggle预测议论文各部分的评分

2022-06-24 18:13 作者:深度之眼官方账号  | 我要投稿

Frank老师:

BAT算法工程师,多次获得天池top10。

Cat_BAT老师:

目前此比赛金牌选手刚高考完。



赛题分析+baseline



1、赛题链接

https://www.kaggle.com/competitions/feedback-prize-effectiveness/overview


2、赛题描述

写作是成功的关键。特别是,议论文可以培养批判性思维和公民参与技能,并且可以通过实践得到加强。然而,只有 13% 的八年级教师要求他们的学生每周进行议论文的写作。


此外,资源限制不成比例地影响黑人和西班牙裔学生,因此与白人同龄人相比,他们更有可能在“低于基本”水平上写作。自动反馈工具是一种让教师更容易对分配给学生的写作任务进行评分的方法,这也将提高他们的写作技巧。


目前有许多自动写作反馈工具可用,但它们都有局限性,尤其是在辩论性写作方面。现有工具通常无法评估论证要素的质量,例如组织、证据和想法发展。最重要的是,由于成本原因,教育工作者无法使用其中许多写作工具,这对已经服务不足的学校产生了很大影响。


在本次比赛中,你将识别学生写作中的元素。更具体地说,你将自动对 6 至 12 年级学生撰写的论文中的文本进行分段,并对争论和修辞元素进行分类。你将可以访问有史以来最大的学生写作数据集,以测试您在自然语言处理方面的技能,这是一个快速发展的数据科学领域。


本次比赛数据集来自美国6~12年级学生撰写的议论文,每篇论文由Lead, Position, Claim, Counterclaim, Rebuttal. Evidence. Concluding Statement等七部分组成。训练集中每个部分提供Ineffective, Adequate, Effective三个级别的评分。


你的任务是创建一个模型,目的是在测试集中给定议论文中的某个部分进行一个级别的评分。本次赛题属于NLP的AES(Automated Essay Scoring)方向任务


※ 比赛时间线

2022 5月 24日 年 - 开始日期。

2022 8月 16日 年 - 报名截止日期。您必须在此日期之前接受比赛规则才能参加比赛。

2022 8 月 16日 年 - 团队合并截止日期。这是参与者可以加入或合并团队的最后一天。

2022 8月 23 日 年 - 最终提交截止日期。


※ 丰厚的奖金

一等奖:12,000美元

二等奖:8,000美元

三等奖:5,000美元


数据EDA

训练数据一览:

最短短文691字,最长11641字,平均2315字。分布为长尾分布。


baseline

本次提供的baseline分为hypre-parameter,  data,  model,  Loss,  train五个方面。

整套baseline的代码非常清晰, 非常适合入门以及后续代码复用。

同样代码我们构建本地验证环境,分为input/working


评价指标

本次比赛的首个赛道关注的是分类的准确性。这一轨道的提交是使用多类对数损失评估。数据集中的每一行都有一个真正有效的标签。对于每一行,必须提交作文属于每个评分标签的预测概率。

这个公式是:

Submission.csv格式为:


领baseline代码

关注【学姐带你玩AI】公众号

回复“评分”添加小享领取


Trick

模型:多模型融合,上下文context联系建模等。


NLP新赛kaggle预测议论文各部分的评分的评论 (共 条)

分享到微博请遵守国家法律