NLP新赛kaggle预测议论文各部分的评分

2022-06-24 18:13 作者:深度之眼官方账号 0人读过 | 我要投稿

Frank老师：

BAT算法工程师，多次获得天池top10。

Cat_BAT老师：

目前此比赛金牌选手刚高考完。

赛题分析+baseline

1、赛题链接

https://www.kaggle.com/competitions/feedback-prize-effectiveness/overview

2、赛题描述

写作是成功的关键。特别是，议论文可以培养批判性思维和公民参与技能，并且可以通过实践得到加强。然而，只有 13% 的八年级教师要求他们的学生每周进行议论文的写作。

此外，资源限制不成比例地影响黑人和西班牙裔学生，因此与白人同龄人相比，他们更有可能在“低于基本”水平上写作。自动反馈工具是一种让教师更容易对分配给学生的写作任务进行评分的方法，这也将提高他们的写作技巧。

目前有许多自动写作反馈工具可用，但它们都有局限性，尤其是在辩论性写作方面。现有工具通常无法评估论证要素的质量，例如组织、证据和想法发展。最重要的是，由于成本原因，教育工作者无法使用其中许多写作工具，这对已经服务不足的学校产生了很大影响。

在本次比赛中，你将识别学生写作中的元素。更具体地说，你将自动对 6 至 12 年级学生撰写的论文中的文本进行分段，并对争论和修辞元素进行分类。你将可以访问有史以来最大的学生写作数据集，以测试您在自然语言处理方面的技能，这是一个快速发展的数据科学领域。

本次比赛数据集来自美国6~12年级学生撰写的议论文，每篇论文由Lead, Position, Claim, Counterclaim, Rebuttal. Evidence. Concluding Statement等七部分组成。训练集中每个部分提供Ineffective, Adequate, Effective三个级别的评分。

你的任务是创建一个模型，目的是在测试集中给定议论文中的某个部分进行一个级别的评分。本次赛题属于NLP的AES（Automated Essay Scoring）方向任务。

※ 比赛时间线

2022 5月 24日年 - 开始日期。

2022 8月 16日年 - 报名截止日期。您必须在此日期之前接受比赛规则才能参加比赛。

2022 8 月 16日年 - 团队合并截止日期。这是参与者可以加入或合并团队的最后一天。

2022 8月 23 日年 - 最终提交截止日期。

※ 丰厚的奖金

一等奖：12,000美元

二等奖：8,000美元

三等奖：5,000美元

数据EDA

训练数据一览：