欢迎光临散文网 会员登陆 & 注册

Kaggle新赛:LLM文本检测大赛上分攻略(NLP)

2023-11-11 14:00 作者:深度之眼官方账号  | 我要投稿


赛题名称:LLM - Detect AI Generated Text

赛题链接:https://www.kaggle.com/competitions/llm-detect-ai-generated-text

赛题背景

随着LLM的普及,许多人担心它们会取代或改变通常由人类完成的工作。教育工作者特别关注它们对学生技能发展的影响,尽管许多人仍然乐观地认为LLM最终将成为帮助学生提高写作技巧的有用工具。

LLM可能导致剽窃的潜在问题是学术界最大的关注点之一。LLM在大规模的文本和代码数据集上训练,这意味着它们能够生成与人类书写的文本非常相似的文本。例如,学生可以使用大型语言模型生成不是他们自己的文章,错过了关键的学习步骤。

赛题任务

本次比赛要求参赛者开发一个机器学习模型,该模型可以准确检测论文是由学生还是LLM撰写的。

参赛者在本次竞赛中的工作可以帮助识别大型语言模型的特征,并推进该领域的技术发展。

评价指标

提交的方案将基于预测概率和观测目标之间的ROC曲线下面积进行评估。

提交文件

对测试集中的每个id,参赛者必须预测生成该文章的概率。文件应包含一个标头,并采用以下格式:

数据描述

竞赛数据集包含约10000篇文章,其中一些是学生写的,一些是由各种大型语言模型(LLM)生成的。竞赛的目标是确定文章是否由LLM生成。

所有文章都是针对7个作文题目中的一个而写的。在每个题目中,学生被要求阅读一个或多个源文本,然后写出回应。在生成文章时,同样的信息可能已经作为输入提供给LLM,也可能没有提供。

来自两个题目的文章组成训练集,其余的文章组成隐藏的测试集。训练数据集中的几乎所有文章都是学生写的,只给出了几篇作为示例生成的文章。

文件和字段信息:

  • {test/train}_essays.csv

    • id - 每篇文章的唯一标识符。

    • prompt_id - 标识文章所对应的题目。

    • text - 文章正文。

    • generated - 文章是由学生写的(0)还是由LLM生成的(1)。

  • train_prompts.csv - 文章是针对这些字段中的信息而写的。

    • prompt_id - 每个题目的唯一标识符。

    • prompt_name - 题目的标题。

    • instructions - 给学生的指示。

    • source_text - 文章回应的文章文本,Markdown格式。

  • sample_submission.csv - 正确格式的提交文件。

时间安排

  • 2023 年 10 月 31 日 - 开始日期

  • 2024 年 1 月 15 日 - 报名截止日期

  • 2024 年 1 月 15 日 - 合并截止日期

  • 2024 年 1 月 22 日 - 提交截止日期

赛题奖金

排名奖

  • 第一名 - 20,000美元

  • 第二名 - 10,000美元

  • 第三名 - 8,000美元

  • 第四名 - 7,000美元

  • 第五-七名 - 5,000美元

效率奖

  • 第一名 - 20,000美元

  • 第二名 - 10,000美元

  • 第三名 - 8,000美元

  • 第四名 - 7,000美元

  • 第五名 - 5,000美元

新赛火热报名中!!!

戳海报了解详情👇

添加小享,报名新赛
有其他问题也可以咨询哦


Kaggle新赛:LLM文本检测大赛上分攻略(NLP)的评论 (共 条)

分享到微博请遵守国家法律