Kaggle新赛:LLM文本检测大赛上分攻略(NLP)

赛题名称:LLM - Detect AI Generated Text
赛题链接:https://www.kaggle.com/competitions/llm-detect-ai-generated-text
赛题背景
随着LLM的普及,许多人担心它们会取代或改变通常由人类完成的工作。教育工作者特别关注它们对学生技能发展的影响,尽管许多人仍然乐观地认为LLM最终将成为帮助学生提高写作技巧的有用工具。
LLM可能导致剽窃的潜在问题是学术界最大的关注点之一。LLM在大规模的文本和代码数据集上训练,这意味着它们能够生成与人类书写的文本非常相似的文本。例如,学生可以使用大型语言模型生成不是他们自己的文章,错过了关键的学习步骤。
赛题任务
本次比赛要求参赛者开发一个机器学习模型,该模型可以准确检测论文是由学生还是LLM撰写的。
参赛者在本次竞赛中的工作可以帮助识别大型语言模型的特征,并推进该领域的技术发展。
评价指标
提交的方案将基于预测概率和观测目标之间的ROC曲线下面积进行评估。
提交文件
对测试集中的每个id
,参赛者必须预测生成该文章的概率。文件应包含一个标头,并采用以下格式:
数据描述
竞赛数据集包含约10000篇文章,其中一些是学生写的,一些是由各种大型语言模型(LLM)生成的。竞赛的目标是确定文章是否由LLM生成。
所有文章都是针对7个作文题目中的一个而写的。在每个题目中,学生被要求阅读一个或多个源文本,然后写出回应。在生成文章时,同样的信息可能已经作为输入提供给LLM,也可能没有提供。
来自两个题目的文章组成训练集,其余的文章组成隐藏的测试集。训练数据集中的几乎所有文章都是学生写的,只给出了几篇作为示例生成的文章。
文件和字段信息:
{test/train}_essays.csv
id
- 每篇文章的唯一标识符。prompt_id
- 标识文章所对应的题目。text
- 文章正文。generated
- 文章是由学生写的(0)还是由LLM生成的(1)。train_prompts.csv - 文章是针对这些字段中的信息而写的。
prompt_id
- 每个题目的唯一标识符。prompt_name
- 题目的标题。instructions
- 给学生的指示。source_text
- 文章回应的文章文本,Markdown格式。sample_submission.csv - 正确格式的提交文件。
时间安排
2023 年 10 月 31 日 - 开始日期
2024 年 1 月 15 日 - 报名截止日期
2024 年 1 月 15 日 - 合并截止日期
2024 年 1 月 22 日 - 提交截止日期
赛题奖金
排名奖
第一名 - 20,000美元
第二名 - 10,000美元
第三名 - 8,000美元
第四名 - 7,000美元
第五-七名 - 5,000美元
效率奖
第一名 - 20,000美元
第二名 - 10,000美元
第三名 - 8,000美元
第四名 - 7,000美元
第五名 - 5,000美元
新赛火热报名中!!!
戳海报了解详情👇

添加小享,报名新赛
有其他问题也可以咨询哦
