【直播预告】SFFAI 120 文本理解专题
大多数现有的机器阅读理解 (MRC) 数据集都采用散文段落或历史题作为输入,而为了适应话语解析和会议摘要等多方对话的应用,对话阅读理解这个领域开始受到关注。本期我们邀请到了来自哈尔滨工业大学的李家琦同学,分享他提出的面向多人对话的机器阅读理解与语篇结构分析数据集Molweni。

讲者介绍
李家琦,哈尔滨工业大学计算机专业博士生,研究方向为多人对话语篇结构分析和多人对话机器阅读理解,以第一作者发表CCF推荐国际会议和ESI期刊论文3篇。
会议题目
Molweni:面向多人对话的机器阅读理解与语篇结构分析数据集
会议摘要
在本文中,我们提出了构建于多人对话的英文机器阅读理解(MRC)数据集——Molweni,并覆盖了对话语篇结构。Molweni源自于Ubuntu聊天语料库,包括10,000个对话,共计88,303条话语(utterance)。我们共标注了30,066个问题,包括可回答和不可回答的问题。Molweni独特地为其多人对话提供了语篇结构信息,共标注了78,245个语篇关系实例,为多人对话语篇结构分析(Discourse parsing)贡献了大规模数据。实验表明,Molweni对于现有的MRC模型是一个具有挑战性的数据集;SQuAD 2.0数据集上的强大模型BERT-wwm在Molweni数据集上只取得67.7%的F1值,相比于其在SQuAD 2.0上的表现有20+%的显著下降。

论文标题:Molweni: A Challenge Multiparty Dialogue-based Machine Reading Comprehension Dataset with Discourse Structure
在线阅读:https://bbs.sffai.com/d/274-molweni
会议亮点
1、我们发布了首个包含语篇结构信息的大规模多人对话机器阅读理解数据集Molweni;
2、Molweni数据集为多人对话语篇结构分析任务提供了大规模数据标注。
直播时间
2021年8月29日(周日)20:00—21:00 线上直播
关注微信公众号:人工智能前沿讲习,对话框回复“SFFAI120”,获取入群二维码
注:直播地址会分享在交流群内

现代科学技术高度社会化,在科学理论与技术方法上更加趋向综合与统一,为了满足人工智能不同领域研究者相互交流、彼此启发的需求,我们发起了SFFAI这个公益活动。SFFAI每周举行一期线下活动,邀请一线科研人员分享、讨论人工智能各个领域的前沿思想和最新成果,使专注于各个细分领域的研究者开拓视野、触类旁通。
SFFAI目前主要关注机器学习、计算机视觉、自然语言处理等各个人工智能垂直领域及交叉领域的前沿进展,将对线下讨论的内容进行线上传播,使后来者少踩坑,也为讲者塑造个人影响力。SFFAI还在构建人工智能领域的知识森林—AI Knowledge Forest,通过汇总各位参与者贡献的领域知识,沉淀线下分享的前沿精华,使AI Knowledge Tree枝繁叶茂,为人工智能社区做出贡献,欢迎大家关注SFFAI论坛:https://bbs.sffai.com。
