Talk预告 | 阿里达摩院多语言NLP算法团队刘林林: 基于语言模型的低资源序列标注数据增

2021-03-24 11:11 作者:TechBeat人工智能社区 0人读过 | 我要投稿

本周为TechBeat人工智能社区第288期线上Talk，这也是阿里巴巴达摩院-多语言NLP算法团队系列Talk第③期。
北京时间3月25日(周四)晚8点，新加坡南洋理工大学&阿里巴巴联合培养博士生—刘林林的Talk将准时在TechBeat人工智能社区开播！
他与大家分享的主题是: “基于语言模型的低资源序列标注数据增强方法”，届时将介绍有关低资源命名实体识别的相关研究与近期的一些进展和思考。

Talk·信息

▼

主题：基于语言模型的

低资源序列标注数据增强方法

嘉宾：新加坡南洋理工大学&阿里巴巴

联合培养博士生刘林林

时间：北京时间 3月25日 (周四) 20:00

地点：TechBeat人工智能社区

http://www.techbeat.net/

完整版怎么看？

扫描下方二维码，或复制链接https://datayi.cn/w/3oLaAVq9至浏览器，一键完成预约！上线后会在第一时间收到通知哦~

Talk·提纲

▼

讲者团队提出了一种新的基于语言模型的数据增强方法，可以在低资源情况下用于命名实体识别、词性标注、端到端基于目标的情感分析等序列标注任务。相比于计算机视觉，语音识别，数据增强当前在自然语言处理的序列标注任务上目前并没有很多有效的应用，以往提出的同义词替换等等方法都过于简单，且效果并不显著。而其他的数据增强方法，如反向翻译等等仅适用于翻译或者分类的任务，并不适用于序列标注任务。

研究团队提出的基于语言模型的数据增强方法，是指把原有的序列标注数据集，通过线性化的方式把文本数据和序列标注变成语言模型的输入数据，从而通过语言模型，生成更多的可用于序列标注训练的数据，以此达到数据增强的目的。

本次分享的主要内容如下：

1. 介绍：目前常见的数据增强方法

2. 序列标注任务

3. 框架：基于语言模型的低资源序列标注数据增强方法

4. 实验结果

Talk·参考资料

▼

这是本次分享中将会提及的资料，建议提前预习哦！

DAGA: Data Augmentation with a Generation Approach for Low-resource Tagging Tasks

https://www.aclweb.org/anthology/2020.emnlp-main.488.pdf

Talk·提问交流

▼

通过以下两种方式提问都将获得微信现金红包奖励哦！

方式 ①

在Talk界面下的【交流区】参与互动！留下你的打call🤟和问题🙋，和更多小伙伴们共同讨论，被讲者直接翻牌解答！

你的每一次贡献，我们都会给予你相应的i豆积分，还会有惊喜奖励哦！

方式 ②

在本文留言区直接提出你的问题，或扫描下方二维码提问！

Talk·嘉宾介绍

▼

刘林林，本科毕业于新加坡国立大学，目前是新加坡南洋理工大学和阿里巴巴的联合培养博士生。他刚开始博士第三年的学习，主要研究方向是跨语言知识迁移学习和低资源命名实体识别，现有两篇文章发表在自然语言学习顶会EMNLP。目前正在进行跨语言情境词向量对齐方面的研究，通过更加细粒度的词义级别词向量对齐来提高跨语言知识迁移任务的表现。

阿里巴巴达摩院-多语言NLP算法团队

系列Talk

▼

*点击标题跳转详情

第①弹

第②弹

关于TechBeat人工智能社区

▼

TechBeat(www.techbeat.net)是一个荟聚全球华人AI精英的成长社区。我们希望为AI人才打造更专业的服务和体验，加速并陪伴其学习成长。期待这里可以成为你学习AI前沿知识的高地，分享自己最新工作的沃土，在AI进阶之路上的升级打怪的根据地！

更多详细介绍>>https://mp.weixin.qq.com/s/pTbCK_MeTk05jK2yx1RTrQ

标签：