欢迎光临散文网 会员登陆 & 注册

CVPR 2022新星有话说 | 李曼玲:希望研究出一只治愈人类的大白

2022-07-04 10:47 作者:ReadPaper论文阅读  | 我要投稿

「Paper新星有话说」正式上线辣!这是来自ReadPaper的新栏目,我们邀请了一批CVPR 2022 Oral论文年轻作者,听酷盖们聊聊他们的科研成果和心得,还有独家科研小Tips分享哦;


本期Paper新星——来自伊利诺伊大学香槟分校博士李曼玲,研究方向是多模态知识抽取和推理,她一直希望能研究出像《超能陆战队》里大白那样人工智能机器人,可以在实际生活中帮助人们,带来温暖。


2018年获得从中科院计算所获得硕士学位。研究方向是多模态知识抽取和推理,包括文本和视觉数据。曾获ACL 2020 Best Demo Paper,NAACL 2021 Best Demo Paper,微软学者奖学金(Microsoft Research PhD Fellowship),以及C.L. Dave and Jane W.S. Liu Award,并被选为Mavis Future Faculty Fellow。


一直专注于NLP科研领域的曼玲,同样对CV领域产有着浓厚的兴趣,其Paper《CLIP-Event: Connecting Text and Images with Event Structures》首次投稿即被CVPR接收

这篇工作对比传统的识别,更关注于事件中更深层的语义理解,希望大家能从讲解中有所收获。


论文标题:

CLIP-Event: Connecting Text and Images with Event Structures

论文链接:

https://readpaper.com/paper/4579901943476920321



Q1:关于个人论文发布成果,觉得最具代表性的一篇是?为什么会选这篇?

李曼玲:我个人最喜欢的是《Cross-media Structured Common Space for Multimedia Event Extraction》

因为这篇是我的第一次尝试去打通vision和text,在非常不同的数据形式中形成对事件的统一理解,提出了对视觉和文本的联合事件抽取这个概念。事件是一个高度结构化的信息,同时又有很丰富的语义,而这种结构在视觉和文本中的表现形式非常不同。视觉中的信息更加细节,而文本中常常会忽略细节,尤其是一些跟常识相关的细节。这篇文章目标是用事件结构作为桥梁,为两个模态的对齐提供了一个结构化的角度,是我开启Multimedia Structured Knowledge这个方向的第一个工作。CLIP-Event也是从这个角度出发,进一步将事件信息引入视觉领域中,实现对动词和动词结构的理解。


Q2:Manling之前主要做NLP,发的会议多是ACL/EMNLP/NAACL,是否有某件事情/契机的启发于是转变了自己的方向?

李曼玲:我一直以来都对结构化知识的理解非常感兴趣,知识库是最常见的一种结构化知识,而事件是一种更加重要的、我们每天都在关注的动态知识。因此我在NLP方面主要在做event-centric information access。而视觉领域中,大家常常关注的是一些实体化的词,比如object,是entity-centric information access;但抽象信息的理解,比如动词,并不是很好,尤其是的结构化理解,因此我一直想把这种对事件结构化理解的能力也迁移到视觉中。但是NLP和CV community其实对事件的理解上非常不同,CV中更关注action层面,比如jump、shake hand等,而NLP非常在意整体的语义结构,比如transportation、meeting等,以及涉及到的各种语义角色,比如agent、transported artifact、instrument、origin、desitination等等。选择投稿CVPR也是因为希望Event-Centric Structured Multimedia Understanding这个概念/方向能够得到CV community的认可,投稿之前还是蛮担心的,所以非常开心大家的认可度比我想象中高。


Q3:哪些或者哪位科学家、学术大拿对自己的启发/影响最大?

李曼玲:对我影响最大的是我导师Prof Heng Ji,和Prof Shih-Fu Chang。他们一个来自于NLP community,一个来自于CV community。两位老师最打动我的是他们对这个方向的热情,对开始做研究的我,是指明灯一样的存在。我从两位老师身上学到了很多,怎样做一个有勇气有热情的学者,尤其是勇于关注难的问题,对新的问题永远保持热情,热爱发现问题并解决问题。



Q4:尝试用一句话评价自己本次被CVPR收录的工作?

李曼玲:我们首次提出了在视觉-文本预训练中引入事件信息,实现对抽象的事件语义结构的理解。


Q5:整个投稿的过程中,有没有印象深刻的经历?

李曼玲:这个工作是和MSR一起做的,是我暑期实习的工作。在选题过程中,我第一次像mentor们展示初步想法的时候,大家并没有对事件结构如何在视觉信息作用达成一致。在实验过程中,每次开会讨论都会有很多新想法的产生,非常有帮助。


Q6:Manling这次是第一次投稿CVPR,就获得了很棒的成绩,有什么tips或者建议可以分享吗?

李曼玲:比较general的建议是,积极跟不同背景的人讲自己的工作,我在做CVPR的过程中,做了很多次presentation,面对的听众有MSR其他实习的同学,也有去一些高校对老师和学生们讲,有对NLP的人讲,也有对CV的人讲,还会对Data Science或者Theory的人讲,每次不同的人给的反应是不同的,这个过程中自己会不断精炼核心idea,并能看到很多之前没想过的角度。

更加具体的建议是,写作的过程是对自己的工作不断反思的过程。我现在比较喜欢在做实验的时候,就开始不断更新overleaf,每次写东西,都是对自己的method和idea的梳理。写作是一个不断推翻自己的过程,每次推翻自己都有新的收获。同时如前面所说,因为常做presentation,一直在维护一组slides,对后续写作、画图都很有帮助。



Q7:近期是否有新的工作/投稿在推进?投稿?

李曼玲:近期有一篇工作(https://arxiv.org/abs/2205.10747)关于怎么使用大规模语言模型,例如GPT-3,实现对视频信息的理解。目前有很多预训练模型,都有很强的few-shot能力,能够根据几个data example实现对task的快速理解,并把其中的知识迁移到其他未见过的数据上。

因此,我们研究了在视频任务上,GPT-3能否把这种few-shot能力迁移过来。根据视频的结构,我们将视频的主要信息划分为:(1)视频中的object、attribute、event,(2)视频中每一帧的整体语义,(3)以及视频中的时序关系。我们使用frozen预训练模型CLIP、BLIP等将上述信息转换成为文字描述,并设计了时序相关的prompt,教GPT-3将这些信息串起来,实现视频信息的理解。在很多下游任务上,GPT-3都能实现很好的效果,甚至在未来事件预测任务上,比监督模型的效果更好,GPT-3理解视频的能力令人惊讶。


Q8:能否分享下个人长期规划?

李曼玲:长期规划是希望可以带领一个团队继续做结构化知识理解的方向。目前临近毕业,想先成为一个Assistant Professor,我对能够自己带学生、做一些自己感兴趣的研究非常憧憬。


Q9:请畅想一下,你的工作将会给行业、社会带来什么贡献/力量?

李曼玲:我一直希望能有一个大白,就是《超能陆战队》里面的机器人,希望我的研究可以真正帮助造出一个能够处理各种信息的大白,可以聊天,可以陪伴,在实际生活中帮助人们。

CVPR 2022新星有话说 | 李曼玲:希望研究出一只治愈人类的大白的评论 (共 条)

分享到微博请遵守国家法律