CVPR'21 Talk预告+在线交流 | Oral一作面对面 应用侧专场

⚡由将门-TechBeat人工智能社区所主办的「CVPR 2021 群星闪耀·云际会」现已进行过半,上周末来自字节、清华、港大、港中文等七个Lab专场的在线直播交流已火热结束。本周继续为你带来13位Oral一作的分享!
⏰北京时间6月22日今晚8点,九位Oral一作同学的Talk合辑(应用侧)将准时在TechBeat人工智能社区开播!届时来自加州大学圣地亚哥分校、康奈尔大学、香港中文大学、美团等九位同学将一起分享他们的工作内容,带领大家完成一场头脑、能力和眼界的巅峰碰撞。
6月27日(周日)上午10点,九位嘉宾将与大家相约腾讯会议直播交流,更有阿德莱德大学在读博士、剑桥大学准博后刘伊凡作为空降特邀主持人,带领大家一起与学术新星0距离对话,欢迎踊跃报名!直播活动主要为在线Q&A,没有回放视频,请想交流的小伙伴准时参加哦!
(嘉宾工作介绍及报名方式见下文)
Oral一作面对面·报名通道



特邀主持人
刘伊凡
阿德莱德大学在读博士、剑桥大学准博后
刘伊凡,阿德莱德大学三年级博士生,导师是沈春华老师。本硕毕业于北京航空航天大学。8月将入职剑桥大学做博后。研究领域是语义分割,知识蒸馏,生成对抗网络等。论文曾发表于TPAMI,ICCV,CVPR,ECCV等期刊和会议。
个人主页:
https://irfanicmll.github.io
论文信息&嘉宾介绍
①
基于局部隐式图片函数的连续图片表示学习

在这篇论文中,我们提出一种Local Implicit Image Function (LIIF)的连续图片表示,以图片中的一个坐标作为输入,RGB值作为输出。在连续的坐标表示下LIIF可以表示成任意分辨率。我们用超分辨率的目标来训练一个编码器来生成图片的LIIF表示。
论文链接:https://arxiv.org/abs/2012.09161
项目链接:https://yinboc.github.io/liif/
陈胤伯 | 美国加州大学圣地亚哥分校在读博士生
陈胤伯,UCSD博士一年级在读,目前研究方向为表征学习。本科毕业于清华大学交叉信息研究院。
个人主页:
https://yinboc.github.io
②
通过在空间划分中鲁棒的神经路

针对室内动态变化场景中的相机重定位任务,从建模和学习场景几何结构出发,探索机器学习模型对三维空间的理解和记忆。通过在场景空间层次划分中学习路由,记忆场景静态信息的同时感知场景动态信息,从而有效应对动态干扰,实现鲁棒的相机位姿预测。
论文链接:https://arxiv.org/abs/2012.04746
项目链接:https://github.com/siyandong/NeuralRouting
董思言 | 山东大学在读博士生董思言,山东大学博士学生,导师陈宝权教授。研究方向为计算机图形学,计算机视觉和机器人,兴趣主要集中在三维重建和相机定位。2018年9月至今访问北京大学前沿计算研究中心,同期作为研究实习生参与北京电影学院未来影像高精尖创新中心的科研项目。作为第一作者在SIGGRAPH、CVPR等国际顶级会议发表论文。个人主页:
https://siyandong.github.io/
③
无视频标注信息下的实例跟踪

传统的视频实例分割往往会面临两个挑战:1)大规模的数据标注,如YouTube-VOS; 2) two-stage方法所带来的复杂度。为解决这两个问题,我们提出了一种新的semi-supervised learning的框架,使我们可以仅仅通过标注的图片数据集和大量未标注的视频实现对视频中物体的分割与追踪。
论文链接:https://arxiv.org/pdf/2104.00287.pdf
项目链接:https://oasisyang.github.io/projects/semi-track/index.html
付旸 | 加州大学圣地亚哥分校在读博士生付旸,UCSD ECE Ph.D 导师 Xiaolong Wang; M.S.毕业于UIUC ECE专业 导师 Thomas S. Huang; 主要研究方向计算机视觉中的视频物体跟踪与分割,行人重识别。曾多次在AAAI, ICCV, CVPR等会议发表文章。
个人主页:https://oasisyang.github.io/
④
Intentonomy:人类意图理解和识别

图片可以传递比图片内容更多的信息。在这个工作中,我们探索图片内容对意图识别的影响。我们首先介绍了一个新的图片数据集,Intentonomy。这个数据集中有14K图片,人工标注了28个意图标签。我们系统的学习了图片内容和图片意图的相关性。根据我们的对照学习,我们提出了一个新的识别意图的模型,利用多模态和quantify the effect of attending to object and context classes。实验结果quantitatively and qualitatively 证明了视觉和文本线索对于意图识别的影响。
论文链接:https://arxiv.org/pdf/2011.05558.pdf
项目链接:https://github.com/kmnp/intentonomy
贾梦霖 | 康奈尔大学计算机信息科学系在读博士生
贾梦霖,康奈尔计算机信息科学在读博士生,同时Facebook AI兼职Visiting Research Engineer。其导师是Serge Belongie 和Claire Cardie. 她的研究方向包括细粒度识别, multi-modalities。
个人主页:https://github.com/KMnP
⑤
少即是多:视频与语言的稀疏学习模型ClipBERT

视频与语言的学习,通常使用离线提取的整段视频和语言特征。然而,用于训练特征提取器的数据通常和下游任务以及数据存在较大的差异,从而影响下游任务的性能。本文介绍一种端到端的,基于稀疏采样的视频与语言模型ClipBERT来解决这个问题。
论文链接:
https://arxiv.org/abs/2102.06183
代码链接:
https://github.com/jayleicn/ClipBERT
雷杰 | 北卡大学教堂山分校计算机系在读博士生雷杰,北卡大学教堂山分校计算机系四年级博士生,师从Tamara L. Berg和Mohit Bansal教授。本科毕业于电子科技大学,曾在加拿大曼尼托巴大学和新加坡南洋理工大学任研究助理,曾在腾讯,微软和Facebook的人工智能部门实习。 主要研究方向为计算机视觉与自然语言处理,如视频检索,视频问答,跨模态预训练等等。目前已有多项研究成果发表于CVPR, ECCV, ACL, EMNLP, NAACL等顶级会议。曾获Adobe Research Fellowship。个人主页:https://www.cs.unc.edu/~jielei/
⑥
用于全景分割的全卷积网络

近年来,视觉场景分割从实例和语义层级拓展到更加综合的全景分割。相对于独立的实例和语义分割任务来说,全景分割的主要难点在于物体和环境的个体差异及语义一致性难以在网络中同时满足。因此,如何使用全卷积形式统一表达和预测物体和环境困扰着我们。本次报告主要分为三个部分,即全景分割的发展和难点、基于全卷积的全景分割网络、以及相关的结果及分析。
论文链接:https://arxiv.org/pdf/2012.00720.pdf
项目链接:https://github.com/yanwei-li/PanopticFCN
李彦玮 | 香港中文大学计算机科学与工程系在读博士生李彦玮,香港中文大学计算机科学与工程系博士生,师从贾佳亚教授。主要研究方向为图像检测与分割。在CVPR及NeurIPS等会议上发表多篇论文,并获得Microsoft COCO 2018比赛亚军。
个人主页:
https://yanwei-li.com/
⑦
密集对比学习:为检测分割定制的自监督视觉预训练范式

本文提出了密集对比学习,一种简单高效的针对密集预测任务设计的自监督预训练方法。 提出的密集对比学习通过在像素/局部特征层面构造样本对来进行自监督学习,相比于ImageNet有监督预训练和其他已有的自监督预训练方法,此方法在下游密集预测任务如物体检测和语义分割上能带来显著的提升。
论文链接:https://arxiv.org/abs/2011.09157
项目链接:https://github.com/WXinlong/DenseCL
王鑫龙 | 澳大利亚阿德莱德大学在读博士生王鑫龙,目前是澳大利亚阿德莱德大学在读博士生,导师沈春华教授。研究方向为计算机视觉,主要课题包括2D/3D/视频上的物体检测和实例分割。目前作为第一/主要作者在CVPR、NeurIPS、ECCV、AAAI上发表论文10余篇。代表工作包括SOLO系列实例分割算法。
个人主页:
http://www.xloong.wang/
⑧
基于transformers的端到端视频实例分割算法VisTR

本文是第一个将Transformers应用于视频分割领域的方法。视频实例分割指的是同时对视频中感兴趣的物体进行分类,分割和跟踪的任务。现有的方法通常设计复杂的流程来解决此问题。本文提出了一种基于Transformers的视频实例分割新框架VisTR,该框架将视频实例分割任务视为直接端到端的并行序列解码和预测的问题。给定一个含有多帧图像的视频作为输入,VisTR直接按顺序输出视频中每个实例的掩码序列。该方法的核心是一种新的实例序列匹配和分割的策略,该策略在整个序列级别上对实例进行监督和分割。 VisTR将实例分割和跟踪统一到了相似度学习的框架下,从而大大简化了流程。在没有任何trick的情况下,VisTR在所有使用单一模型的方法中获得了最佳效果,并且在YouTube-VIS数据集上实现了最快的速度。
论文链接:https://arxiv.org/abs/2011.14503
项目链接:https://github.com/Epiphqny/VisTR
王钰晴 | 美团计算机视觉算法工程师王钰晴,2019年硕士毕业于南开大学,现为美团计算机视觉算法工程师。主要负责无人车相关的目标检测和实例分割工作,以及围绕一阶段实例分割和视频实例分割相关的算法研究。曾在CVPR2020发表一阶段实例分割算法CenterMask,在CVPR2021发表视频实例分割算法VisTR。
个人主页:https://github.com/Epiphqny
⑨
风格化神经绘画

本文提出了一种风格化神经绘画算法,在统一框架下支持油画、马克笔、水彩画等多种笔触。不同于此前图像风格化方法在逐像素预测框架下进行处理,该方法在矢量空间下生成具有物理意义的序列画笔参数,并可以进一步用于可微渲染和风格化。
论文链接:https://arxiv.org/abs/2011.08114
项目链接:https://jiupinjia.github.io/neuralpainter/
邹征夏 | 密西根大学博士后研究员邹征夏博士,于2013年和2018年于北航获得学士和博士学位,2018年至今于密西根大学任博士后研究员,致力于计算机视觉领域的基础研究和交叉应用研究,相关研究成果发表在TPAMI, CVPR, ICCV等权威期刊和会议,Google Scholar引用1000余次,Github Star/Fork 3000余次。邹征夏博士受邀担任IJCAI高级委员会委员、TPAMI, NeurIPS, ICLR, CVPR, ICCV等人工智能领域权威期刊和会议的程序委员会委员/审稿人。邹征夏博士以第一作者身份发表的多项研究成果被全球知名科技媒体TheNextWeb、以及机器之心、量子位、新智元、麻省理工科技评论中文网等国内外30余家高影响力科技媒体报道,多项技术成果已实现商业转化和技术落地,相关算法目前已在业界领先的AI图像处理平台Remini以及网易的多个大型游戏平台上线,为全球超过3000万注册用户提供照片风格化以及虚拟游戏角色自动生成服务,在业界起到了积极的影响。
个人主页:http://www-personal.umich.edu/~zzhengxi/
关于TechBeat人工智能社区
TechBeat(www.techbeat.net)是一个荟聚全球华人AI精英的成长社区。我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!
更多详细介绍>>https://mp.weixin.qq.com/s/pTbCK_MeTk05jK2yx1RTrQ