欢迎光临散文网 会员登陆 & 注册

CVPR'21 Talk | 香港中文大学MMLab(Multimedia Laboratory)

2021-06-16 17:46 作者:TechBeat人工智能社区  | 我要投稿


⚡由将门-TechBeat人工智能社区所主办的CVPR 2021 群星闪耀·云际会将携手51位分享嘉宾,10场论文解读Talk,5天10场在线交流活动,云端实时开讲,让你建立真正属于自己的能量级学术网络,同时一次性解锁学术的101种姿势。

⏰北京时间6月16日(周三)晚8点,第场——香港中文大学MMLab(Multimedia Laboratory)的论文解读Talk已经准时在TechBeat人工智能社区开播!MMLab的博士生陈焯杰、吕照阳、沈宇军、吴桐、徐英豪、周航、祝新革分享了他们在CVPR 2021的工作。

⚡ 点击【https://datayi.cn/w/a9a6JJMR】,免费收看Talk~


Talk·信息

分享人:香港中文大学MMLab(Multimedia Laboratory)

时间:北京时间 6月16日 (周三) 20:00

地点:TechBeat人工智能社区

http://www.techbeat.net/

⚡ 点击【https://datayi.cn/w/a9a6JJMR】,免费收看Talk~


直播交流活动·报名通道

团队介绍

香港中文大学MMLab(Multimedia Laboratory)


陈恺

商汤科技研究总监、开源算法体系部门负责人

陈恺,商汤科技研究总监,本科毕业于清华大学,2019 年在香港中文大学获得博士学位。在计算机视觉顶级会议和期刊上发表十余篇论文,谷歌学术引用超过 1500 次,并两次获得目标检测领域国际权威的学术竞赛 COCO 比赛冠军。所负责的 OpenMMLab 开源项目在 GitHub 上获得了超过 35000 star, 是深度学习时代极具影响力的计算机视觉开源算法体系,在学术界和工业界产生了广泛影响。

个人主页:http://chenkai.site



GLEAN: 

基于隐式生成库的高倍率图像超分辨率

在这项工作中,我们提出一个全新的框架使用预训练的生成对抗网络(GAN)来提高高倍率图像超分辨率的表现。我们的方法GLEAN通过使用预训练的生成网络作为latent bank来提供自然图片先验,并利用encoder-bank-decoder的结构有效地将特征融合。与现有方法相比,GLEAN的输出图像在保真度和质量方面都有显著的改进。

论文链接:https://arxiv.org/abs/2012.00739

代码链接:https://github.com/open-mmlab/mmediting

陈焯杰 | 南洋理工大学在读博士生

陈焯杰,南洋理工大学S-Lab和MMLab@NTU三年级博士生,导师是吕健勤教授。在顶级会议上发表过五篇论文,在NTIRE视频复原比赛中共获得七个冠军。当前主要研究兴趣为图像和视频复原,主要包括超分辨率和去模糊等。

个人主页:https://ckkelvinchan.github.io/


评估与提高神经网络可验证的鲁棒性

本文研究如何评估与提高神经网络可验证的鲁棒性。目前有一些方法可以评估神经网络的可验证的鲁棒性,即当输入在某个范围内扰动时,它们可以验证神经网络是否总能给出正确的预测。我们研究了几种鲁棒性的验证方法,证明了这几种方法的优劣。同时我们改进了其中一种代表性的方法,CROWN,使得它可以用于验证更大的神经网络。这些验证方法也可以用来训练鲁棒的神经网络,但是我们发现之前的训练方法会产生大量死掉的神经元,进而影响网络的学习过程和表达能力。为了解决这个问题,我们提出了一种新的激活函数,参数化的斜坡函数,它可以为神经元的状态提供更大的多样性。我们进行了大量实验,训练使用这种新的激活函数的神经网络,发现它可以取得比传统ReLU激活函数更好的鲁棒性。我们在MNIST,CIFAR-10和Tiny-Imagenet这些数据集上都训练出了至今为止拥有最好的可验证的鲁棒性的神经网络。  

论文链接:https://arxiv.org/abs/2104.00447

代码链接:https://github.com/ZhaoyangLyu/VerifiablyRobustNN

吕照阳 | 香港中文大学信息工程系在读博士生吕照阳,2018年本科毕业于西安交通大学,主修物理专业。毕业后来到香港中文大学信息工程系MMLab就读博士,目前是博士第三年,导师是林达华教授。研究方向是评估和提高神经网络的鲁棒性,当输入在允许的范围内扰动时,保证神经网络能够给出正确的预测,陆续已有文章发表在ICML, AAAI, CVPR这些会议上。同时我对3D Shape Understanding也很感兴趣,正在进行点云生成、补全、降噪方面的研究。个人主页:https://zhaoyanglyu.github.io/ 


Closed-Form Factorization of Latent Semantics in GANs 

生成对抗网络隐空间的语义信息探索受到了越来越广泛的关注。已有方法通过对大量采集样本的统计信息分析,实现对编码了语义信息的子空间的定位。本文提出了一种无监督的语义信息挖掘的方法,直接对预训练模型的权重进行分析,通过矩阵分解的方式,高效地找出潜在的语义编码方向。

论文链接:https://arxiv.org/pdf/2007.06600.pdf

沈宇军 | 香港中文大学多媒体实验室(MMLab)博士沈宇军,博士毕业于香港中文大学MMLab,主要研究方向为生成模型及其应用。在此之前,毕业于清华大学电子工程系。

个人主页:https://shenyujun.github.io/


长尾分布下的对抗鲁棒性

本文首次将长尾分布条件引入对抗鲁棒性研究领域,对现有多种长尾识别算法与对抗训练结合的策略进行了系统的研究与分析,并提出了一个简洁有效的算法。不平衡条件下的鲁棒性研究是一个新颖,实际又具有挑战性的方向,希望能够引起更多研究者的关注。

论文链接:https://arxiv.org/abs/2104.02703

代码链接:https://github.com/wutong16/Adversarial_Long-Tail

吴桐 | 香港中文大学多媒体实验室(MMLab)在读博士生吴桐,香港中文大学多媒体实验室(MMLab)在读博士生。她的导师是林达华教授。本科毕业于清华大学电子工程系,于2020年获香港政府博士生奖学金(HKPFS)开始攻读博士学位。她的研究兴趣包括长尾识别、对抗鲁棒性、和3D视觉。曾在ECCV,CVPR等会议中发表多篇论文。个人主页:https://wutong16.github.io/

合成图像中的层级性特征

生成对抗网络(GANs)通过学习数据的底层分布来加强图像合成的质量。然而,从图像生成任务中学习到的特征如何适用于其他视觉任务仍鲜有探索。在这项工作中,我们证明了合成图像任务可以带来层次化的视觉特征,并且这些特征可以很广泛的迁移到其他视觉任务上。具体地说,我们将预先训练的StyleGAN生成器作为一个学习的损失函数,并利用它的分层表示来训练一个层次编码器。我们把编码器产生的视觉特征称为生成层次特征(GH-Feat)。GH-Feat 具有很强的可移植性,我们在很多生成任务和识别任务上都对其性质进行了探索。大量的定性和定量实验结果证明了GH-Feat的良好性能。

论文链接:https://arxiv.org/pdf/2007.10379.pdf

StyleGAN: https://arxiv.org/abs/1812.04948

InterFaceGAN:https://openaccess.thecvf.com/content_CVPR_2020/html/Shen_Interpreting_the_Latent_Space_of_GANs_for_Semantic_Face_Editing_CVPR_2020_paper.html

HiGNA:https://link.springer.com/article/10.1007/s11263-020-01429-5 

IDInvert:https://arxiv.org/pdf/2004.00049.pdf

Genforce:https://genforce.github.io/

徐英豪 | 香港中文大学MMLab在读博士生徐英豪,香港中文大学信息工程系多媒体实验室(MMLab)二年级博士生,导师为周博磊助理教授。于2019年毕业于浙江大学, 本科期间曾在UCSD和微软亚洲研究院视觉计算组进行科研实习。其研究兴趣包括视频理解、生成模型以及视觉感知的结构表征。

个人主页:https://justimyhxu.github.io/


姿态可控的语音驱动说话人脸生成

本文不使用任何人为定义的结构信息(人脸关键点或者3D人脸模型),成功实现了人头姿态可控的语音驱动任意说话人脸生成。本文的关键在于,隐式地在潜空间(latent space)中定义了一个12维的姿态编码,用于头部运动控制。本文相比于之前的方法,避免了关键点或者3D模型计算不准确带来的烦恼,又保持了自由度和鲁棒性。实现了在语音控制准确嘴型的同时,用另一段视频控制头部运动。

论文链接:

https://arxiv.org/abs/2104.11116

代码链接:

https://github.com/Hangz-nju-cuhk/Talking-Face_PC-AVS

https://zhuanlan.zhihu.com/p/367525241

周航 | 香港中文大学 MMLab博士生

周航,香港中文大学多媒体实验室在读博士, 师从王晓刚教授。主要研究方向为音视频跨模态的生成与操纵,是国内视听感知学习(Audio-Visual Learning)领域年轻一代的积极推动者。在CVPR/ECCV/ICCV/AAAI/IJCAI等会议发表10余篇论文,其中7篇为(共同)第一作者。担任CVPR/AAAI/ICCV/NeurIPS/ICML等会议和IJCV/TASLP等期刊的审稿人,获得CVPR2020杰出审稿人、NeurIPS2020前10% 审稿人称号。发表于AAAI2019的Talking Face论文是基于深度学习的音频驱动说话人脸领域最有影响力的论文之一。全部开源工作在Github获得1000+Star。

个人主页:https://hangz-nju-cuhk.github.io/


基于圆柱体坐标系和非对称卷积的点云分割算法


相比于室内点云,室外点云的范围更大,点云更稀疏同时密度差异很大,针对这些特性,我们提出了圆柱体坐标系划分跟非对称卷积的操作,圆柱体坐标系划分可以动态的随着距离而增大每个单元的范围,有效的缓解点云稀疏和密度差异大的问题,同时非对称卷积可以增强骨干卷积的表示能力,更好的匹配驾驶场景下的物体分布。该方法在SemanticKITTI上取得了第一的成绩。

论文链接:https://arxiv.org/pdf/2011.10033

代码链接:https://github.com/xinge008/Cylinder3D

祝新革 | 香港中文大学 在读博士生祝新革,CUHK博士在读,主要研究方向是计算机视觉,包括三维视觉,环境感知等,在CVPR/ICCV/ECCV等会议上发表20余篇文章,获得多个公开挑战赛的金牌,包括nuScenes, SemanticKITTI, Lyft等。

个人主页:

https://xingezhu.me/aboutme.html


⚡ 点击【https://datayi.cn/w/a9a6JJMR】,免费收看Talk~


关于TechBeat人工智能社区

TechBeat(www.techbeat.net)是一个荟聚全球华人AI精英的成长社区。我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>https://mp.weixin.qq.com/s/pTbCK_MeTk05jK2yx1RTrQ  

CVPR'21 Talk | 香港中文大学MMLab(Multimedia Laboratory)的评论 (共 条)

分享到微博请遵守国家法律