10.18 ECCV直播 | 腾讯ARC Lab分享5篇paper:预训练、盲人脸复原、图像超分辨率

2020年疫情伊始,我“门”主办的ECCV鲜声夺人·云际会开启了华人AI社区线上顶会的先例,两年一度的ECCV 2022即将召开,线上相聚依然延续、「前菜分享」这就献上!
北京时10月18日(周二)晚上18:30,将门-TechBeat人工智能社区很开心邀请到腾讯ARC Lab的5位论文一作——顾宇超、邵文琪、李晓彤、牟冲、葛玉莹,为大家讲解在本次ECCV上的五篇工作,并进行实时Q&A,内容涵盖:
① 基于向量量化字典和并行解码器的盲人脸复原(Oral)
② 不是所有模型都相同,在一个自质疑Fisher空间预测模型迁移性
③ 基于多项选择离散化的图像BERT预训练研究
④ 基于度量学习的真实世界可调节图像超分辨率
⑤ 用于视频文本检索的注入文本语义的视觉BERT预训练
活动议程 + 报名

活动福利
活动中将进行抽奖,我们将在视频号和B站直播间中抽取6位幸运同学,送出由腾讯提供的超Q公仔!




团队介绍
▽腾讯 ARC Lab 是腾讯PCG的“侦察兵”、“特种兵”,站在腾讯探索挑战智能媒体相关前沿技术的第一线。所属的腾讯PCG是一个集社交、流量和内容平台于一体的大型事业群,业务需求覆盖了人工智能和大数据方面几乎所有的技术。近两年来 ARC Lab 秉持着做顶天(世界领先)立地(应用落地)的科研的宗旨,已吸引了一批优秀人才和国内外优秀实习生,已在国际顶会上发表40余篇论文,多项技术成果落地在实际应用中。
工作及分享嘉宾
①
基于向量量化字典和并行解码器的盲人脸复原(Oral)

新加坡国立大学博士生

工作介绍
目前人脸复原的方法主要是基于预训练的人脸生成网络,代表性方法如GFPGAN等。但是这种生成式先验难以复原出真实的人脸纹理细节。本文对基于向量量化字典在人脸复原的潜力和局限性进行研究,并提出VQFR框架来平衡人脸纹理质量和保真度。VQFR在不同的真实人脸数据集上均能恢复出高质量的纹理细节,并较好地保持了人脸身份信息。
分享嘉宾
顾宇超,新加坡国立大学博士生个人介绍顾宇超是新加坡国立大学在读博士生,导师是Prof. Mike Shou。他硕士毕业于南开大学,导师是程明明教授。他目前研究的方向是模型轻量化,底层视觉和生成模型。个人主页:https://ycgu.site/
②
不是所有模型都相同,在一个自质疑Fisher空间预测模型迁移性

香港中文大学博士生

工作介绍
本文解决了迁移学习中的一个重要问题,模型选优。即对预训练的深度神经网络进行排名,并为下游任务筛选最优的预训练模型。这是具有挑战性的,因为每个任务的真实模型排名只能通过在下游任务数据上微调预训练模型来生成,但这十分粗暴且计算昂贵。最近的先进方法提出了几个轻量级的可迁移性指标来预测微调结果。然而,这些方法仅捕获预训练模型的静态表示,而忽略了微调时的动态更新。为此,本文提出了一种新的可迁移性度量,称为SFDA。对 11 个下游任务的 33 个预训练模型的广泛实验表明,在测量预训练模型的可迁移性时,SFDA 是高效、有效和稳健的。
分享嘉宾
邵文琪,香港中文大学博士生个人介绍邵文琪,目前就职于上海人工智能实验室,主要研究方向为大模型迁移学习及其软硬件联合优化。博士毕业于香港中文大学多媒体实验室,师从王晓刚教授和罗平教授,主要研究深度学习中的归一化技术和迁移学习。本科毕业于电子科技大学数学学院。博士期间,在顶级期刊和会议上已发表数十篇论文,如CVPR/ICCV/ECCV/ICML/ICLR/NeurIPS/IJCV等。
个人主页:
https://scholar.google.com/citations?user=Bs9mrwwAAAAJ&hl=en
③
基于多项选择离散化的图像BERT预训练研究

北京大学博士生

工作介绍
基于掩码建模(Masked Image Modeling)的图像预训练已经成为了自监督表征学习中的热门问题。BEiT作为其中的一个开创性的工作,模仿语言BERT预训练,通过离线的dvae将MIM问题建模成视觉词库的分类问题。然而不同于离散的语言单词,将掩码图像预测成单一答案会损害连续的视觉信号并限制训练效果。在本文,我们提出了一种使用eased and refined的预测目标的多项选择离散化的方法mc-BEiT,超过了如MAE,BEiT,iBOT等的预训练性能。
分享嘉宾
李晓彤,北京大学博士生
个人介绍
李晓彤是北京大学计算机学院在读博士,导师是段凌宇教授,主要研究方向是领域/分布外泛化问题以及图像自监督预训练问题。在CVPR,ICLR,ECCV等国际顶级会议发表多篇论文。
个人主页:https://github.com/lixiaotong97
④
基于度量学习的真实世界可调节图像超分辨率

北京大学硕士生

工作介绍
现实世界超分辨率 (Real-world super-resolution) 是指从包含真实退化的低分辨率图像中复原得到高分辨率的图像. 可调节的现实世界图像超分辨率是一个很有挑战的任务, 因为降质(degradation)过程复杂且未知,可调节的交互机制很难通过有监督的训练来完成. 在本篇论文中,我们提出利用无监督的度量学习, 来训练现实场景下可调节的图像超分辨率任务。
分享嘉宾
牟冲,北京大学硕士生个人介绍牟冲,目前北京大学硕士研究生在读,师从张健助理教授,主要研究方向是图像/视频增强与复原。本科毕业于华南理工大学。硕士期间,在TPAMI,CVPR,ICCV,ECCV,ACM MM等国际顶级期刊和会议上发表多篇论文。个人主页:
https://scholar.google.com.hk/citations?user=SYQoDk0AAAAJ&hl=en
⑤
用于视频文本检索的注入文本语义的视觉BERT预训练

香港大学博士生

工作介绍
用于视频文本检索的预训练工作主要采用“双编码器”结构来实现高效的检索,其中两个独立的编码器用于对齐全局的视频和文本表示,但这一做法忽略了详细的局部语义。受到近期视觉BERT预训练用masked visual modeling来促进局部视觉特征学习的启发,我们首次在“双编码器”结构中用masked visual modeling来进行视频文本预训练。我们使用一个额外的快照视频编码器作为不断进化的“tokenizer”来提供重建目标,从而实现注入文本语义的masked visual modleing。给定被遮盖的视频作为输入,视频编码器被训练通过对空间和时间维度可见区域的推理,来恢复被遮盖区域的和文本语义对齐的特征,从而增强局部视觉特征的学习和细粒度的多模态的对齐。我们的方法在多个下游视频文本检索数据集上都取得了SOTA的结果。
分享嘉宾
葛玉莹,香港大学博士生个人介绍
葛玉莹是香港大学计算机系在读博士生,导师是罗平教授。她本科毕业于电子科技大学,专业是通信工程。她目前的研究方向是大规模的多模态预训练及其应用。
个人主页:
https://geyuying.github.io/
报名+入群
扫码填写下方报名表,
工作人员将会把你拉入【ECCV 2022活动交流群】

-The End-

关于TechBeat人工智能社区
TechBeat (www.techbeat.net) 是一个荟聚全球华人AI精英的成长社区。 我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。 期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!
更多详细介绍>>https://mp.weixin.qq.com/s/pTbCK_MeTk05jK2yx1RTrQ