CVPR'21 Talk预告+交流报名 | 阿里达摩院视觉实验室(最后一场!)

⚡由将门-TechBeat人工智能社区所主办的CVPR 2021 群星闪耀·云际会已火热进行两周,51位分享嘉宾,10场论文解读Talk,5天10场在线交流活动,即将接近尾声啦~本次系列活动的最后一场由阿里巴巴达摩院视觉实验室压轴带来!
⏰北京时间6月28日(周一)晚8点,阿里达摩院多模态理解&数智媒体团队(简称视觉实验室)的论文解读Talk将准时在TechBeat人工智能社区开播!届时团队负责人阿里巴巴达摩院高级算法专家唐铭谦将携其成员黄子渊、卿志武、蒋建文、张士伟一起分享他们发表在CVPR 2021上的工作以及AVA-Kinetics、HACS和EPIC-Kitchens Challenge的冠军解决方案。
7月3日(本周六)上午10点,这几位分享嘉宾将与大家进行线上的腾讯会议直播交流,本次直播研讨会没有回放视频,请感兴趣的小伙伴定好闹钟、实时参与!
⚡ 点击【https://datayi.cn/w/QReMGZKR】,直接预约观看!
Talk·信息
分享人:阿里达摩院视觉实验室
时间:北京时间 6月28日 (周一) 20:00
地点:TechBeat人工智能社区
http://www.techbeat.net/
⚡ 点击【https://datayi.cn/w/QReMGZKR】,直接预约观看!
直播交流活动·报名通道

团队介绍
阿里达摩院视觉实验室
• 阿里达摩院多模态理解&数智媒体团队长期致力于视频领域中多模态技术的研究和落地。团队主要研究方向涵盖视频理解、视频搜索、视频生成等多模态融合领域,在大规模多模态视频自监督、跨模态搜索、半监督学习、小样本学习、行为检测等技术领域均有长期投入和积累。
• 团队同学均毕业于包括清华、北大、中科大在内的知名高校硕博,每年均有来自国内外的优秀博士交流学习,团队发表包括IJCV/CVPR/ICCV/ECCV/TMM等在内的论文40余篇,获得国内外竞赛冠军奖项7项,亚军1项,季军1项。相关技术在阿里生态体系内支持大部分视频应用场景,并已通过具备CNAS和CMA资质的第三方认证,在端到端性能和处理倍速上均处于行业领先水平,同时云上对外支持传媒行业、泛视频娱乐行业等头部视频客户。
• 产品体验中心可见:http://retina.aliyun.com
唐铭谦
阿里巴巴达摩院高级算法专家
唐铭谦,于2014年硕士毕业于西安电子科技大学,阿里巴巴校招第二届阿里星,负责多模态理解及数智媒体中视频理解技术研发和相关云产品商业化,涉及音视频内容结构化、多模态内容审核、短视频自动/辅助生产、多模态搜索、音视频版权保护等相关产品及应用场景。相关技术技术包含视频实体理解、视频内容生成、音视频指纹、视频多模态搜索、视频内容审核等。已发表包括CVPR、ACM MM在内的多篇论文,获得学术竞赛国际冠军5项,包括AVA-Kinetics、HACS、EPIC-Kitchens等,累计申请专利30余项,深入研究如何通过视觉技术赋能电商、传媒、泛娱乐等领域,促进行业规模化发展。
①
从图像中的自监督运动表征学习

动作的本质是不同运动的组合,而运动在视频中则主要表现为像素的移动。早期视频自监督表征学习工作仅通过在时序维度上的增广来隐式地对视频中的运动进行建模。本文通过在图像上构建伪运动,从而显示地对视频中的运动表征进行学习。实验表明,这种方式能够学习到有效的视频的表征,在UCF、HMDB数据集上有显著提升。
论文链接:https://arxiv.org/pdf/2104.00240.pdf
黄子渊 | 新加坡国立大学在读博士/阿里巴巴达摩院学术实习生
黄子渊,博士二年级,就读于新加坡国立大学,高级机器人研究中心(Advanced Robotics Centre)。目前研究方向包括单/多模态视觉目标跟踪、复杂视频理解、单/多模态的视频表征学习。在CVPR和ACMMM举办的多个国际挑战赛上取得6项冠军,3项亚军,包括 ActivityNet AVA、EPIC-Kitchens、HACS、Human In Events等。代表作 Learning Aberrance Repressed Correlation Filters for Real-Time UAV Tracking (ICCV19), Self-supervised Motion Learning from Static Images (CVPR21)。
个人主页:https://huang-ziyuan.github.io
②
Transformer在时序行为检测中的应用

Transformer在分类,检测,分割等多个CV任务中都取得了非常好的性能。在近两年的比赛中,我们探索了将Transformer应用于时序行为检测,发现Transformer用于时序编码时确实非常有效。尽管Transformer应用于视频分类任务时的性能非常不错,但是使用Transformer提取出来的特征进行时序行为检测时,效果并不理想。结合我们在EPIC-Kitchens竞赛中的实验现象, 我们认为现有的Transformer骨干网络的空间理解能力很强,但是时序建模能力不如CNN。
论文链接:https://arxiv.org/pdf/2006.07520.pdf
卿志武 | 华中科技大学在读博士/阿里巴巴达摩院学术实习生卿志武,目前就读于华中科技大学人工智能与自动化学院,博士一年级。主要研究方向为时序行为检测和视频自监督表征学习。在CVPR2020和CVPR2021 Workshop中参加学术竞赛并获得7次国际冠军,1次亚军,其中在HACS时序行为检测赛道连续两年获得国际冠军。在CVPR2021上发表了1篇关于时序行为检测的工作。
个人主页:https://sites.google.com/view/zwqing
③
时空行为检测中的关系建模方法

在时空行为识别中,需要识别每个人当前所发生的行为类别,因为任务的复杂性,依靠人体本身的视觉特征往往不能得到令人满意的性能,本工作调研了人-人关系、人-物关系、人-空间上下文关系、人-时间上下文关系在行为识别中的应用以及如何在大规模数据的情况下完成模型训练,该工作同时取得了CVPR2021年ActivityNet AVA-Kinetics挑战赛第一名。
论文链接:https://arxiv.org/abs/2106.08061
蒋建文 | 阿里达摩院高级算法工程师
蒋建文,阿里巴巴达摩院视觉技术部高级算法工程师,2020年硕士毕业于清华大学。研究领域为计算机视觉、视频理解等,以第一作者/主要作者在CVPR、AAAI、IJCAI等国际会议上发表论文多篇。在CVPR举办的多个公开挑战赛上取得七项冠军,两项亚军,包括 ActivityNet、AVA-Kinetics、Moments in Time、EPIC-Kitchens、HACS Challenge等。
④
基于自监督学习的半监督时序行为检测

自监督学习在各种视觉任务中表现出了优秀的性能。在本文中,我们提出了新的算法框架SSTAP以利用自监督学习来提升半监督行为提名。SSTAP主要包括两个分支:时序感知的半监督分支和关系感知的自监督分支。在半监督分支中,我们通过引入时序特征偏移和翻转两种扰动以提升半监督性能;在自监督分支中,我们利用特征重构和顺序预测两个代理任务学习视频的时序关系。在公开数据集THUMOS14和ActivityNet v1.3上,SSTAP取得了明显的性能提升,甚至可以和全监督方法匹配。
论文链接:https://arxiv.org/abs/2104.03214
项目链接:https://github.com/wangxiang1230/SSTAP
张士伟 | 阿里达摩院高级算法工程师张士伟,于2019年博士毕业于华中科技大学人工智能与自动化学院,现就职于阿里巴巴的达摩院视觉实验室。主要研究方向包括视频生成、行为识别、行为检测、自监督学习、Video Grounding等,在相关领域发表包括3CVPR、2TMM、1TSMC在内的论文10余篇,在ActivityNet、AVA-Kinetics、HACS、Moments in Time、EPIC-Kitchens Challenge等学术竞赛中累计获得国际冠军8项,亚军2项。
个人主页:
https://www.researchgate.net/profile/Shiwei-Zhang-14/research
⚡ 点击【https://datayi.cn/w/QReMGZKR】,直接预约观看!
关于TechBeat人工智能社区
TechBeat(www.techbeat.net)是一个荟聚全球华人AI精英的成长社区。我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!
更多详细介绍>>https://mp.weixin.qq.com/s/pTbCK_MeTk05jK2yx1RTrQ