周六直播预告 | 打破思维惯性,旷视MegEngine告诉你为什么要思考大kernel size
AI er们,春暖花开时,正是谈恋爱、约干饭、求躺平、读paper、搞代码、勤思考的大好时机!大家活跃的脑细胞,一定需要一些新鲜的学术讨论话题,来为接下来一年的工作、科研创新打下思考的基础。
旷视MegEngine团队和TechBeat人工智能社区一起,策划了本场直播交流活动,带领大家向惯性思维发起挑战。北京时间本周六(3.19)上午10:00,围绕“Large Kernel Makes CNN Great Again”的主题,带来三位讲者的在线分享。

在深度学习的模型设计领域中,一般认为 Conv 的 kernel size 选择 3x3 是最高效、最具性价比的设计。这一认知从 VGG 论文发布出来的 8 年以来从未改变过。
但拥有敏锐双眼的大家有没有注意到,近期,ConvNext、RepLKNet、ConvMixer、MetaFormer等论文都出于模型效果开始选择了更大的 kernel size,在RepLKNet这一工作进行理论探索和设计的同时,MegEngine团队也开始思考超大卷积核的高效实现对多种视觉应用的重要意义,对“小 kernel size 的运行效率更高”这一根植于模型设计者脑中的思维惯性发起挑战。
想知道 ConvNext,RepLKNet为何不约而同将 kernel size 增大?想知道更大的 kernel size 到底给模型带来了什么?想知道 MegEngine 是如何将 31*31 的 DWconv 优化快了10余倍?
快来关注本次线上直播活动吧!
活动议程及报名方式

纯粹想看【直播】的同学可以关注B站-旷视天元MegEngine直播间
https://datayi.cn/w/kojmOBWP

预提问表单

已经有问题的同学,可以填写下方表单,留下你的问题。被选中6个问题,我们将在直播中的QA环节,请讲者优先回答,并送上由旷视MegEngine准备的“炼丹眼罩”哦!
https://datayi.cn/w/GRwqVNdo
直播奖品


直播过程中的提问者,及现场抽奖环节中奖者,将获得由旷视MegEngine和将门TechBeat准备的周边礼品!记得要准时收看我们的直播活动哦!
分享内容及讲者介绍
01 2020年代的卷积网络(10:05-10:35)

Talk介绍:
Vision Transformer的出现改变了计算机视觉中神经网络架构的面貌。层级的Vision Transformer重新引入了很多ConvNet中的先验,进一步获得了在广泛视觉任务中的成功。一般大家把Transformer的成功更多地被归功于自注意力模块。本分享中我们将一起探索融入Transformer设计的大卷积核ConvNet与最新的Vision Transformer相比如何,以及Transformer的优越性来自于何处。
讲者介绍:
刘壮,加州大学伯克利分校EECS系Trevor Darrell教授研究组的五年级博士生,2017年本科毕业于清华大学姚班。曾在Intel Labs、Adobe Research和Facebook AI Research担任研究实习生,康奈尔大学担任访问研究员。主要研究领域是深度学习和计算机视觉,具体主要包括开发和研究准确,高效,可扩展的视觉识别系统。根据谷歌学术的统计,他的学术成果被引用超过25000次。他的工作DenseNet获得了CVPR 2017的最佳论文奖。
02 超大卷积核架构设计与高效实践 (10:35-11:05)

Talk介绍:
卷积网络的 kernel size 可以多大?答案是:25x25 就很好,31x31 甚至更好。我们发现卷积网络的基础设计维度——kernel size——对模型的性能特别是分割和检测等下游任务至关重要。我们提出一种大量采用超大卷积核的模型——RepLKNet,在结构重参数化、depthwise 卷积等设计要素的加持下,超大卷积既强又快,在目标检测和语义分割等任务上超过 Swin Transformer 而且远超传统小卷积模型。这些迹象表明,Transformer 性能强悍的本质可能并不在于 attention,而在于其大感受野。在部署落地方面,我们提出一种专门为超大卷积核优化的卷积算法以实现大幅加速,所以 RepLKNet 不但 FLOPs 低,实际运行也快,对工业应用非常友好。
讲者介绍:
丁霄汉,清华大学博士生,师从丁贵广副教授,研究领域为神经网络通用模型、基本工具、基础理论。在CVPR/ICCV/ICML/NeurIPS等会议发表过一系列关于模型设计、优化、压缩、加速的论文,建立了一个称为结构重参数化的技术流派和体系。其中,在旷视研究院实习期间的代表作RepVGG已获得约2100 GitHub stars。
03 MegEngine 大 kernel 工程优化实践(11:05-11:35)

Talk介绍:
近期部分优秀学者们提出大的有效感受野可能是 Transformer 成功更为本质的原因,因此采用大 kernel depthwise 卷积有可能是 self-attention 的一种替代。 相比于稠密卷积,普通的 depthwise 卷积由于算存比过低对硬件并不友好,实际应用中远达不到硬件的理论峰值。但大 kernel depthwise 卷积相比于普通 depthwise 卷积算存比更高,对硬件更加友好,在理论上为我们提供了优化的可能。MegEngine 对大 kernel depthwise 卷积做了深入优化,相比于 PyTorch(cudnn) 最高加速 10 倍以上,绝对性能在部分情况下可以逼近硬件的理论峰值。在一定程度上打消了大 kernel 卷积网络在训练和部署上的效率疑虑。
讲者介绍:
现任旷视开元深度学习框架MegEngine异构计算组负责人,主要负责旷视 MegEngine 的推理工作。任职期间完成了 MegEngine 基于 MLIR 的即时编译技术实现等多项技术突破,并落地 MegEngine CUDA 推理解决方案以及多个端上优化项目。王彪毕业于中科院计算所,研究方向为高性能计算,对 X86、Arm、OpenCL、CUDA 等多种平台具备丰富的优化经验。
3月19日周六上午10:00,
我们直播间见!

关于TechBeat人工智能社区
TechBeat (www.techbeat.net) 是一个荟聚全球华人AI精英的成长社区。 我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。 期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!
更多详细介绍>>https://mp.weixin.qq.com/s/pTbCK_MeTk05jK2yx1RTrQ