VanillaNet:极简主义在深度学习中的力量
摘要
链接:https://arxiv.org/pdf/2305.12972v2.pdf 基础模型的核心理念是“多而不同”,计算机视觉和自然语言处理领域的惊人成功就是例证。然而,优化的挑战和transformers模型固有的复杂性要求范式向简单性转变。在本研究中,我们介绍VanillaNet,一个包含优雅设计的神经网络架构。通过避免高深度,快捷方式和复杂的操作,如自我关注,VanillaNet令人耳目一新的简洁,但非常强大。每一层都被精心制作得紧凑而直接,非线性激活函数在训练后被修剪以恢复原始结构。VanillaNet克服了固有复杂性的挑战,使其成为资源受限环境的理想选择。其易于理解和高度简化的架构为高效部署提供了新的可能性。大量的实验表明,VanillaNet提供的性能与著名的深度神经网络和视觉转换器相当,展示了极简主义在深度学习中的力量。VanillaNet的这一富有远见的旅程具有重新定义景观和挑战基础模型现状的巨大潜力,为优雅有效的模型设计开辟了一条新的道路。预训练的模型和代码可在https://github.com/huawei-noah/VanillaNet和https://gitee.com/mindspore/models/tree/master/research/cv/ vanillanet上获得。
1、简介
在过去的几十年里,人工神经网络已经取得了显著的进步,这是由增加网络复杂性导致性能提高的想法驱动的。这些网络由具有大量神经元或变形块的多层组成[43,31],能够执行各种类似人类的任务,如人脸识别[25]、语音识别[8]、对象检测[38]、自然语言处理[43]和内容生成[2]。现代硬件令人印象深刻的计算能力使神经网络能够以高精度和高效率完成这些任务。因此,人工智能嵌入式设备在我们的生活中变得越来越普遍,包括智能手机、人工智能摄像头、语音助手和自动驾驶汽车。
诚然,该领域的一个显著突破是AlexNet的出现[24],它由12层组成,在大规模图像识别基准上达到了最先进的性能[7]。在此成功的基础上,ResNet[18]通过快捷连接引入身份映射,使深度神经网络能够在广泛的计算机视觉应用中训练出高性能,如图像分类[40]、目标检测[38]和语义分割[33]。不可否认,在这些模型中引入人为设计的模块,以及网络复杂性的持续增加,增强了深度神经网络的表征能力,导致了如何训练具有更复杂架构的网络以获得更高性能的研究激增[23,19,47]。
除了卷积架构,Dosovitskiy等人[13]还将Transformer架构引入图像识别任务,展示了其利用大规模训练数据的潜力。Zhai等人[53]研究了视觉Transformer架构的缩放规律,在ImageNet数据集上达到了令人印象深刻的90.45%的top-1精度,这表明更深层次的Transformer架构,如卷积网络,往往表现出更好的性能。Wang等人[44]进一步提出将transformers的深度缩放到1000层,以获得更高的精度。Liu等人[32]重新审视了神经网络的设计空间,并引入了ConvNext,实现了与最先进的transformers架构相似的性能。
完整译文:https://blog.csdn.net/m0_47867638/article/details/131057152