欢迎光临散文网 会员登陆 & 注册

SAM被以为是里程碑式的视觉根底模型

2023-06-28 17:19 作者:bili_51805000088  | 我要投稿

SAM被以为是里程碑式的视觉根底模型

导读

SAM曾经成为许多高级任务(如图像分割、图像描绘和图像编辑)的根底步骤。但是,其宏大的计算开支限制了其在工业场景中的普遍应用。这种计算开支主要来自于处置高分辨率输入的Transformer架构。因而,本文提出了一种具有可比性能的加速替代办法。经过将该任务重新定义为分割生成和提示,作者发现一个常规的CNN检测器分离实例分割分支也能够很好地完成这个任务。详细而言,本文将该任务转换为经过普遍研讨的实例分割任务,并仅运用SAM作者发布的SA-1B数据集的1/50停止锻炼现有的实例分割办法。运用这种办法,作者在50倍更快的运转时间速度下完成了与SAM办法相当的性能。本文提供了充沛的实验结果来证明其有效性。

引言

SAM被以为是里程碑式的视觉根底模型,它能够经过各种用户交互提示来引导图像中的任何对象的分割。SAM应用在普遍的SA-1B数据集上锻炼的Transformer模型,使其可以纯熟处置各种场景和对象。SAM创始了一个令人兴奋的新任务,即Segment Anything。由于其通用性和潜力,这个任务具备成为将来普遍视觉任务基石的一切要素。但是,虽然SAM及其后续模型在处置segment anything任务方面展现了令人等待的结果,但其实践应用依然具有应战性。显而易见的问题是与SAM架构的主要局部Transformer(ViT)模型相关的大量计算资源需求。与卷积模型相比,ViT以其庞大的计算资源需求脱颖而出,这关于其实践部署,特别是在实时应用中构成了障碍。这个限制因而障碍了segment anything任务的停顿和潜力。

鉴于工业应用对segment anything模型的高需求,本文设计了一个实时处理计划,称为FastSAM,用于segment anything任务。本文将segment anything任务合成为两个连续的阶段,即全实例分割和提示引导选择。第一阶段依赖于基于卷积神经网络(CNN)的检测器的完成。它生成图像中一切实例的分割掩码。然后在第二阶段,它输出与提示相对应的感兴味区域。经过应用CNN的计算效率,本文证明了在不太损失性能质量的状况下,能够完成实时的segment anything模型。 本文希望所提出的办法可以促进对segment anything根底任务的工业应用。


(a) FastSAM和SAM在单个NVIDIA GeForce RTX 3090上的速度比拟。(b) 在BSDS500数据集[1, 28]上停止边缘检测的比拟。(c) COCO数据集[25]上对象提议的Box AR@1000评价中FastSAM和SAM的比拟。SAM和FastSAM都运用PyTorch停止推理,只要FastSAM(TRT)运用TensorRT停止推理。

本文提出的FastSAM基于YOLACT办法的实例分割分支的目的检测器YOLOv8-seg。此外,还采用了由SAM发布的普遍SA-1B数据集,经过仅在SA-1B数据集的2%(1/50)上直接锻炼该CNN检测器,它完成了与SAM相当的性能,但大大降低了计算和资源需求,从而完成了实时应用。本文还将其应用于多个下游分割任务,展现了其泛化性能。在MS COCO 上的对象提议任务中,该办法在AR1000上到达了63.7,比运用32×32点提示输入的SAM高1.2点,但在单个NVIDIA RTX 3090上运转速度进步了50倍。

实时的segment anything模型关于工业应用十分有价值。它能够应用于许多场景。所提出的办法不只为大量视觉任务提供了新的适用处理计划,而且速度十分快,比当前办法快几十倍或几百倍。此外,它还为通用视觉任务的大型模型架构提供了新的视角。关于特定任务来说,特定的模型依然能够应用优势来取得更好的效率-精确性均衡。

在模型紧缩的角度上,本文办法经过引入人工先验构造,展现了显著减少计算量的可行途径。本文奉献可总结如下:

  • 引入了一种新颖的实时基于CNN的Segment Anything任务处理计划,显著降低了计算需求同时坚持竞争性能。

  • 本研讨初次提出了将CNN检测器应用于segment anything任务,并提供了在复杂视觉任务中轻量级CNN模型潜力的见解。

  • 经过在多个基准测试上对所提出的办法和SAM停止比拟评价,提醒了该办法在segment anything范畴的优势和优势。

办法

下图2展现了FastSAM网络架构图。该办法包括两个阶段,即全实例分割和提示引导选择。前一个阶段是根底阶段,第二个阶段实质上是面向任务的后处置。与端到端的Transformer办法不同,整体办法引入了许多与视觉分割任务相匹配的人类先验学问,例如卷积的部分衔接和感受野相关的对象分配战略。这使得它针对视觉分割任务停止了定制,并且能够在较少的参数数量下更快地收敛。


FastSAM包含两个阶段:全实例分割(AIS)和提示引导选择(PGS)。先运用YOLOv8-seg 对图像中的一切对象或区域停止分割。然后运用各种提示来辨认感兴味的特定对象。主要触及点提示、框提示和文本提示的应用。

实例分割

YOLOv8 的架构是基于其前身YOLOv5 开展而来的,交融了最近算法(如YOLOX 、YOLOv6 和YOLOv7 )的关键设计。YOLOv8的主干网络和特征交融模块(neck module)将YOLOv5的C3模块交换为C2f模块。更新后的头部模块采用解耦构造,将分类和检测分开,并从基于Anchor的办法转向了基于Anchor-Free的办法。

YOLOv8-seg应用了YOLACT的实例分割原理。它经过主干网络和特征金字塔网络(Feature Pyramid Network, FPN)从图像中提取特征,集成了不同尺度的特征。输出包括检测分支和分割分支。检测分支输出目的的类别和边境框,而分割分支输出k个原型(在FastSAM中默许为32个)以及k个掩码系数。分割和检测任务并行计算。分割分支输入高分辨率特征图,保存空间细节,并包含语义信息。该特征图经过卷积层处置,上采样,然后经过另外两个卷积层输出掩码。与检测头部的分类分支相似,掩码系数的范围在-1到1之间。经过将掩码系数与原型相乘并求和,得到实例分割结果。

YOLOv8能够用于各种目的检测任务。而经过实例分割分支,YOLOv8-Seg十分适用于segment anything任务,该任务旨在精确检测和分割图像中的每个对象或区域,而不思索对象的类别。原型和掩码系数为提示引导提供了很多可扩展性。例如,能够额外锻炼一个简单的提示编码器和解码器构造,以各种提示和图像特征嵌入作为输入,掩码系数作为输出。在FastSAM中,本文直接运用YOLOv8-seg办法停止全实例分割阶段。

提示引导选择

在运用YOLOv8胜利地对图像中的一切对象或区域停止分割后,segment anything 任务的第二阶段是应用各种提示来辨认感兴味的特定对象。这主要触及到点提示、框提示和文本提示的应用。

点提示

点提示的目的是将所选点与第一阶段取得的各种掩码停止匹配,以肯定点所在的掩码。相似于SAM在办法中采用前景/背景点作为提示。在前景点位于多个掩码中的状况下,能够应用背景点来挑选出与当前任务无关的掩码。经过运用一组前景/背景点,我们可以选择感兴味区域内的多个掩码。这些掩码将被兼并为一个单独的掩码,完好标志出感兴味的对象。此外,还能够应用形态学操作来进步掩码兼并的性能。

框提示

框提示触及将所选框与第一阶段中对应的边境框停止IoU(交并比)匹配。目的是辨认与所选框具有最高IoU得分的掩码,从而选择感兴味的对象。

文本提示

在文本提示的状况下,我们运用CLIP模型提取文本的相应嵌入。然后,肯定与每个掩码的固有特征停止匹配的图像嵌入,并运用类似度度量办法停止匹配。选择与文本提示的图像嵌入具有最高类似度得分的掩码。

经过精心施行这些基于提示的选择技术,FastSAM能够牢靠地从分割图像当选择特定的感兴味对象。上述办法为在实时状况下完成segment anything任务提供了高效的方式,从而极大地加强了YOLOv8模型在复杂图像分割任务中的适用性。关于更有效的基于提示的选择技术,将留待将来探究。


SAM被以为是里程碑式的视觉根底模型的评论 (共 条)

分享到微博请遵守国家法律