欢迎光临散文网 会员登陆 & 注册

人工智能行业报告:SAM带领CV领域技术突破,赋能多场景AI应用

2023-08-05 17:58 作者:报告派  | 我要投稿

报告出品方:国信证券

以下为报告原文节选

------

SAM 模型:CV 领域的 ChatGPT

SAM:“分割一切”的 AI 新模型

2023 年 4 月,Meta 发布了全新的 AI 模型 Segment Anything Model,即 SAM。官网对该模型的描述为:“只需一次点击,便可在任何图像中分割出任何物体”。
Segment Anything 文章指出,SAM 建立了一个基础图像分割模型,并在一个巨大的数据集上进行训练,从而试图解决一系列下游任务,成为一种通用的模型。论文的关键词包含了:prompt(基于提示学习)、task(下游任务)、zero-shot(零样本)、data(丰富的数据集)。模型的核心要点为:

(1)与 ChatGPT 的启发思想一样,采用 Prompt-based learning 的可提示学习范式,提高学习效率;

(2)建立了迄今为止最大的分割数据集 Segment Anything 1-Billion(SA-1B),含 1100 万张图像,超过 10 亿个掩码,比任何现有的分割数据集多 400 倍;

(3)建立了通用的,全自动的分割模型,零样本灵活转化新任务,新领域,结果甚至优于之前的监督结果。




Prompt:将 ChatGPT 的学习思维应用在 CV 领域

SAM 模型的学习训练方式是 prompt,来源于近年来突飞猛进的 NLP 下游任务的优化过程。Prompt 代表的 prompt-based learning,即基于提示的学习,区别于传统的监督学习,被 GPT-3 团队推进使用。SAM 利用这种先进的技术路线,完成 CV底层技术突破, 并且具有广泛的通用性和零样本迁移的能力。
为了较深刻了解 prompt,本节对 NLP、PLM 及其他相关模型做简单介绍。

Prompt 之前的模型在做什么

自然语言处理(NLP, Nature Language Processing)主要研究人和计算机的交互,其中预训练语言模型(PLM,Pretrained Language Models)是较为前沿的 NLP处理模型。




根据学习范式和发展阶段的不同,预训练模型可以简单划分为四代:

(1)基于特征的学习(Feature-based):第一代预训练模型,根据“人的知识”设置规则来提取文本特征,以此来对文本进行编码。代表模型是 TF-DIF;

(2)基于结构的学习(Architecture-based):第二代预训练模型,开启了 NLP的深度学习应用。代表模型是 W2V;

一二代预训练模型的共同点是模型的输出会作为下游任务的输入,但本身不做下游任务,之后的模型会将预训练的结果和模型本身都投入到下游任务中。




(3)基于下游微调(Fine-tuning):第三代预训练模型,采用预训练+下游微调的方式,代表模型是 BERT 和 GPT。
(4)基于提示的学习(Prompt-based):第四代预训练模型,在三代模型 BERT和 GPT 的基础上做了进一步的改进。将输入信息按照特定模板进行处理,把任务重构成一个更能够充分利用预训练语言模型处理的形式。代表模型是 ChapGPT,gpt3.5,SAM。
其中,三代和四代的核心都是先进行预训练,再进行下游微调。简单来说,预训练模型是培养得到的“高中毕业生”,下游任务为“高校里的专业课程”,给这批“高中毕业生”再学习与未来应用领域相关的课程,将其培养成具备专业技能和知识的“大学生”,再应对专业岗位的要求。




Prompt 的优势:实现预训练和下游任务的统一

如图 5(左)所示,传统、标准的 PLM + finetuning 范式(这里指三代模型)存在上下游差异大,应用不匹配的问题。预训练阶段采用的是自回归、自编码方式,而对下游微调来说,就需要大量的新数据来适应新形式。




但是,如今的模型的参数量越来越大,企业部署起来成本极高,而为了每一种下游任务都要去专门微调一个模型,会造成资源的极大浪费。整体来说,这类模型的缺点在于:1. 微调样本需求量大;2. 模型的专用性强,导致部署成本高。
GPT-3 团队认为在阅读大量无监督文本后,语言模型可以“培养广泛的技能和模式识别的能力”,并有效证明了在少样本场景下,模型不需要更新任何参数,就能够实现不俗效果。在这个基础上发展 prompt 的范式。预训练+微调范式是通过大量训练让模型去适配下游任务。而 Prompt 是把下游任务统一成预训练任务的形式,以特定的模板,将下游任务的数据组装成自然语言形式,充分挖掘预训练模型本身的能力。


以情感分类任务为例,使用两种预训练模型进行处理,比如利用模型写影评、书评、读后感等。如果使用传统 Fine-tune,需要人力来准备一个微调数据集,里面必须包含各种对电影/书籍的评价,以及这些评价人工阅读后的感受(是积极的还是消极的)。这个下游微调数据集必须足够大,才能应对复杂的任务。微调数据集的大小可能远超过了预训练数据集,乃至失去了预训练的意义;而 prompt使用预训练语言模型最擅长的完形填空模式等方式,让模型根据输入句,输出对MASK 位置单词的预测,推测出评价用户对这部作品究竟是持 Positive(积极)还是 Negative(消极)的态度。




综上,prompt 范式的优点在于:1.可以减少模型训练的样本量,在少样本甚至零样本的情况下进行训练;2. 提高通用性,在实际使用中降本增效。如今 GPT-4等大模型,已不再完全开放全部的模型参数,用户都只能通过 API 接口使用模型进行预测,Prompt 工程对下游任务的重要性已无需多言。
ZSL:零样本学习降本增效,提高模型泛化能力

零样本学习能力是什么

零样本学习(zero-shot learning,ZSL)是机器学习的难题,其目标是模型对于从未见过样本的“未知物体”也能进行识别和分类。ZSL 在标记数据稀缺或获取成本高的领域有许多潜在的应用。
图 7 描述了零样本学习的经典案例:认识斑马。一个“儿童”在动物园里见过了马、熊猫、狮子、老虎等动物,但是从未见过斑马,通过老师的描述,该“儿童”了解到斑马有四条腿、黑白相间的条纹,有尾巴。最终轻松地辨认出斑马。模型也可以通过零样本学习,从见过的类别(第一列)中提取特征(如:外形像马、条纹、黑白),然后根据对未知类别特征的描述,识别未见过的类别。




SAM 的零样本学习能力得到认可

SAM 正具备这样一种零样本分割能力,它可以从各种 prompt 输入(包括点、方框和文本)中生成高质量的掩膜(Mask)。学术界有多篇论文探讨了 SAM 的 ZSL 能力,如《SAM.MD: Zero-shot medical image segmentation capabilities of the Segment Anything Model》测试了 SAM 的 ZSL 效果,在图像分割任务中输入了部分点和框作为 prompt 提示,结果显示:专家用户可以通过 SAM 实现大部分场景下的快速半自动分割。虽然在实验中 SAM 没有表现出领先的全自动分割性能,但可成为推动临床医生半自动分割工具发展的潜在催化剂,预示了这类模型进一步适应复杂医疗领域的无限可能性。




总的来说,ZSL 在没有任何训练数据的情况下,也可以完成一些任务。这种技术在大模型发展中具有重要意义。随着大模型的发展,模型的参数数量和计算量不断增加,需要更多的数据来训练。但是数据收集和标注是非常耗时和昂贵的。ZSL技术可以减少对数据的依赖,从而降低了训练成本。同时,ZSL 技术还可以提高模型的泛化能力,使其能够处理更多的任务。
SA-1B:迄今为止最大的分割数据集,助力模型增效

Data Engine:使用数据引擎生成掩码

SAM 使用数据集进行训练,标注者使用 SAM 交互式注释图像,反过来更新 SAM;形成闭环成长,且收集新的分割掩码比以前更快。
基于这种方法,SAM 建立数据引擎,采用新颖的数据收集方法,将模型和标注人员结合起来,最大限度提高数据收集的效率和质量。一共分为 3 个阶段:




(1)模型辅助的手工注释阶段。在这个阶段,标注人员使用 SAM 模型作为辅助工具,通过点击、框选或输入文本等方式来生成 MASK,且模型根据标注人员的输入实时更新 MASK,并提供一些候选 MASK 供标注人员选择和修改。这样,标注人员可快速精确分割图像中的对象,不需要手动绘制。这个阶段的目标是收集高质量MASK 用于训练和改进 SAM 模型;

(2)半自动阶段。在这个阶段,SAM 模型已经有了一定的分割能力,可以自动对图像中的对象进行预测。但是由于模型还不够完善,预测的 MASK 可能存在错误或者遗漏。标注人员的主要任务是收集更多的检查和修正模型的预测结果,保证MASK 的准确性和完整性。这个阶段的目的是收集更多的掩码,用于进一步提升 SAM模型的性能和泛化能力

(3)全自动阶段。这个阶段 SAM 模型已经达到了较高的水平,可以准确分割出图形中的所有对象,不需要任何人工干预。因此,标注人员的工作就变成了确认和验证模型输出,保证没有任何错误。这个阶段的目标是利用 SAM 模型的自动化标注能力,快速扩充数据集的规模和覆盖范围。
Data Set:使用数据引擎生成掩码

SAM 团队通过这种“模型辅助的手工注释—半自动半注释—模型全自动分割掩码”的渐进式方式收集掩码。最终成功地创建了规模空前、质量优良、多样化丰富、隐私保护的图像分割数据集 SA-1B。该数据集:

(1)包含了 1100 万张多样化、高清晰度、隐私保护的照片(明确为相机拍摄),照片由一家大型图片公司提供并授权,在数据许可证允许的前提下,可用于计算机视觉研究;

(2)包含 11 亿个精细的分割 Mask(掩码),这些 Mask 是由 Meta 开发的数据引擎(Data Engine)自动生成的,展示了该引擎强大的自动化标注能力;

(3)每张图像的平均分辨率为 1500×2250 像素,每张图像包含约 100 个 Mask。

(4)比现有的分割数据集多 400 多倍;比 COCO 完全手动的基于多边形的掩码标注快 6.5 倍,比以前最大的数据标注工作快 2 倍。




这个数据集旨在训练一个能够从开放世界图像中分割任何物体的通用模型。数据集不仅为 SAM 模型提供了强大的训练基础,也为图像分割领域提供了一个新的研究资源和基准。此外,SAM 的论文对数据集进行了 RAI(responsible AI,人工智能的责任性)分析,认为 SA-1B 的图像相比之前的分割数据集具有更强的跨区域代表性,大部分国家的图片都超过了 1000 张。




SAM 核心优势:减少训练需求,提升分割性能

SAM 的核心愿景为:减少对于特定任务的专业建模知识要求,减少训练计算需求,减少自己标注掩码的需求,在“不会/少会、不标注/少标注、不训练/少训练”的情况下分割目标。
SAM 主要通过以下三种手段来逐步实现图像领域的“通用分割大模型“,

(1)数据的规模和质量。SAM 通过使用零样本迁移能力,在不同的数据源和任务上收集了大量的高质量的图像分割数据(1100 万张图像和 11 亿个掩码(Mask)),构建了 SA-1B 数据集,这是目前最大的图像分割数据集,远远超过了之前的数据集。
(2)模型的效率和灵活性。SAM 主要借鉴了 Transformer 模型架构,采用注意力机制和卷积神经网络,实现了一个高效且可提示的图像分割模型,可以处理任意大小和比例的图像,并且可以根据不同的输入提示生成不同的分割结果。




(3)任务的泛化和迁移。SAM 通过使用可提示分割任务(prompt segment tasks),实现了一个可以零样本迁移的图像分割模型,可以适应新的图像分布和任务,而无需额外的训练数据或微调。这使得 SAM 可以在多个图像分割任务上表现出色,甚至超过一些有监督的模型。
目前模型已经实现的功能有:1)SAM 已经学会了物体的概念;2)可以为图像或者视频中的物体生成掩码,甚至没有见过;3)通用性很强;4)支持用户使用各种交互性的方式来分割图像和视频,如全选分割自动识别图像内所有物体、框选分割将用户想选定的部分框选出来即可完成分割。



总的来说,SAM 是一个具有划时代意义的模型,它为图像分割领域提供了一个新的范式和思路,也为计算机视觉领域的基础模型研究提供了一个新的视角和方向。

基于 SAM 二次创作,衍生模型提升性能

自从 SAM 发布以来,已引起 AI 届的广泛关注和讨论,产生了一批衍生模型和相关的应用。如 SEEM 模型,MedSAM 模型等,可以应用在工程、医学影像、遥感图像和农业等领域。
SEEM:交互、语义更泛化,分割质量提升




SEEM(Segment everything everywhere at once)是研究者基于 SAM 提出的新的交互模型,利用 SAM 强大的零样本泛化能力,实现对任意图像中的所有物体进行分割。研究者提出了一种新的分割框架,将 SAM 与一个检测器结合,通过给 SAM提供检测器输出的边界框作为输入提示,从而生成对应物体的掩码。SEEM 能够根据用户给出的各种模态的输入(包括文本、图像、涂鸦等等),一次性分割图像或视频中的所有内容,并识别出物体类别。
(1)论文已在多个公开数据集上进行实验,在分割质量和效率上都优于 SAM;(2)SEEM 是第一个不仅支持经典分割任务,还支持各种用户输入类型的通用接口,包括文本、点、涂鸦、框和图像,提供强大的组合功能。




(3) 能直接输入参考图像并指出参考区域,对其他图像进行分割,找出与参考区域一致的物体。该性能具有分类识别特质;

(4) 视频中的零样本分割功能。使用第一帧以及用户输入的涂鸦等,在模糊或者剧烈变形的视频中也可以准确分割参考对象。该功能可在道路场景、运动场景等应用中体现。



--- 报告摘录结束 更多内容请阅读报告原文 ---

报告合集专题一览 X 由【报告派】定期整理更新

(特别说明:本文来源于公开资料,摘录内容仅供参考,不构成任何投资建议,如需使用请参阅报告原文。)

精选报告来源:报告派

科技 / 电子 / 半导体 /

人工智能 | Ai产业 | Ai芯片 | 智能家居 | 智能音箱 | 智能语音 | 智能家电 | 智能照明 | 智能马桶 | 智能终端 | 智能门锁 | 智能手机 | 可穿戴设备 |半导体 | 芯片产业 | 第三代半导体 | 蓝牙 | 晶圆 | 功率半导体 | 5G | GA射频 | IGBT | SIC GA | SIC GAN | 分立器件 | 化合物 | 晶圆 | 封装封测 | 显示器 | LED | OLED | LED封装 | LED芯片 | LED照明 | 柔性折叠屏 | 电子元器件 | 光电子 | 消费电子 | 电子FPC | 电路板 | 集成电路 | 元宇宙 | 区块链 | NFT数字藏品 | 虚拟货币 | 比特币 | 数字货币 | 资产管理 | 保险行业 | 保险科技 | 财产保险 |

人工智能行业报告:SAM带领CV领域技术突破,赋能多场景AI应用的评论 (共 条)

分享到微博请遵守国家法律