CVPR2023 | 手绘草图就能实现目标检测?一种新的目检测训练范例
CVPR2023:提出了一种新的范例训练目标检测,将 CLIP 和 SBIR 结合、无需边界框注释或图像级类标签
作者:PCIPG-ka | 来源:3D视觉工坊
在公众号「3D视觉工坊」后台,回复「原论文」即可获取论文pdf。
添加微信:dddvisiona,备注:目标检测,拉你入群。文末附行业细分群。
在本文中,我们提出一个问题:绘制的草图可以为物体检测的基本视觉任务做什么?因此,设想的结果是一个支持草图的对象检测框架,它根据您的草图内容(即您想要如何表达自己)进行检测。绘制“吃草的斑马”应该从一群斑马中检测出“那只”斑马(实例感知检测),并且它还可以让您自由地指定各个部分(部分感知检测) ),所以如果你更想要“斑马”的“头”,那么就画出这个头。作者没有从头开始设计一个支持草图的对象检测模型,而是证明CLIP和现成的 SBIR 模型 之间的协同作用已经可以相当优雅地解决问题,CLIP 提供模型泛化,SBIR 弥合草图到照片差距;使用 SBIR 模型训练目标检测器分为以下三步:(a) 首先,使用现有的草图-照片对训练 FG-SBIR 模型,该模型可推广到未见过的类别。(b) 为了训练对象检测器模块,我们平铺来自 SBIR 数据集的多个对象级照片,并通过预先训练的草图编码器使用其配对草图编码来对齐检测到的框的区域嵌入。(c) 包含用于对象检测的草图开辟了多种途径,例如检测查询草图的特定对象(例如,检测正在吃草的“斑马”)或对象的一部分(例如,“斑马”的“头”)。这里也推荐「3D视觉工坊」新课程《面向自动驾驶领域目标检测中的视觉Transformer》。
首次培养用于目标检测的绘制草图的表现力,
基于草图的目标检测器,用于检测您想要在草图中表达的内容
一个目标检测器除了执行传统的类别级检测之外,还具有实例感知和部分感知功能。
一种新颖的提示学习设置,将 CLIP 和 SBIR 结合起来,构建草图感知检测器,该检测器无需边界框注释(如监督 、类标签(如弱监督)),并且可以在零样本的情况下工作。
在零样本设置下,结果优于监督 (SOD) 和弱监督目标检测器 (WSOD)。
我们的框架有两个关键模块——目标检测和基于草图的图像检索(类别级和细粒度)。为了完整起见,我们给出了简短的背景。Faster Rcnn
特征提取:使用预训练的卷积神经网络(如VGG、ResNet等)对输入图像进行特征提取,得到图像的特征图。
候选区域提取(Region Proposal Network,RPN):在特征图上,RPN通过滑动窗口来生成一系列候选区域(即候选检测框),每个候选区域都有一个边界框回归和一个置信度得分。
区域分类与回归:对于每个候选区域,Faster R-CNN将其与实际目标进行对比,通过分类器判断其所属类别,并校正候选区域的边界框位置。这一步使用了RoI(Region of Interest)池化操作来从特征图中提取固定大小的特征向量。
结果输出:根据候选区域的分类结果和位置调整,选择最终的检测结果,并输出目标类别和边界框的坐标。
SBIR框架
特征提取:给定草图/照片对 (s, p),类别级 SBIR 需要来自同一类别的 (s, p),而细粒度 SBIR 需要实例级草图/照片匹配,使用图像检索任务中常见的特征提取方法,从草图和图像数据获取特征图 fs = Fs(s) ε R512 和 fp = Fp(p) ε R512。
特征匹配与相似度计算:将草图特征与图像特征进行匹配,计算特征的余弦距离。其中负样本与草图的余弦距离− 应该增加,而正样本与草图的余弦距离 + 应该减小
检索与排序:根据相似度分数,对图像数据库中的图像进行排序,以确定与草图最匹配的图像。按照相似度降序排列,以提供最相关的图像结果。
训练使用三元组损失函数,超参数为µ > 0:
与使用边界框注释来完善提案的监督对象检测 (SOD) 不同,WSOD 仅使用图像级别的类标签,这不足以完善提案,为了解决这个问题,使用了迭代细化分类器。ωk = φ* cls(fr),其中 ωk ∈ RR×(|C|+1) 来预测每个patch的细化类别分数,使用伪标签训练,目标是尽可能将预测的标签与真实标签对齐
具体步骤
(i) 我们计算每个类中得分最高的patch
为了使用具有高度泛化和开放词汇功能的 SBIR 来训练目标检测,我们引入了使用 CLIP 进行 SBIR 的即时学习 类别级和跨类别细粒度) 什么是 CLIP?如下图所示:CLIP 包含一个图像和文本编码器(ViT 或 ResNet),在大型 400M 文本/图像对上进行训练,是一个高度通用的模型,可以实现灵验本学习。核心思想就是让图像识别模型从自然语言中学习监督信息,让模型可以学习图像特征和文字特征之间的关系。CLIP可以根据图像内容自动生成相关的文本标注。它可以理解图像并生成描述性的标注,为图像检索、图像搜索等任务提供更丰富的信息。
结
尽管SBIR是使用物体级别(单个物体)的草图/照片对进行训练,但目标检测是在图像级别(多个物体)的数据上进行的。为了使用SBIR训练目标检测器,我们需要弥合这种物体级别和图像级别之间的差距。我们的解决方案非常简单——通过随机平铺 n = {1, . ……, 7} SBIR 数据集中的对象级照片,尽管它很简单,但我们的增强技巧(类似于 CutMix )提高了针对输入损坏和分布外泛化的鲁棒性。画布中照片的配对草图用于构造支持集 S。作者将这种设置称为极弱监督目标检测(EW-SOD),因为训练目标检测器无需“看到”评估数据分布或使用任何注释(边界框或图像级别的类别标签)
跨类别 FG-SBIR 数据集 – Sketchy:训练目标检测器,包含 125 个类别,每个类别有 100 张照片。每张照片至少有 5 个实例级配对草图;SketchyCOCO :由MS-COCO中的自然图像和实例级配对草图组成,从中选择了1,225对草图/照片,其中至少包含一个前景被描绘的物体 QuickDraw-Extended:对类别级草图/照片对进行训练,其中包含来自 110 个类别的 330k 草图和 204k 照片
(i) 保持 Fd 和 R 固定,训练 RoI 池化层和 FC 层 (P)、分类头 (φcls)、检测头 (φdet) 和细化头 (φ* cls) 240k 次迭代。(ii) 我们仅冻结 RPN 并微调所有模块以进行 80k 次迭代。应用 IoU ≥ 0.3 的非极大值抑制来获得最终预测;
(i) 对于细粒度目标检测,我们测量 AP.3、AP.5 和 AP.7,计算 IoU 值为 0.3、0.5 和 0.7 时的平均精度 (AP)。(ii) 对于类别级对象检测,我们使用测量 AP.5 和 CorLoc 来计算最置信度预测框与每个类别至少有一个真实框的 IoU ≥ 0.5 的图像百分比。(iii) 对于跨类别 FG-SBIR,我们测量 Acc.@q – top-q 列表中具有真正匹配照片的草图的百分比,以及 (iv) 平均精度 (mAP) 以及考虑前 200 个检索的精度 P@200对于类别级 SBIR。
零样本类别级 SBIR (CL-SBIR) 和跨类别 FG-SBIR (CC-FGSBIR) 的定量性能。
与其他的基于草图的目标检测方法相比,无论是强监督(SOD)、弱监督方法(WSOD)还是极弱监督(EWSOD),本文中提出的方法都展现出了最优的结果。这里也推荐「3D视觉工坊」新课程《面向自动驾驶领域目标检测中的视觉Transformer》。
该方法可以检测不同物体的草绘的 “头部” 区域,但是对于像 “腿” 这样的模棱两可的零件草图,检测性能较低。模型无法检测到微小的草绘零件
拟议的支持草图的对象检测框架使用结合了CLIP和SBIR的新型提示学习设置, 基于人类草图检测物体,并且无需边界框注释或类标签即可工作。该检测器设计为通用型,以零样本方式工作,在零样本设置下,其性能优于有监督和弱监督的物体探测器
https://zhuanlan.zhihu.com/p/31426458https://zhuanlan.zhihu.com/p/493489688
目前工坊已经建立了3D视觉方向多个社群,包括SLAM、工业3D视觉、自动驾驶方向,细分群包括:[工业方向]三维点云、结构光、机械臂、缺陷检测、三维测量、TOF、相机标定、综合群;[SLAM方向]多传感器融合、ORB-SLAM、激光SLAM、机器人导航、RTK|GPS|UWB等传感器交流群、SLAM综合讨论群;[自动驾驶方向]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器讨论群、多传感器标定、自动驾驶综合群等。[三维重建方向]NeRF、colmap、OpenMVS等。除了这些,还有求职、硬件选型、视觉产品落地等交流群。大家可以添加小助理微信: dddvisiona,备注:加群+方向+学校|公司, 小助理会拉你入群。