Exploiting Unlabeled Data with Vision and Language Models for Ob
构建稳健且通用的目标检测框架需要扩展到更大的标签空间和更大的训练数据集。然而,以大规模获取数千个类别的标注是代价高昂的。我们提出了一种新颖的方法,利用最近的视觉和语言模型中丰富的语义信息,对未标记的图像进行目标定位和分类,从而有效地生成目标检测的伪标签。从一个通用且与类别无关的区域提议机制开始,我们使用视觉和语言模型将图像中的每个区域分类到下游任务所需的任何目标类别中。我们在两个特定任务中展示了生成的伪标签的价值:开放词汇检测(模型需要泛化到没有见过的目标类别)和半监督目标检测(额外的未标记图像可用于改进模型)。我们的实证评估显示了伪标签在这两个任务中的有效性,我们在开放词汇目标检测方面超过了竞争基线,并取得了新颖的最先进的结果。我们的代码可在 https://github.com/xiaofeng94/VL-PLM 上获得。

近年来,目标检测的最新进展是基于大规模数据集[17,27,43],这些数据集为许多目标类别提供了丰富而准确的人工标注边界框。然而,这些数据集的标注成本是相当大的。此外,自然目标类别的长尾分布使得为所有类别收集足够的注释更加困难。半监督目标检测(SSOD)[46,62]和开放词汇目标检测(OVD)[4,16,56]是两个通过利用不同形式的未标记数据来降低标注成本的任务。在SSOD中,除了大量的未标记图像语料库,还提供了对少数全面注释的训练图像的帮助。在OVD中,在所有训练图像中只注释了部分所需的目标类别(基本类别),任务是在测试时还要检测一组新的(或未知的)类别。这些目标类别可能出现在训练图像中,但没有用地面实况边界框进行注释。利用未标记数据的常见且成功的方法是生成伪标签。然而,在SSOD的所有先前工作中,仅利用了少量标记数据生成伪标签,而在OVD的大部分先前工作中根本不利用伪标签。
在本文中,我们提出了一种简单而有效的方法,利用最近提出的视觉和语言(V&L)模型来挖掘未标记图像,为已知和未知的类别生成伪标签,适用于SSOD和OVD两种任务。V&L模型[23,29,38]可以通过训练(含有噪声)的图像标题对集合进行训练,这可以通过在网站上获取图像和其替代文本来大规模获取,而无需进行人工标注工作。尽管注释有噪声,但这些模型展现了在零样本分类或图像-文本检索等各种语义任务上的优异性能。大量多样的图像加上自由文本为训练强大且通用的模型提供了强大的信息源。这些特性使得视觉和语言模型成为改进利用未标记数据的现有目标检测流水线的理想选择,如OVD或SSOD,见图1(a)。
具体而言,我们的方法利用最近提出的视觉和语言模型CLIP [38]生成目标检测的伪标签。我们首先使用一个两阶段的与类别无关的提议生成器预测区域提议,该生成器在训练时仅使用已知基本类别的有限地面实况(在OVD中)或已标记的图像(在SSOD中)进行训练,但可以泛化到未知类别。对于每个区域提议,我们使用预训练的V&L模型CLIP [38]获取所需目标类别的概率分布(取决于任务)。然而,如图1(b)所示,V&L模型的一个主要挑战是其对象定位质量相对较低,这也在[59]中观察到。为了提高定位的准确度,我们提出了两种策略,其中两阶段提议生成器帮助V&L模型:(1)融合CLIP得分和两阶段提议生成器的对象性得分,(2)通过多次应用提议生成器的定位头(第二阶段)删除冗余的提议。最后,将生成的伪标签与原始的地面实况相结合,训练最终的检测器。我们将我们的方法命名为基于V&L模型的伪标签挖掘(VL-PLM)。
广泛的实验表明,VL-PLM成功地利用了未标记数据进行开放词汇检测,并在COCO数据集[32]上对新类别的性能超过了最新的ViLD [16] 6.8个AP。此外,VL-PLM改进了SSOD中已知类别的性能,并以明显的优势击败了 STAC [46] 这一流行基线,仅仅是用我们的伪标签替换它们。此外,我们还对生成的伪标签的属性进行了各种消融研究,并分析了我们提出的方法的设计选择。我们还相信,使用诸如ALIGN [23]或ALBEF [29]等更好的V&L模型,VL-PLM还可以进一步改进。
我们的工作的贡献如下:(1)我们利用V&L模型来改进目标检测框架,通过在未标记的数据上生成伪标签。 (2)通过使用V&L模型CLIP [38]来提高伪标签的定位质量的一种简单而有效的策略。 (3)在COCO开放词汇检测设置中,提供了对新类别的最新结果。 (4)我们展示了VL-PLM在半监督目标检测设置中的益处。
