ICCV2023|遥遥领先华为SOTA!无监督自适应3D目标检测!即将开源
作者: 大森林 | 来源:3D视觉工坊
在公众号「3D视觉工坊」后台,回复「原论文」即可获取论文pdf和代码链接。
添加微信:dddvisiona,备注:目标检测,拉你入群。文末附行业细分群。
基于激光雷达的3D检测在最近几年取得了显著的进步。然而,当3D检测器应用于不同的数据集时,其性能会受到域间差异的严重影响。现有的基于激光雷达的域自适应3D检测方法没有充分解决特征空间中的分布差异问题,这限制了检测器跨域的泛化能力。为此,我们提出了一种新的无监督域自适应3D检测框架,即GPA-3D,它利用点云对象固有的几何关系来缩小特征差异,从而促进现有激光雷达3D检测器的跨域迁移。具体来说,GPA-3D为点云对象的不同几何结构设计了一系列可学习的原型。每个原型在对应的点云对象的BEV(俯视图)特征上进行对齐,以减少分布差异并实现更好的自适应。为了达到这个目的,我们设计了软对比损失,它在表示空间中拉近同类特征-原型对,并推远异类对。此外,我们还开发了两个组件来增强该框架的效果,即噪声样本抑制(NSS)和实例替换增广(IRA)。NSS利用前景区域与背景原型之间的相似度,生成一个掩码以降低噪声的影响。IRA用具有相似几何结构的高质量样本替换伪标签,以增加目标域的多样性。在Waymo、nuScenes和KITTI等基准数据集上的广泛评估结果表明,我们的GPA-3D在不同的自适应场景下均优于当前最先进的方法。这里也推荐「3D视觉工坊」新课程《 国内首个面向自动驾驶目标检测领域的Transformer原理与实战课程》。
我们提出了一种新的基于激光雷达UDA的3D检测框架,即GPA-3D。它利用点云对象固有的几何关系来实现特征对齐,有效地缩小了域间分布差异,从而促进了现有的基于点云的检测器的跨域迁移。
我们设计了噪声样本抑制和实例替换增强两个组件,以提高伪标签的可靠性和多样性。
我们在Waymo、nuScenes和KITTI等基准数据集上进行了广泛评估。结果表明,GPA-3D在不同的自适应场景中均优于当前最先进的方法。更重要的是,由于采用了与架构无关的设计,GPA-3D可以灵活地应用于各种基于点云的检测器。
图1.我们提出的GPA-3D框架概览。它采用基本的联合训练方式来适应源域和目标域的3D检测器。BEV特征通过几何感知原型对齐进行处理,这减少了分布差异,并使跨域学习到泛化表示。为此,我们设计了软对比损失来联合优化原型和网络参数。此外,还设计了噪声样本抑制来减轻训练过程中的噪声样本影响,以及实例替换增强来增强目标域的多样性。
下面,我们介绍GPA-3D来缓解基于激光雷达检测器的域间差异。图1阐述了整个流程。第3.1节构建了点云检测器的UDA任务。第3.2节介绍了我们方法中的检测架构。在第3.3节,我们详细阐述了几何感知原型对齐,之后第3.4节讨论了软对比损失。最后,我们分别在第3.5节和第3.6节中介绍噪声样本抑制和实例替换增广。
在本文中,我们关注基于激光雷达的3D检测的无监督域自适应问题。具体而言,给定标注的源域点云,以及无标注的目标域点云,我们的目标是基于和训练一个3D检测器,并最大化其在上的性能。这里,是场景总数,表示第个点云场景,其中每个点都有3维空间坐标和额外的强度。对应的标签表示一系列3D边界框,每个框可以由中心位置、空间尺寸和旋转参数化。注意,上标和分别表示源域和目标域。
输入点云首先被送入具有3D稀疏卷积或2D卷积的 backbone 网络,以提取点云表示:
其中是参数为的backbone,表示BEV特征。之后,检测头带参数产生最终输出,形式化为:
其中和分别表示预测的3D盒子和得分。我们应用联合训练范式逐步减轻域间差异。在每个mini-batch中,源点云和目标点云都被输入到检测器,它们的输出分别由对应的真值和伪标签进行监督。计算得到的损失之和通过反向传播更新检测器参数和原型。
提取。如第3.2节所述,对于来自源域或目标域的第个点云场景,基于激光雷达的检测器生成BEV特征,其中分别表示特征图的高度、宽度和通道数。我们首先将对应的真值或伪标签投影到BEV特征图上,然后随机提取等长序列和。这里,是特征序列的长度,和分别代表来自BEV的前景和背景特征。
图2.左:偏移角示意图。右:偏移角相同的对象具有相似的几何结构。
分组。对于提取的前景特征,我们进一步根据它们在点云上的几何结构将它们分成不同的组。具体地,对于序列中的第个前景(),我们计算其偏移角如下:
其中是方向,是观测角,如图2(左)所示。注意,方向来自标签和,而观测角可以根据3D边界框的中心位置计算。接下来,所有前景特征被分割成组,组索引公式化为:
其中是将输入角度规范化到[0,2]的标准化函数,是组间角度间隔。通过这种方式,偏移角相似的前景特征被分配到相同的组,其中它们的几何结构非常相似,如图2(右)所示。此外,提取的背景被送入一个单独的组,因此总共构建了组。
原型构建。在训练开始时,我们随机初始化一系列可学习原型。在训练期间,我们提取源域和目标域的BEV特征,并通过Eq. 4将它们分割到相应的组中。在第组中,前景特征被强制与原型对齐。类似地,最后一组中的背景特征与背景原型对齐。
给定点云,我们的目标是将其前景/背景特征和与原型集中的对应原型对齐。
组内吸引。对于前景特征,我们将它们拉近对应原型,可以表示为:
其中是余弦相似度,是一个指示函数,当时为1,否则为0。类似地,背景特征也需要被拉向背景原型,计算为:
组间排斥。为增强区分能力,我们需要将特征与属于其他组的所有原型推开。例如,背景特征与所有前景原型的距离通过最小化:
对于相邻组中的前景特征,它们对应的几何结构相对更相似。将这些特征推开是不很必要的,甚至可能使训练过程不稳定。因此,我们采用更松弛的约束:
其中表示余量,在我们的实验中设置为0.5,是相邻组的索引,即。软对比损失可以表示为:
其中和是平衡系数。
目标域上使用的伪标签存在噪声,可能会导致误差累积。为降低噪声的影响,我们提出噪声样本抑制(NSS)方法,它生成一个掩码来抑制可能是基础噪声的前景区域的梯度下降幅度。噪声掩码可以表示为,其中抑制因子用于减少低质量样本的贡献。在中,与背景原型具有高相似度(即)的前景区域被赋值为,其余前景和背景区域被赋值为1.0。
在训练过程中,噪声掩码与联合训练损失相乘,在第3.7节中详细阐述。随着训练的进行,原型将获得更好的表示能力,这使得NSS可以更可靠地抑制噪声并促进训练过程。
图3.实例替换增强(IRA)示意图。左:IRA利用组机制将原始实例替换为具有相似几何结构的高质量候选项。右:与随机替换相比,我们的组机制不会干扰点云场景的空间上下文。
得分在0.2至0.5之间的不确定伪标签通常在训练中会被忽略。尽管不准确,但它们可能提供局部定位信息。为此,我们设计了实例替换增广(IRA)模块。如图3(左)所示,我们首先选择得分超过0.5的伪标签构建高质量数据库,该数据库使用Eq. 4的组机制将挑选的实例划分为不同几何结构的组。在训练过程中,我们为不确定的伪标签计算组索引,并使用数据库中具有相同组索引的实例替换它们。在此过程中,采用参数来调节替换操作的概率。
IRA有两个主要优点。首先,目标数据的数量得以维持,多样性也有所增强。其次,受益于组机制,替换实例周围的空间上下文保持不变,不会引入模糊或不合理的情况,如图3(右)所示。这里也推荐「3D视觉工坊」新课程《 国内首个面向自动驾驶目标检测领域的Transformer原理与实战课程》。
算法1 GPA-3D 的学习过程
GPA-3D的整体训练过程如算法1所示。3D检测器首先在标注的源域上通过最小化检测损失进行训练:
其中和分别表示回归和分类错误。接下来,我们使用预训练模型在目标域上生成伪标签和IRA数据库。最后,联合训练范式进一步对模型进行微调:
其中是目标数据上的检测损失,与Eq. 10相同。整体自适应损失计算如下:
其中是软对比损失的总权重,是NSS的噪声掩码。
表1.与最新方法在Waymo → KITTI自适应场景中的比较,采用40个召回位置的BEV和3D平均精度。
Waymo → KITTI自适应。为验证对象尺寸的域间差异的有效性,我们在Waymo → KITTI上进行了全面比较。如表1所示,与SECOND-IoU检测器相比,我们提出的GPA-3D大幅优于ST3D++ ,并相对以前最佳结果取得了显著的性能提升,即AP3D提升5.24%,APBEV提升1.6%。注意,GPA-3D的APBEV甚至高于Oracle方法,这表明将几何结构信息融入UDA在3D检测任务中的有效性。即使将基础检测器切换为PointPillars,我们的方法仍然分别在AP3D和APBEV上超过了先前的最佳方法3D-CoCo 7.94%和1.19%。这些改进表明我们的GPA-3D在缓解更具挑战性的跨光束场景的域偏差方面具有优势。
表2.与不同基础检测器和最新方法在Waymo → nuScenes上的自适应性能比较。
Waymo → nuScenes自适应。对于激光光束的域间差异,我们选择Waymo → nuScenes作为代表,因为它们使用不同的激光雷达传感器,即64束vs 32束。如表2所示,与SECOND-IoU检测器相结合,GPA-3D将自适应性能提高到37.25% APBEV和22.54% AP3D,优于之前的最佳方法。与ST3D++相比,GPA-3D在APBEV和AP3D上分别获得了1.52%和1.64%的增益。基于PointPillars,我们的方法比最佳方法3D-CoCo在APBEV上高出2.37%,并分别在APBEV和AP3D上超过ST3D 4.87%和5.41%。这些改进证明了GPA-3D在缓解更具挑战性的跨光束场景的域偏差方面的进步。
表3. GPA-3D中的组件消融研究。Proto表示几何感知原型对齐。Soft是软对比损失。NSS代表噪声样本过滤。IRA表示实例替换增强。
组件分析。我们评估GPA-3D中每个组件的有效性,如表3所示。基线(a)表示仅使用目标域上的伪标签进行自训练。应用几何感知原型对齐分别在AP3D和APBEV上带来了5.92%和2.62%的提升,软对比损失在AP3D上带来了1.06%的改进。这些提升表明将几何信息融入域自适应是可行和有效的。此外,NSS和IRA分别提高了大约2.5%和1.5%的性能,这表明增强目标数据上的监督质量的有效性。
几何感知原型对齐的有效性。我们进一步研究几何感知原型对齐的效果。如图7所示,与联合训练基线相比,仅使用一对前/背景原型的普通对齐表现更好,这暗示特征分布不对齐会影响性能。与基线相比,使用两个原型在APBEV和AP3D上分别获得3.57%和5.05%的提升,这证明了将几何信息与特征对齐相结合的有效性。当使用4个前景原型时,性能达到APBEV 84.44%的峰值,这表明几何信息与特征对齐相结合的进步。但是,当使用过多原型时,我们观察到轻微的性能降低,我们将其归因于冗余原型导致特征在表示空间中难以区分。
表4. 对噪声样本抑制的消融实验。符号-T/-S表示仅在目标/源域上应用NSS,而-TS在目标和源域上都执行NSS。-TSH额外采用硬阈值截断因子,即α=0.
噪声样本抑制的有效性。我们在GPA-3D上进行不同设置的NSS消融实验。如表4所示,当我们从GPA-3D中删除NSS时,AP3D的检测性能下降到67.79%。仅在目标域上应用NSS分别在APBEV和AP3D上获得1.43%和0.45%的提升。我们可以看到,在源域上使用NSS也可以带来改进。我们认为这是因为NSS抑制了那些只有少量点的源样本,这些样本与背景噪声非常相似。当采用硬阈值截断因子时,AP3D进一步提高到70.88%,表明NSS的有效性。
表5. 实例替换增强的效果。RandRep放弃了IRA中的组机制。
实例替换增强的有效性。我们还比较了实例替换增强(IRA)中的不同策略。如表5所示,与不使用组机制的随机替换相比,我们提出的IRA在APBEV和AP3D上分别获得了0.72%和1.43%的提升。这凸显了维持实例与其上下文环境一致性的重要性。
表6.与不同自适应框架的比较。Source指Source Only方法。Self-T.是自训练框架。Co-T.表示联合训练流水线。Mean T.代表平均老师范式。
域自适应框架。我们将提出的GPA-3D与几种自适应框架进行了比较,如表6所示。结果确认了GPA-3D的有效性,它利用几何关联迁移不同域之间的3D检测器。图8进一步说明,尽管所有模型在早期周期波动,但我们的GPA-3D能够稳定、持续地提高检测性能。
可视化。我们在图6中展示了一些跨域自适应的定性结果。另外,在图9中,我们可视化了BEV特征的分布。明显的是,GPA-3D将前景样本聚合到不同的原型中,并将它们与背景分开。
图6.Waymo → KITTI上的GPA-3D定性结果。对于每个框,我们使用X指定方向。预测结果和真值分别涂为蓝色和绿色。
本文提出了一种新的无监督域自适应3D检测框架,即GPA-3D。它利用点云对象固有的几何关系来实现特征对齐,有效地缩小了域间分布差异,从而缓解了点云检测器的域偏差问题。我们在多个基准数据集上进行了全面的实验,表明我们的方法是有效的,并且可以轻松地集成到主流的基于激光雷达的3D检测器中。在未来的工作中,我们计划将GPA-3D扩展到支持多模态3D检测器。这需要一个更高效的对齐机制来处理来自点云和图像的特征流。