欢迎光临散文网 会员登陆 & 注册

ICCV2023开源SOTA!2D-3D交错Transformer,性能史诗级增强!

2023-10-31 22:09 作者:3D视觉工坊  | 我要投稿


作者:大森林  | 来源:3D视觉工坊

在公众号「3D视觉工坊」后台,回复「原论文」可获取论文pdf和代码链接。

添加微信:dddvisiona,备注:自动驾驶,拉你入群。文末附行业细分群。

本文提出了一种多模态交错Transformer(MIT)模型,用于在只有场景级别标签弱监督条件下,利用2D和3D数据进行点云分割。该模型包含两个编码器一个解码器分别从3D点云和2D多视图图像中提取自注意力特征,并通过交错的2D-3D交叉注意力机制,隐式地融合2D-3D特征。该模型不需要额外的2D标注,也不依赖于摄像头姿态或深度图像来建立2D-3D对应关系。在S3DISScanNet两个数据集上的实验结果表明,该模型在弱监督点云分割方面,显著优于现有的所有方法。这里也推荐「3D视觉工坊」新课程《国内首个面向自动驾驶目标检测领域的Transformer原理与实战课程》。

本文贡献如下:


  1. 我们首次在只有场景级别标签的弱监督条件下,探索了利用2D和3D信息进行点云分割的方法。


  2. 我们提出了一种新颖的多模态交错Transformer(MIT)模型,它能够通过交错注意力机制,隐式地融合2D-3D信息,而不需要依赖于摄像头姿态信息。


  3. 我们引入了分类损失,来对齐不同模态之间的类别标签。

我们在两个大规模的数据集ScanNet和S3DIS上进行了实验,结果证明了我们的方法在弱监督点云分割方面的优越性。

图1:多模态交错Transformer(MIT)模型的概述。输入包括一个3D点云、多视图2D图像和一个场景级别的类别标签。我们的模型是一个由两个编码器和一个解码器组成的Transformer模型。两个编码器分别计算3D体素和2D图片的特征。解码器采用交错的方式,实现了2D-3D交叉注意力,并隐式地融合了2D和3D特征。在奇数层中,3D体素作为查询,被2D视图特征增强,后者扮演键值对的角色。在偶数层中,二者的角色交换2D视图由3D几何特征描述

我们提出了一种多模态交错Transformer(MIT)模型,它能够在弱监督的条件下,利用2D和3D数据进行点云分割。以往的研究已经证明,2D和3D特征对于点云分割有着互补的作用。然而,现有的方法都需要额外的2D标注来实现2D-3D特征的融合。鉴于点云标注的高成本,如何在弱监督学习的框架下有效地融合2D和3D特征,是一个具有重要意义的问题。为了解决这个问题,我们设计了一个由两个编码器和一个解码器组成的变压器模型,它只需要场景级别的类别标签,就能够完成点云分割任务。具体来说,两个编码器分别从3D点云和2D多视图图像中提取自注意力特征。解码器采用交错的方式,实现了2D-3D交叉注意力,并隐式地融合了2D和3D特征。我们在解码器层中交替地改变查询和键值对的角色,使得2D和3D特征能够相互增强。我们在S3DIS和ScanNet两个数据集上进行了实验,结果表明,我们的方法在弱监督点云分割方面,明显优于现有的方法。

本节介绍了我们提出的方法。首先,我们在3.1节中对问题进行了形式化定义。然后,我们在3.2节和3.3节中详细介绍了具有编码器-解码器结构的MIT模型。最后,我们在3.4节中给出了实现细节。

给定一组N个点云及其对应的RGB多视图图像和类别标签注释,即,其中表示第n个点云,表示多视图图像,并且是C维二进制向量,存储出现的类别,其中C是感兴趣的类别数。注意,,和都是从同一场景中获取的。在不失普适性的情况下,我们假设每个点云由M个点组成,即,其中每个点由其3D坐标和RGB颜色表示。多视图RGB图像是在与相同的场景中捕获的,并由一组T个图像组成,即。每幅图像具有H × W分辨率,具有RGB通道。的类别标签即,是一个存储出现的类别的C维二进制向量。

利用弱标注数据集,我们的目标是推导一个模型,以将测试云中的每个点分类到C个类别之一。注意,在这个弱监督设置中,没有点或像素被标记,并且摄像头姿态不可用,这使得由于没有点/像素监督和2D像素与3D点之间的显式对应关系,很难通过结合额外的2D特征来增强3D点云分割成为一个具有挑战性的问题。此外,由于多视图图像共享场景的同一类别标签,每个视图图像都没有单独的类别标签注释,这可能导致每个图像的语义理解不准确。

方法概述。图2说明了MIT的网络体系结构,它由两个Transformer编码器 和 ,以及一个解码器 组成。两个编码器分别用于提取3D点云和2D多视图图像的特征。解码器是为2D-3D特征融合而开发的,它利用交叉注意力将2D和3D数据隐式地联系起来。接下来对它们进行详细阐述。

图2:MIT网络概览

3D点云特征提取。 应用一个3D骨干网络,例如MinkowskiNet或PointNet++,以提取所有M个点的点嵌入。如WYPR中所示,我们使用无监督的开箱即用算法执行超体素划分。将的3D坐标输入坐标嵌入模块,该模块由两个1×1卷积层与ReLU激活组成,以获得位置嵌入,其中D是嵌入维度。我们通过超体素平均池化聚合点特征和点位置嵌入,生成超体素特征和汇集的位置嵌入,其中S是中的超体素数。超体素特征与位置嵌入相加。

为了学习适合场景级监督的类别特定表示,我们在S个超体素标记之前添加C个可学习的类标记。总共(C + S)个标记被馈送到Transformer编码器。通过自注意力机制,捕获类标记和超体素标记之间的依赖性,生成自注意力3D特征。

2D多视图图像特征提取。 应用一个2D骨干网络,例如ResNet,以提取图像特征,其中且。我们对图像特征沿空间维度应用全局平均池化。池化后的图像特征与可学习的位置嵌入相加,生成T个视图标记。

类似于3D特征提取,应用另一个Transformer编码器到C个类标记和T个视图标记,获得自注意力2D特征。

编码器优化。在训练期间,我们考虑一个点云及其相关的T个多视图图像和场景级标签。像上面提到的那样构建2D和3D自注意力特征和。

对于3D注意力特征,我们将其分为C个类标记和S个超体素标记。对于类标记,通过沿特征维度应用平均池化来估计C个类别分数。在估计的类别分数与场景级别地面真值之间计算多标签分类损失。对于超体素标记,我们引入一个类别感知层,即一个带有C个滤波器的1×1卷积层,它将超体素标记映射到类别激活映射(CAM)。通过对沿超体素维度应用全局平均池化来获得估计的类别分数。在类别分数与标签之间计算多标签分类损失。3D模态的损失定义为。对于C个类标记和T个视图标记的自注意力2D特征,2D损失类似地定义为。

总之,两个编码器都是以弱监督的方式使用目标函数:

两个编码器分别产生C + S标记的自注意力3D特征和C + T标记的2D特征。我们提出一个解码器,执行交错的2D-3D交叉注意力以进行特征融合。图2中的解码器是一个交错块的堆栈。每个交错块由两个连续的解码器层组成,如图3所示。在这个模块的第一个层中,3D标记使用2D特征进行充实,而在第二个层中,2D标记使用3D特征进行增强。

图3:交错模块的体系结构。为简单起见,未显示多层感知器残差学习。

在奇数/第一个层中(图3中的蓝色阴影区域),中的C + S个标记充当查询,而中的C + T个标记充当键值对。通过缩放点积注意力,计算交叉模态注意力矩阵(黄色阴影区域)以存储3D标记和2D标记之间的一致性。由于我们在此层中仅关注探索3D标记与2D视图标记之间的关系,所以我们忽略与2D类标记相关的注意力值在A中。具体地,仅考虑查询与视图之间的注意力值(图3中的绿点)。这通过对注意力矩阵和值矩阵应用子矩阵提取来实现,即且。

在对应用softmax操作之后,我们在查询与视图注意力矩阵与屏蔽值矩阵之间执行矩阵乘法。这样,每个查询(3D标记)都是值(2D视图标记)的加权和。结合残差连接,得到的3D标记被2D特征充实。这意味着在没有标注数据的情况下实现了从3D特征到2D特征的隐式特征融合。

在偶数/第二层中(图3中的绿色阴影区域),和的角色切换:前者用作键值对,而后者产生查询。经过类似的过程,得到的2D标记被3D信息增强。和是交错模块的输出。通过堆叠R个交错模块,建立了所提出的解码器,以迭代地融合2D和3D特征。

解码器优化。在最后一个交错模块中,可以通过对相应的类标记应用平均池化来估计2D类分数和3D类分数。可以在地面真值与估计的类分数之间计算2D 和3D 的数据的多标签分类损失。

为了挖掘额外的监督信号,我们在类与类之间的注意力矩阵上运用对比学习。尽管2D类标记和3D类标记参与各自的模态,但它们共享相同的类标签。因此,属于同一类的一对类标记之间的注意力值应大于不同类之间标记的注意力值,这可以通过N对损失来实现。我们在解码器层中的所有注意力矩阵中使用此正则化

其中是第r层解码器中的注意力矩阵。

学习解码器的目标函数是

其中是一个正常数。

我们使用PyTorch实现了我们的方法。我们将在ImageNet上预训练过的ResNet-50作为2D特征提取器,将MinkowskiUNet18A作为3D特征提取器。我们将体素大小设为5cm。我们在八块NVIDIA 3090 GPU上训练了该网络,共进行了500个epoch。批量大小,学习率和权重衰减分别设置为32,10,10。我们使用AdamW作为优化器。的权重设置为0.5。

推理。推理方面,我们将点云输入3D编码器进行特征提取。然后通过将提取的特征传递到类别感知层,获得3D CAM ,即分割结果,如第3.2节中所述。在MCTformer中,3D CAM可以通过来自最后K个Transformer编码器层的类别与体素之间的注意力图进行进一步优化,其中。通过CAM与注意力图之间的逐元素乘法获得优化的3D CAM:,其中表示哈达马积。此外,如果提供了多视图图像,我们还考虑解码器中的类与体素之间的注意力图,这可以从所有偶数层中提取,产生另一个优化的3D CAM 。最后,可以通过对和执行逐元素最大操作来获得分割结果。

我们采用了一种常用的方法,即在训练集上运行我们的推理过程,生成伪分割标签。然后,我们使用分割模型,如Res U-Net,在置信度超过0.5的伪标签上进行训练,并得到了分割模型。我们训练了150个epoch,没有进行任何后处理。这里也推荐「3D视觉工坊」新课程《国内首个面向自动驾驶目标检测领域的Transformer原理与实战课程》。

我们在S3DIS和ScanNet两个数据集上进行了实验,结果表明,我们的方法在弱监督点云分割方面,明显优于现有的方法。具体实验结果如下:

表1: 在ScanNet和S3DIS数据集上具有不同监督和输入数据设置的几种点云分割方法的定量结果(mIoU)。

表2:我们的方法(交错解码器)和竞争方法在ScanNet验证集上使用场景级标注的不同2D-3D融合策略的定量结果(mIoU)。

图4 在使用场景级监督的ScanNet数据集上的定性结果。

表3:ScanNet数据集验证集上不同组件组合的mIoU性能。

表4:在不同视图数量下的mIoU性能。

表5:在不同交错模块数量下的mIoU性能。

表6:我们的MIT在ScanNet的不同弱监督类型下的性能以及每个场景的平均标注时间。

表7:在ScanNet上使用不同骨干网络时的性能。

本文提出了一种多模态交错Transformer(MIT)模型,它能够在只有场景级别标签的弱监督条件下,利用2D和3D数据进行点云分割。该模型从3D点云和2D多视图图像中提取特征,并通过交叉注意力机制,隐式地融合2D-3D特征。该模型不需要额外的2D标注,也不依赖于摄像头姿态或深度图像。在S3DIS和ScanNet两个数据集上的实验结果表明,该模型在弱监督点云分割方面,显著优于现有的方法。该模型具有广泛的适用性,可以应用于那些无法获取相机姿态或深度图像的环境中。



ICCV2023开源SOTA!2D-3D交错Transformer,性能史诗级增强!的评论 (共 条)

分享到微博请遵守国家法律