所有指标全面领先!图像-点云配准最新SOTA!CoFiI2P详细介绍!
作者:大森林 | 来源:3D视觉工坊
在公众号「3D视觉工坊」后台,回复「原论文」可获取论文pdf。
添加微信:dddvisiona,备注:3D点云 ,拉你入群。文末附行业细分群。
本文介绍了 CoFiI2P,这是一种新颖的图像到点云(I2P)配准网络。传统的I2P配准方法通常在点到像素级别估计对应关系,但忽略了全局关系,这往往导致陷入局部最优解。为了解决这个问题,CoFiI2P采用分层的方式提取对应关系,使神经网络可以考虑全局信息,从而获得全局最优解。这里也推荐「3D视觉工坊」新课程《三维点云处理:算法与实战汇总》。
具体来说:
图像和点云首先通过 Siamese编码器-解码器网络进行分级特征提取。
设计了一个从粗到细的匹配模块,建立鲁棒的特征对应关系。
在粗匹配模块中,采用了一种新颖的 I2P Transformer 模块,从图像和点云中捕获全局信息,并估计粗糙的超点到超像素匹配对。
在细匹配模块中,在超点到超像素的对应关系监督下,建立点到像素对。
最后,使用 EPnP-RANSAC算法估计变换矩阵。
在 KITTI 数据集上的大量实验表明,与直接在点像素层面进行配准的一阶段密集预测和匹配方法相比,CoFiI2P能够过滤掉大量错误的对应关系,并在所有指标上都处于领先地位。并且,CoFiI2P 在各种环境下都具有准确性、鲁棒性和高效性。
图1. 本文提出的从粗到细I2P配准方案和现有的一阶段I2P配准方案的对比。(a)展示了两阶段配准流程。(b)展示了一阶段配准流程。
图像与点云(I2P)配准是机器人导航和移动建图领域的基础任务。现有的I2P配准工作通常在点与像素层面上估计对应关系,但忽略了全局配准。然而,如果没有高层次的全局约束指导,I2P匹配容易陷入局部最优解。为解决这个问题,本文提出了 CoFiI2P,一种新的I2P配准网络,它采用从粗到细的方式提取对应关系,以获得全局最优解。图像和点云首先被输入到 Siamese编码器-解码器网络中进行分级特征提取。设计了一个从粗到细的匹配模块,利用特征建立稳健的特征对应关系。在粗匹配模块中,采用了一个新颖的 I2P Transformer 模块,用于捕获图像和点云中的同质和异质全局信息。通过可判别的描述子,估计出粗粒度的超点与超像素匹配对。在细匹配模块中,在超点与超像素对应关系的监督下,建立点与像素对。最后,基于匹配对,利用 EPnP-RANSAC算法估计变换矩阵。在 KITTI数据集上进行的大量实验表明,CoFiI2P实现了 2.25度的相对旋转误差(RRE)和 0.61米的相对平移误差(RTE)。与目前最先进(SOTA)的方法相比,这些结果在RRE上改进了 **14%**,在RTE上改进了 **52%**。
图2. CoFiI2P的工作流程。该方法由特征提取、粗匹配、细匹配和姿态估计模块组成。图像和点云被送入特征提取模块中获得分层深度特征,分别。粗粒度特征由I2P Transformer 模块增强,然后用余弦相似性规则进行匹配。细粒度特征从解码器的最后一层收集。在每个超点与超像素对中,节点点被设置为候选点,对应像素从s×s窗口的超像素区域中选择。生成的密集匹配对被用于姿态回归。
为方便描述,定义部分重叠的图像和点云对为和,其中W和H分别是宽度和高度,N是点的数量。I2P配准的目的是估计图像I和点云P之间的相对变换,包括旋转矩阵和平移向量。
我们的方法采用从粗到细的方式找到正确的对应关系集。CoFiI2P主要由四个模块组成:特征提取(FE)、粗匹配(CM)、细匹配(FM)和姿态估计(PE)。FE是一个编码器-解码器结构网络,将不同模态的原始输入编码成高维特征空间。CM和FM是级联的两阶段匹配模块。CM首先在超像素/超点层面构建粗配准,然后FM在其指导下在像素/点层面构建细配准。最后,PE模块利用点像素匹配对回归相对变换,使用EPnP-RANSAC 算法。工作流程如图2所示。
我们利用ResNet-34和KPConv-FPN作为图像和点云的骨干网络,以提取多层次特征。编码器逐步压缩原始输入为高维特征,解码器通过跳跃连接将高层信息传递给低层细节,为每个像素/点生成密集的特征。表明跳跃连接设计可以组合细节和语义信息进行密集预测。因此,我们从多个分辨率中提取代表性特征进行从粗到细的匹配。具体来说,在最粗糙的分辨率下选择的超点集和超像素集作为粗匹配的候选项。超点和超像素相关的特征表示为和,其中n、w、h、C 分别表示超点数量、超像素特征图的宽、高和维度。
对于每个超点,其周围的局部补丁点在特征空间中用点到节点策略构建:
其中是选定的半径。由于图像上的像素数组具有刚性顺序,局部补丁像素简单地用金字塔匹配策略构建。
图3. I2P Transformer 模块(左)和注意力模块(右)示意图。
在CM模块中,利用I2P Transformer 捕获图像和点云之间的几何和空间一致性。I2P Transformer 的每个阶段由一个自注意力模块和一个交叉注意力模块组成,用于提取超点与超像素对应关系匹配所需的混合特征。自注意力模块和交叉注意力模块重复N次,以提取混合特征。
I2P Transformer :与传统基于CNN的方法相比,视觉 Transformer (ViT)在分类、检测、分割和其他任务上都有巨大的性能提升。此外,最近的方法已经在I2I和P2P配准任务中引入了 Transformer 模块。因此,我们引入了适用于异构模态配准任务的I2P Transformer 模块,以增强描述子的表示能力和鲁棒性。与用于同模态配准任务的ViT不同,我们的I2P Transformer 包含自注意力模块捕获同质数据的空间上下文,和交叉注意力模块提取异质数据的混合特征。
对于自注意力模块,给定图像或点云的粗粒度特征图,查询、键和值向量、、生成如下:
其中是可学习的权重矩阵,如图3所示。然后,全局注意力计算为:
提取的包含全局感知信息的特征馈入前馈网络(FFN),在通道维度上融合空间关系信息。给定特征图F,相对位置用多层感知机(MLP)编码。
交叉注意力被设计用于在I2P配准任务中融合图像和点云特征。给定超点集的自注意力特征图和超像素集的自注意力特征图,点云的交叉注意力特征 和图像的交叉注意力特征计算如下:
其中是点云特征的查询、键和值向量,是图像特征的查询、键和值向量。
自注意力模块对每个超像素和超点编码空间和几何特征,而交叉注意力模块分别向点云和图像注入几何结构信息和纹理信息。I2P Transformer 的输出携带了强大的跨模态信息,用于后续匹配。
超点/超像素匹配:对于单目相机,视场(FoV)显然小于3D激光雷达(如Velodyne-H64)的激光扫描范围,后者通常在水平方向上扫描360度。因此,只有少数超点在摄像头视锥体内。为了过滤超出视锥体的超点,我们添加了一个简单的二分类头来预测超点在视锥体内或外。去除超出视锥体的超点后,计算特征空间内候选超点与超像素之间的距离矩阵。给定定义的超点集和超像素集,超点与超像素对应的集合通过在特征空间内为每个在视锥体内的超点排序最近的超像素定义:
第一阶段在粗粒度上的匹配构建了粗粒度的超像素与超点对,但导致较差的配准准确度。为了获得高质量的I2P对应关系,我们在粗配准结果的基础上生成细粒度对应关系。在解码器过程中,在每个超点/超像素对应关系中,超点反向映射为个点,超像素反向映射为个像素。考虑到点云的不均匀分布和计算效率,只选择节点点建立对应关系。对于每个节点点,我们选择特征空间中最近的像素。每个超点-超像素对中的点像素对被连接在一起形成密集对应的对。用局部补丁的点特征图和像素特征图,整个细匹配过程定义为:
利用密集的点像素对,可以用EPnP算法求解相对变换。如前面方法所述,错误匹配可能渗透到点像素对中,降低配准准确度。在CoFiI2P中,使用EPnP-RANSAC算法进行鲁棒相机姿态估计。
损失函数 由分类损失,粗配准损失和细配准损失三部分组成。对视锥体内/外超点分类采用二分类交叉熵损失,粗细粒度描述子学习采用对比损失。与像素的点云特征之间的特征空间相似度定义为:
距离定义为:
在粗粒度上,每个在视锥体内超点的正样本锚点从地面真值对集中采样:
其中是从点云坐标系统到图像视锥坐标系统的变换矩阵:
表示将点从摄像机视锥坐标系统映射到图像平面坐标系统的函数。负样本超像素遵循CorrI2P 的方法选择,即与最近但远于安全半径的超像素:
粗粒度描述子损失定义为三元组形式:
其中和分别是正样本边界和负样本边界。
细粒度描述子损失定义为修正的圆形损失。对于每个点,其正样本像素和负样本集的定义与(11)相同,描述子损失定义为:
其中和分别是朝向负样本和正样本的动态优化率,是比例因子。和定义为:
超点分类损失是二分类交叉熵损失:
CoFiI2P相对于当前最先进的方法在相对旋转和平移误差方面取得了显著的改进。CoFiI2P通过提取特征并建立鲁棒的特征对应关系,在全局范围内进行图像和点云的对齐,从而避免了传统方法在局部最优解上收敛的问题。其粗匹配模块利用了一种新颖的I2P转换器模块,从图像和点云中捕获了全局信息,并估计了粗糙的超点对超像素匹配对。精细匹配模块利用超点对超像素对应关系监督建立了点对像素对应关系。最后,使用EPnP-RANSAC算法估计变换矩阵。这里也推荐「3D视觉工坊」新课程《三维点云处理:算法与实战汇总》。
CoFiI2P相对于CorrI2P方法在召回率、准确率和F1得分方面都获得了更高的结果。这表明CoFiI2P方法的粗匹配和精细匹配策略挖掘了更多的重叠区域,并有益于姿态估计过程。此外,CoFiI2P在相对旋转误差和相对平移误差方面的改进。CoFiI2P相对于CoFiI2P-C和CoFiI2P-F模块,在相对旋转和平移误差方面都取得了更好的结果。具体结果如下:
表1. KITTI数据集上的配准准确度。
表2. 视场分类结果。
图4. 定量配准结果。
图5. CoFiI2P估计的对应关系定性结果。
图6. RRE和RTE的错误分布。(a)和(b)显示CorrI2P的RRE和RTE分布。(c)和(d)显示CoFiI2P的RRE和RTE分布。
图7. 在不同阈值下的内点比例比较。
图8. CorrI2P和CoFiI2P的RMSE分布。
本文介绍了 CoFiI2P,一种用于图像到点云配准的新颖网络。它的核心思想是采用从粗到细的匹配策略,首先在全局层面建立稳健的对应关系,然后在局部层面逐步学习精确的对应关系。此外,CoFiI2P引入了具有自注意力和交叉注意力模块的I2P Transformer ,以增强同质数据和异质数据中的全局感知能力。与直接在点像素层面进行配准的一阶段密集预测和匹配方法相比,CoFiI2P能够过滤掉大量错误的对应关系,并在所有指标上都处于领先地位。在 KITTI 数据集上的大量实验表明,CoFiI2P 在各种环境下都具有准确性、鲁棒性和高效性。