欢迎光临散文网 会员登陆 & 注册

ICCV 2023,第一种稀疏的仅视觉的交叉视图定位方法!

2023-09-05 14:53 作者:3D视觉工坊  | 我要投稿



提出了一种用于室外机器人的细粒度自定位方法,通过利用灵活数量的机载相机和易于访问的卫星图像,解决了现有交叉视图定位方法的局限性,以往方法通常难以处理诸如移动物体和季节变化之类的噪声源。

这是第一种稀疏的仅视觉的方法,通过从地面和卫星视图中检测视图一致的关键点及其相应的深度特征,同时去除地面物体并在两个视图之间建立单应性变换,来增强动态环境中的感知。此外他还结合了一种空间嵌入方法,利用相机的内参和外参信息来减少纯视觉匹配的模糊性,从而提高了特征匹配和整体姿态估计精度。

作者:一杯红茶  | 来源:3D视觉工坊

在公众号「3D视觉工坊」后台,回复「原论文」即可获取论文pdf和代码。

添加微信:dddvisiona,备注:3D点云,拉你入群。文末附行业细分群。

在 KITTI 和 Ford Multi-AV 数据集上进行的大量实验表明提出的方法优于现有的最先进的方法,在横向和纵向方向上实现了0.5米以下的中值精度误差,并且中值方位精度误差低于2°。这里也推荐「3D视觉工坊」新课程《彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进》。

1.第一种稀疏的仅视觉交叉视图定位方法,该方法以低的空间和角度误差估计精确的姿态。

2.一个视图一致的地面关键点检测器,可以减少动态对象和视点变化的影响,并去除离地对象。

3.充分利用相机内参和外参信息来改进空间感知视觉特征提取的空间嵌入。

4.显著提高定位精度的多相机融合方法。

准确的自定位是移动机器人的一个基本问题,目前全球定位系统(GPS)是一种广泛采用的解决方案,但其精度很难满足自动驾驶方面的要求;实时动态(RTK)定位系统通过校正GPS误差提供了一种替代方案,但其实施受到信号参考站需求的阻碍;其他依赖于预先构建的高清(HD)地图的自定位技术在地图获取和维护方面需要大量时间和资源。

为此,作者认为使用卫星图像作为地图来实现跨视图定位为低成本定位带来了一种替代且有前景的方法。但是由于卫星捕获的俯视图和机器人看到的视图之间存在显著差异,跨视图定位比传统方法更具挑战性。需要找到支持定位的跨视图之间的一致性特征,此外卫星视图一般是在不同的时间拍摄,从而导致季节和时间条件的变化,需要最大限度减少移动和季节性物体的影响。

为此,作者提出了他们的细粒度视觉定位方法,通过利用稀疏(关键点)特征匹配,结合了相机内参和外参感知的空间嵌入。为了保证变换的有效性和消除地面上的物体,采用了一个置信图。使用视图一致性置信图来减轻移动对象和视点变化的影响。定位过程始于提取空间感知的深层特征,并为两个视图生成视图一致的地面置信度图。然后从地面视图置信图中检测视图一致性关键点,并将其与卫星视图中的对应点进行匹配。最佳姿态是通过迭代来确定的。

算法旨在通过估计3自由度的姿态来实现细粒度的交叉视图定位,即,其中, and 分别表示横向和纵向平移,θ是偏航角。

输入为一个粗略的初始姿态,,一个参考卫星视图图像Is,和一组由机载相机捕获的地面视图图像,其中N是机载相机总数。

算法有三个模块:

1)空间感知特征和置信度提取器(SAFE)

2)视图一致性地面关键点检测器

3)多相机融合

空间感知特征/置信度提取器

通过利用相机的内参和外参数来获得高度准确的空间信息,空间嵌入有3个通道:航向、距离和高度信息。为了在地面和卫星图像之间融合额外的空间嵌入信息,将机载相机和卫星图像中的像素坐标转换到世界坐标(例如机器人的GPS坐标),即:

其中表示相机j的内参矩阵,j可以是机载相机或者是卫星相机,,表示齐次坐标。

使用余弦嵌入航向信息,余弦对正方向噪声和负方向噪声都是对称的,使得三角函数在使用x轴和y轴计算的360度视图之间进行区分,如下所示:

地面图像的归一化距离嵌入是通过假设所有像素都位于地平面上来获得的:

在卫星图像的情况下,将高度嵌入设置为最小值,以指示自上而下的视角。下图表明,当仅使用前置车载摄像头时,算法通过利用空间嵌入,有效地将更多注意力集中在机器人前方的特征上:

SAFE采用U-Net结构来提取卫星和地面视图特征图,表示为。然后通过卷积层和反sigmoid激活函数(Cψ)对这些图进行处理,以产生视图一致置信图(Vj)和地面置信图(Oj),表示为。每个图都有多个分辨率,使用共享权重模型并行执行每个图像的特征和置信度提取,从而允许灵活数量的机载相机(N)。

视图一致置信度图V表示出现在卫星和地面视图图像中的物体的置信度。V被用作PAB和RPRB监督的点权重的乘数,并通过网络训练对具有高残差的点进行惩罚(指示交叉视图之间的不同特征)。考虑到两个视图之间的时间间隔,V有效地过滤掉了时间或者季节上不一致的对象,例如车辆、行人等。

地面置信图O被设计用于验证地面视图和卫星视图之间的单应性变换。作为点权重的倍增因子,导致地面和卫星视图之间不正确的地球相对应性(导致高残差)的离地点的地面置信度受到惩罚,以减少总体损失。

查看一致的地面关键点探测器

通过融合不同分辨率的视图一致性和地面上置信度图,生成最终置信度:

其中hL和wL表示精细级别置信图的分辨率,ξ是插值函数,N是最小-最大归一化,⊗表示逐元素乘法。

为了实现地面关键点检测,限制在焦点以下的区域,这与地面区域相对应。从这个区域中根据融合的置信度图中选择置信度得分最高的前K个点。为了避免关键点过度拥挤,将融合的置信图划分为大小为8×8的较小patch,并强制限制每个patch检测一个关键点。这种方法确保了选定的关键点在地面区域内良好分布,从而提高了后续姿态估计的准确性。下图的左侧显示了检测到的与地面2D关键点一致的视图。这里也推荐「3D视觉工坊」新课程《彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进》。

多相机融合

方法处理多个相机作为输入,对视野没有任何限制。在相邻相机捕捉的视图之间存在潜在重叠的情况下,在一个相机中检测到的关键点在另一个相机也可能可见。在这种情况下,选择具有最高权重的点特征:

为了评估所提出方法的有效性,在两个广泛使用的自动驾驶数据集上进行了实验:FMAVS数据集和KITTI数据集。

在FMAVS数据集中,使用来自四个相机(左前、右后、左侧和右侧)的查询图像来捕捉周围环境,提供了几乎360度的视野,重叠最小。

由于KITTI数据集仅提供正面立体相机图像,因此使用来自立体对的左侧相机的图像作为查询图像。

其方法在跨季节泛化方面的性能如上表所示。都显著优于现有的SOTA方法。具体而言,就可见和不可见路线而言,分别实现了52%和43%的平均定位横向误差、62%和52%的平均定位纵向误差以及67%和17%的平均定向误差的降低。证明了提出的方法的强大性能和鲁棒泛化能力。

本文介绍了一种新的跨视图定位方法,用于精确的3-DoF姿态估计,支持灵活的多相机输入。

方法利用视图一致的地面关键点检测器来处理动态对象和视点变化,同时去除离地对象以建立单应性变换器假设。此外结合了空间嵌入,最大限度地利用相机的内参和外参数信息以减少视觉匹配的模糊性。

是第一种稀疏的纯视觉方法,也是第一种能够实现小于一米的平均平移误差的纯视觉交叉视图方法。

ICCV 2023,第一种稀疏的仅视觉的交叉视图定位方法!的评论 (共 条)

分享到微博请遵守国家法律