欢迎光临散文网 会员登陆 & 注册

CVPR 2023,视觉定位新范式!

2023-05-04 09:03 作者:3D视觉工坊  | 我要投稿

论文题目:Visual Localization using Imperfect 3D Models from the Internet

论文链接:https://arxiv.org/abs/2304.05947

项目主页:https://v-pnk.github.io/cadloc/

本文投稿作者:一杯红茶| 来源:微信公众号「3D视觉工坊」

CVPR 2023,一种视觉定位新范式,通过互联网上容易获得的三维模型,比如CAD模型、航拍图像生成的三维模型等来执行定位,省去了传统范式复杂耗时的建图步骤。

1 介绍

视觉定位是包括增强现实(AR)在内的许多应用程序的核心组件。定位算法通常会先构建一个场景的地图,即需要捕获和存储大量的图像数据等,通过SFM或者其他算法来构建场景点云地图,本文则考虑能不能省去建图的步骤,利用互联网上容易获得的3D模型,例如CAD模型、从航拍图像生成的模型等。这些模型的好处在于可以立即执行视觉定位,而无需耗时的模型构建步骤。然而这也带来了一些挑战,因为这些可用的3D模型往往可能只具有通用纹理或根本没有纹理,可能只提供场景几何体的简单近似,或者可能被拉伸。

本文研究了这些模型的缺陷如何影响定位精度。为这项任务创建了一个新的基准,并基于每个场景的多个3D模型提供了详细的实验评估。

2 新范式的挑战

用互联网上现成的3D模型来定义场景表示的一系列挑战:

(1)外观逼真度:3D模型可能没有颜色或者纹理从而导致非常抽象的表示,其难以与真实图像匹配。而且即使模型有纹理,纹理也可能是通用的和重复的,而不是基于场景的真实外观。如果这些图像是从无人机或飞机上拍摄的,则会严重失真或拉伸。

(2)几何体的保真度:一些3D模型可以通过SfM和多视图立体(MVS)获得,从而产生准确表示底层场景几何体的3D模型。然而情况并非总是如此。例如一些模型可以通过建筑轮廓来获得,从而生成场景几何体的非常粗略的模型。这会导致具有过度简化的几何形状或具有错误的纵横比的视觉上合理的模型,例如,与建筑物的宽度相比,模型可能过高。

综上,论文工作的目标是量化模型不准确度和定位精度之间的关系。并说明哪些3D模型可能提供精确的姿态估计。

2 主要贡献

(1)开发从互联网上下载的3D模型进行视觉定位的新范式。

(2)为这项任务提供了一个新的基准,包括多个场景和不同逼真度的外观和几何形状的3D模型。

(3) 提供了详细的实验来评估这些不同级别的保真度如何影响定位性能。展示了来自互联网的3D模型代表了一种很有前途的新场景表示类别。

(4) 公开了基准测试以促进对能够处理这一具有挑战性任务的视觉定位算法的研究。

3 数据集

为了评测新的定位范式,作者收集了6个场景的3D模型。这些模型涵盖了多种挑战,例如不同级别的外观和几何保真度以及查询图像的可用性。

对于3D模型,区分了通过MVS从图像中自动获得的模型和手动创建的CAD模型。下面介绍了每个场景使用的模型。这个数据集基准还可以用来衡量局部特征在处理真实图像和更抽象的场景表示之间的复杂匹配任务方面的能力。

其中对于每个场景,收集了一组具有已知真实姿态的查询图像,然后将从互联网上下载的模型与图像的坐标系对齐,此操作是为了在公共参考系中测量由定位算法估计的相机姿态的精度,从而比较模型之间的姿态精度。

Notre Dame (Front Facade):

选择了7个圣母院模型,代表了不同层次的几何细节和外观逼真度。模型A是来自摄影测量重建的模型,其他模型都是手动创建的CAD模型。模型B、C和D具有纹理,模型纹理依次降低。模型B的几何细节最高,模型D的几何细节最低。E具有非常高的几何细节水平,F与B的细节水平相当,D和G的几何结构相同。E、 F和G不包含任何颜色信息。

Pantheon (Exterior):

这里使用了五个模型:模型A是通过摄影测量创建的。模型B包含逼真的纹理。模型C和D最初包含通用纹理,这些纹理在任何方面都不符合现实,因此只使用它们的几何体。C包含非常高水平的几何细节,并在顶部添加了多个细节,例如雕像,而真实建筑在其当前状态下不包含这些细节。模型D具有中等水平的几何细节。模型E由一组体素构成,并包含不真实的着色。

Reichstag:

四个有纹理的CAD模型(A、B、C、D)。模型A和B描绘了建筑的现状,模型E和F不使用纹理。模型A、C和E的几何细节水平高于其他模型。

St. Peter’s Square:

使用四个模型:模型A由摄影测量生成,还包含周围的建筑。模型B和C具有逼真的纹理。所有模型的几何细节水平都相当高。

St. Vitus Cathedral:

使用了四个模型:一个MVS模型(B)包含更大的区域,通过摄影测量从无人机镜头重建,该模型的一个版本仅包含大教堂(A),以及使用SketchUp创建的两个CAD模型(C和D)。选择模型C和D是因为它们提供了不同级别的细节,模型C包含模型D中缺少的更精细的几何细节。C和D都使用低分辨率纹理,其中相同的纹理用于建筑的重复部分。使用RealityCapture软件从这些图像构建了一个MVS模型,并将四个模型对齐用于针对该MVS模型的实验。

Aachen:

其中一个CAD模型是通过从航空图像中挤出建筑轮廓而获得的,并使用航空图像进行了纹理处理。因此由于立面和航空图像之间的视角较小,从地面观看模型会导致严重失真。

4 评估

这一小节研究了从互联网下载的三维mesh的细节水平如何影响视觉定位性能。目标是回答这样一个问题,即这种3D模型在多大程度上可以用来取代文献中使用的由图像构建的经典场景表示。

使用最先进的MeshLoc(ECCV 2022的一个方法)进行实验。MeshLoc通过3D Mesh和一组具有已知姿态的数据库图像来表示场景。

图像检索用于为每个查询找到前k个最相似的数据库图像。使用3D mesh和数据库图像的已知姿态将查询和检索到的图像之间的2D-2D匹配提升为2D-3D匹配。然后,使用RANSAC loop内的P3P解算器通过局部优化从这些2D-3D匹配中估计查询的相机姿态。

MeshLoc中使用的3D mesh与真实场景的几何体很好的进行了对齐,他们表明只要mesh包含足够的几何细节,即使是未着色mesh的渲染也可以产生准确的姿势。这一观察结果促使其探索互联网上更抽象(几何细节较少)的CAD模型。

在meshloc中是根据原始数据库图像的姿态来渲染合成图像。然而现在只有场景的3D模型,没有数据库图像。因此论文使用了一种简单的方法来对模型周围的相机姿势进行采样,然后从中为每个互联网模型渲染数据库图像:将相机放置在具有不同半径的多个球体的表面上,所有球体都以3D模型的重心为中心,所有的相机都在看这个中心,角度采样周期被手动调整以适应特定模型的几何形状。

考虑到互联网上的数据集没有给出场景的尺度。因此测量的不是以米或度为单位的误差,而是与场景的尺度无关的重投影误差。

使用密集对应重投影误差(DCRE)度量,即给定真值和估计的姿态,以及从真值姿态的角度来看的3D模型的深度图,DCRE测量如下:对于深度图中的每个像素,在3D模型的世界坐标系中获得一个3D点。然后使用真值和估计的姿态将每个3D点投影到图像中从而产生一组2D-2D对应关系,测量对应之间的平均欧氏距离(平均DCRE)和对应之间的最大欧氏距离(最大DCRE)。两种DCRE变体都测量真值和估计之间的姿态变化如何影响姿态与3D模型的对准质量。较小的DCRE对应于更好的对准,并且是AR应用的姿态质量的直接测量。

考虑两种方法来定义测量DCRE所需的真实姿态:对于每个场景,将互联网模型与根据查询图像计算的MVS模型(查询模型)严格对齐。对于对齐,使用ICP从使用3D点对应的手动初始化开始。这种对齐定义了查询图像相对于互联网模型的姿势,将这些姿势用作一组基本姿势。将这些姿势称为全局对齐(GA)姿势。

然而查询和互联网模型的几何形状可能不同,例如,3D模型的宽度和高度的比率可能不同。因此,模型类型之间的严格对齐可能是不够的,GA姿态将不能反映查询相对于互联网模型的“最佳”姿态。因此考虑了第二组真实姿态,通过细化每个互联网模型的GA姿态获得:给定查询图像的GA姿态和深度图(通过渲染查询模型生成),通过ICP将该深度图与互联网模型对齐。将这些姿势称为局部细化(LR)姿势。

5 实验

进行了三组实验:

(1)测量不同模型的几何保真度水平。这能够得出外观保真度水平如何影响姿势准确性的结论。

测量互联网模型捕捉场景真实几何图形的准确程度。为此计算查询模型和互联网模型之间的3D距离,查询模型用作真实场景几何的近似值。对于查询模型mesh中的每个3D点,找到互联网模型中最近的顶点。适当地细分互联网模型以处理互联网模型仅由几个大多边形组成的场景。查询模型通常只显示互联网模型的一部分。

距离越小表示几何逼真度越高。可以看出基准中使用的互联网模型的几何保真度水平差异很大。

(2)测量定位精度

使用MeshLoc根据互联网模型定位真实图像。评估了MeshLoc内的不同的特征和匹配器:LoFTR、SuperGlue以及Patch2Pix和SuperGlue的组合。

将结果与图3所示的结果和图2的可视化结果进行比较,可以观察到以下内容:

  1. 具有(相对)高几何和外观细节水平的互联网模型取得了最好的结果:the Notre Dame A和B以及Pantheon A模型是几何上最准确的模型之一,提供了高质量的纹理。对于这三种图像,大多数图像的平均DCRE为10%或更低,这与文献中报道的从RGB(-D)图像创建的场景表示相当。这表明,使用从互联网下载的模型作为视觉定位的场景表示的方法是可行的,并且可以导致高姿态精度。

  2. 较高的外观保真度可以显著补偿较低的几何保真度。例如,Pantheon B和Reichstag B模型的精度都明显低于同一场景中的其他模型。尽管如此,这两种模型都带来了非常好的定位性能。

  3. 如果在互联网模型和现实世界之间存在较大差异,定位就会失败

  4. 与局部细化(LR)姿态相比,通常观察到全局对准(GA)真实姿态具有更高的性能。将其归因于一些模型中缺乏几何细节,这使得ICP算法能够显著改变姿态。

  5. 根据所使用的局部特征的类型,性能可能存在显著差异。

(3)隔离了几何保真度情况下对定位过程的影响的实验

根据互联网模型定位真实图像时,有两种主要的失败情况:

  1. 由于外观的显著变化,没有足够的匹配可用。

  2. 相机姿态估计计算图像和互联网模型之间的刚性对准。因此如果互联网模型的几何形状过于失真,则姿态估计阶段可能失败。互联网模型仅用于将真实图像之间的2D-2D匹配提升为可用于姿态估计的2D-3D匹配。从图6可以看出,限制因素通常是特征匹配阶段。给定足够的特征匹配,即使在几何上不太准确的模型也可以产生相对准确的姿态。因此研究能够处理这一具有挑战性任务的特征和匹配器是未来工作的一个非常有希望的方向。

6 总结

探索了一种视觉定位管道中场景表示的替代方案,即利用互联网上现成的3D模型。

论文通过一系列实验表明,来自互联网的3D模型代表了一种很有前途的新场景表示类别,同时也为视觉定位的改进开辟了新的方向。

特别是,将真实图像与更抽象的场景表示进行匹配的研究是未来工作的一个有趣方向~

跋:

欢迎关注「3D视觉工坊」,加群/文章投稿/课程主讲,请加微信:dddvisiona,添加时请备注:加群/投稿/主讲申请

方向主要包括:3D视觉领域各细分方向,比如相机标定|三维点云|三维重建|视觉/激光SLAM|感知|控制规划|模型部署|3D目标检测|TOF|多传感器融合|AR|VR|编程基础等。



CVPR 2023,视觉定位新范式!的评论 (共 条)

分享到微博请遵守国家法律