欢迎光临散文网 会员登陆 & 注册

交互式相机标定的高效位姿选择方法

2022-09-04 20:28 作者:3D视觉工坊  | 我要投稿
标题:Efficient Pose Selection for Interactive Camera Calibration作者:P. Rojtberg and A. Kuijper会议:2018 IEEE International Symposium on Mixed and Augmented Reality (ISMAR)论文:arxiv.org/abs/1907.0409代码:github.com/paroj/pose_c

摘要

平面图案标定姿势的选择很少被考虑——但标定精度很大程度上取决于它。本文提出了一种姿态选择方法,可以找到一个紧凑和鲁棒的标定姿态集,并适合于交互式标定。奇异的姿态会导致解决方案不可靠,而减少姿态的不确定度对标定有利的。为此,我们使用不确定性传播原理。我们的方法利用了一个自识别的标定图案来实时跟踪相机的姿态。这允许迭代地引导用户到目标姿态,直到达到所需的质量水平。因此,只需要一组稀疏的关键帧来进行标定。该方法在单独的训练集和测试集以及合成数据上进行了评估。我们的方法比可比较的解决方案性能更好,同时需要更少的30%的标定帧。

本文作者:天涯居士,来源:微信公众号「3D视觉工坊」

关键词:

  • I.2.10:[人工智能]:视觉和场景理解——物理属性的建模和恢复;

  • I.5.5:[ 模式识别]:部署——交互式系统;

01 引言

图1 使用9个选定的姿势和用户指导覆盖,投影到到右下角的相机。

图1 使用9个选定的姿势
图1 使用9个选定的姿势和用户指导覆盖,投影到到右下角的相机。和用户指导覆盖,投影到到右下角的相机。

在三维计算机视觉的背景下,相机标定是确定相机内部的几何和光学特征(内参)以及相机在世界坐标系中的位置和方向(外参)的过程[14]。许多三维计算机视觉算法的性能直接取决于该标定的质量。此外,标定是一个重复任务,每次设置必须更改时执行。即使是同款相机,这些参数也可能会由于制造的不准确性而变化。相机标定的流行方法是基于获取一个已知尺寸的平面图案的多幅图像[16]。然而,存在退化姿态配置会导致不可靠的解[11]。

因此,标定的任务不能由没有经验的用户来完成——即使是在该领域工作的研究人员也经常难以量化什么是良好的标定图像。有一些研究对CCD成像平面与图案之间的夹角对估计误差的影响进行了研究:

  • Triggs[13]将角扩散与焦距误差联系起来。他发现超过5°后误差会扩散。

  • Sturm和Maybank[11]进一步区分了估计主点和焦距。更重要的是,他们讨论了在使用一个平面和两个平面进行标定时可能存在的奇点,并将它们与单个针孔参数联系起来;例如,如果图案在每一帧中平行于图像平面,则不能确定焦距。

这些发现在[16]中得到了重复。然而,姿态对失真参数估计或一般相机相对标定板的姿态影响迄今尚未被考虑。

另一个方面是标定数据的质量和数量。

  • Sun和库珀斯托克[12]评估了摄像机模型对噪声的灵敏度、训练数据量和在模型复杂性方面的标定精度。然而,他们只测量了各自训练集上的残差,这受过拟合的影响。

  • 为了克服这个问题,理查森等人[10]引入了最大期望重投影误差(最大ERE)度量,而不是与测试误差相关,从而允许一个有意义的收敛测试。此外,他们会自动计算一个“最佳的下一个姿势”,并将其作为图案的叠加投影作为用户指导。通过在大约60个候选姿态的固定集合中进行穷举搜索来选择姿态。对于每个姿态,执行一个包括该姿态的假设标定,并选择最大ERE最小的姿态。然而,候选姿态在视场中均匀分布,没有明确考虑角扩散和退化情况[11]。

在辅助用户标定任务[9]的一般情况下,尚未特别考虑相机标定的准确性。

我们提出在解析生成最优模式姿态的同时,明确地避免退化的姿态配置。为此,我们将姿态与单个参数的约束联系起来,这样所产生的姿态序列就可以约束所有的校准参数,并确保准确的校准。与[10]的穷举搜索相比,这将计算时间从秒减少到毫秒。利用估计解的协方差来评估校准参数的不确定度。然后对姿态序列进行调整,以便为最不确定的参数捕获更多的约束。参数的协方差与检验误差相关,因此也可以作为一个收敛准则。

基于以上几点,我们的主要贡献是:

  1. 两种不同的姿态选择策略

  2. 一种有效的姿态选择方案

本文的结构如下:

  • 第2节:介绍了所使用的相机模型和不确定度估计方法,并讨论了一个合适的标定图案的选择。

  • 第3节:描述了我们的新的姿态选择方法

  • 第4节:描述了完整的标定流程。

  • 第5节:

    • 对该方法在真实数据和合成数据进行了评估,并与OpenCV和AprilCal[10]的标定方法进行了比较[3]。

    • 分析了结果标定的紧致性,并进行了一个非正式的用户调查,以显示该方法的可用性。

  • 最后,我们以第6节总结了我们的结果,并讨论了其局限性和未来的工作。


图2 失真图,显示了每个像素的∆(p)的大小。为了找到目标姿态,我们应用阈值化和拟合一个轴对齐的边界框。


图2 失真图,显示了每个像素的∆(p)的大小。为了找到目标姿态,我们应用阈值化和拟合一个轴对齐的边界框。

图2 失真图,显示了每个像素的∆(p)的大小。为了找到目标姿态,我们应用阈值化和拟合一个轴对齐的边界框。

3.3 姿势生成

图3 示例性姿态选择状态。顶部:色散指数。左:经过一个(洋红色)和两个(黄色)细分步骤后的固有标定候选位置。右:已经访问过的区域的扭曲地图。


图3 示例性姿态选择状态。顶部:色散指数。左:经过一个(洋红色)和两个(黄色)细分步骤后的固有标定候选位置。右:已经访问过的区域的扭曲地图。

图3 示例性姿态选择状态。顶部:色散指数。左:经过一个(洋红色)和两个(黄色)细分步骤后的固有标定候选位置。右:已经访问过的区域的扭曲地图。

图3 示例性姿态选择状态。顶部:色散指数。左:经过一个(洋红色)和两个(黄色)细分步骤后的固有标定候选位置。右:已经访问过的区域的扭曲地图。

4.2 用户指导

为了指导用户,目标相机姿态投影使用当前估计的内在参数。然后,这个投影被显示为一个覆盖在直播视频流的顶部(参见图1和补充材料中的视频)。验证用户是否足够接近目标姿态我们使用Jaccard指数J(A,B)(交集联合)计算的投影模式的目标姿态T和面积的投影从当前姿态估计e我们假设用户已经达到所需的姿态如果J(T,E)>0.8。比较投影重叠而不是直接使用估计的姿态是更稳健的,因为姿态估计通常是不可靠的——特别是在初始化期间。

4.3 启发法

在整个过程中,我们强制执行通用启发式约束[6,7.2],即约束的数量应该超过未知数的5倍。所使用的校准方法[16]不仅估计了固有参数C,而且还估计了模型平面和图像平面的相对姿态,即参数R、三维旋转和t、三维平移。当使用M校准图像时,我们有d=9+6M未知数,每个点对应提供了两个约束。对于初始化(M=2),我们有21个未知数,这意味着总共需要52.5个点对应或每帧需要27个对应。对于任何后续的帧,只需要15个点。为了防止由于运动模糊和滚动快门伪影而导致的不准确的测量,图案应该是静止的。为了确保这一点,我们要求在连续的帧中重新检测到所有的点,并且这些点的平均运动要小于1.5px(根据经验确定)。

05 评估

在合成数据和真实数据上对该方法进行了评价。合成实验旨在验证第3节中提出的参数分割和姿态生成规则,并使用真实数据与其他方法进行比较。此外,通过对测试集进行直接优化,估计了结果与真实数据的紧致性。

5.1 合成数据


图4 姿态选择策略和校准参数不确定性的相关性(因此误差条意味着“σ的方差”)。

我们进行了多次校准,每一次都使用了20个合成图像。按照第3.4节所述,选择了前两个相机姿态,以允许一个粗略的初始解决方案。接下来的8个姿势被选择来优化,而最后10个姿势是优化(反之亦然)。相机参数是基于罗技C525相机的校准参数。然而,实际参数在周围使用协方差矩阵进行抽样,允许每个参数有10%的偏差:因此,每个合成校准对应于使用一个不同的相机与已知的真实标签参数。为了推广到不同的相机模型,我们保留了上述姿态生成序列,但使用了20个不同的相机C。图4显示了各参数的平均标准差σC。值得注意的是,如果使用与参数组匹配的姿态,σ值会显著下降。我们还评估了MaxIOD作为误差度量的使用,通过比较其与MaxERE[10]和已知估计误差的。与MaxERE一样,MaxIOD与集合相关(见图5a)。此外,如图5b所示,IOD的减少适用于平衡校准质量和所需的校准帧的数量。

5.2 真实数据


表1:我们的方法与AprilCal和OpenCV的真实数据进行了比较。显示五次以上的平均值。对测试集的训练结果在中。

为了用真实的图像来评估我们的方法,我们记录了一个单独的测试集,其中包括50张不同距离和不同角度的图像,覆盖了整个视场。所有的图像都是用罗技C525的网络摄像头拍摄的,分辨率为1280x720px。在整个评估过程中是固定的,而每个序列的曝光是固定的。我们的方法与AprilCal[10]进行比较,并使用OpenCV对没有任何姿态限制进行校准。我们使用了第2.2节中描述的模式,该模式为OpenCV和我们的方法提供了每帧40个测量值。在AprilCal中,我们使用了5x7的AprilTag目标,它产生了大致相同的测量量。我们的方法的收敛阈值设置为10%,AprilCal的停止精度参数设置为2.0。由于OpenCV方法不提供收敛性监测,我们在这里的10帧后停止了校准。表1显示了每种方法5次校准运行的平均结果,测量所需的帧数和。在这里,我们的方法只需要AprilCal所需要的70%的帧,而达到比值低36%(比OpenCV低64%)。

5.3 标定紧致度的分析

前一节的结果表明,我们的方法能够提供最低的校准误差,同时使用更少的校准帧比可比方法的校准误差。然而,目前还不清楚该解决方案是使用最小的帧量,还是有可能在达到相同的校准错误的同时使用帧的子集。因此,我们进一步测试了我们的校准结果的紧致性。我们使用了一个贪婪算法,给定由我们的方法捕获的一组帧,试图找到一个更小的子集。它优化了测试集,直接最小化了估计误差。算法计算如下:给定一组训练图像(校准序列):

  1. 无条件地添加如第3.4节中所述的初始化帧;

  2. 现在将剩余的每个帧单独添加到关键帧集中,并计算校准。

  3. 对于每个校准,使用测试帧计算估计误差。

  4. 使值最小化的帧被合并到关键帧集中。在步骤2中继续。

  5. 如果不能进一步减少或所有帧都已被使用,则终止。

在保持相同估计误差的情况下,贪婪最优解需要75%的帧,同时(见表1)。这表明,虽然比[10]有了显著的改进,但我们的方法在紧性意义上还不是最优的。贪心算法需要一个先验记录的测试集,并且只找到现有校准序列的最小子集,但不能生成任何校准姿态。

5.4 用户调查

我们在5名同事中进行了一项非正式的调查,以测量在使用我们的方法时所需的校准时间。该工具是第一次使用,唯一给定的指令是覆盖应该与校准模式匹配。照相机是固定的,标定板必须被移动。用户平均需要1:33分钟才能以最高的捕获8.7帧。

06 结论和未来的工作

我们提出了一种校准方法来生成一组紧凑的校准框架,适合于交互式用户指导。避免了奇异的姿态配置,从而捕获约9个关键帧就足以进行精确的校准。这比可比的解决方案少了30%。所提供的用户指导允许没有经验的用户在2分钟内完成校准。校准精度可以根据收敛阈值与所需的校准时间进行加权。摄像机参数的不确定性在整个过程中都被监测,以确保可以反复达到给定的置信水平。我们的评估表明,所需的帧的数量仍然可以减少,以进一步加快这个过程。我们只使用一个广泛而简单的失真模型,在未来的工作中需要考虑薄棱镜[15]、径向[8]和倾斜传感器。最终,我们可以加入对未使用的参数的检测。这将允许从最复杂的失真模型开始,它可以在校准过程中逐渐减少。此外,该方法需要适应特殊情况,如显微镜,其中视野深度限制可能的校准角度或在大距离的校准,因此缩放标定板是不需要的。该算法的基于OpenCV的实现是开源的:github.com/paroj/pose_c.

07 参考文献






本文仅做学术分享,如有侵权,请联系删文。

干货下载与学习

在微信公众号「3D视觉工坊」后台回复:巴塞罗那自治大学课件,即可下载国外大学沉淀数年3D Vison精品课件

在微信公众号「3D视觉工坊」后台回复:计算机视觉书籍,即可下载3D视觉领域经典书籍pdf

在微信公众号「3D视觉工坊」后台回复:3D视觉课程,即可学习3D视觉领域精品课程

3D视觉工坊精品课程官网:3dcver.com
1.面向自动驾驶领域的多传感器数据融合技术
2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)
9.从零搭建一套结构光3D重建系统[理论+源码+实践]
10.单目深度估计方法:算法梳理与代码实现
11.自动驾驶中的深度学习模型部署实战
12.相机模型与标定(单目+双目+鱼眼)
13.重磅!四旋翼飞行器:算法与实战
14.ROS2从入门到精通:理论与实战
15.国内首个3D缺陷检测教程:理论、源码与实战
16.基于Open3D的点云处理入门与实战教程


重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信:dddvision,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

交互式相机标定的高效位姿选择方法的评论 (共 条)

分享到微博请遵守国家法律