欢迎光临散文网 会员登陆 & 注册

挑战传统!首个数据驱动的事件相机特征追踪框架横空出世!

2023-08-14 11:15 作者:3D视觉工坊  | 我要投稿


事件相机具有卓越的性能,包括极高的时间分辨率、增强的运动模糊恢复能力以及稀疏的输出。这些特点使其成为低延迟和低带宽特征跟踪的理想选择,即使在具有挑战性的场景中也能表现出色。目前的事件相机特征跟踪方法通常由手工制作,或由第一原理衍生。这些方法都需要进行大量的参数调整,并且对噪声非常敏感。另外,由于未能完全考虑所有影响因素,这些方法无法推广到不同的场景中。为了解决事件相机特征跟踪方法存在的缺陷,本文针对事件相机提出了一种全新数据驱动的特征跟踪模型(First)。该方法利用低延迟事件数据,对灰度帧中检测到的特征进行跟踪。通过使用帧注意力模块,实现跨特征通道的信息共享,并提供更鲁棒的性能表现。通过直接将合成数据的零样本迁移到真实数据上,数据驱动跟踪模型在相对 Feature Age 的表现超过现有方法(最高达到了120%),同时实现了最低的延迟。通过采用新颖的自监督策略使我们的跟踪模型适应真实数据,这种性能差距进一步扩大到 130%。

作者:PCIPG-LC  | 来源:3D视觉工坊

在公众号「3D视觉工坊」后台,回复「原论文」即可获取论文pdf。

添加微信:dddvisiona,备注:三维重建,拉你入群。文末附行业细分群。

尽管目前有许多成功的方法进行特征跟踪,但现有的特征跟踪器仍受到标准相机硬件性能的限制。首先,标准相机面临带宽延迟权衡,这明显限制了它们在快速移动下的性能:在低帧速率下,它们具有最小的带宽,但代价是延迟增加;此外,低帧率会导致连续帧之间出现较大的外观变化,从而显着增加跟踪特征的难度。在高帧速率下,延迟会减少,但代价是增加带宽开销与下游系统的功耗。标准相机的另一个问题是运动模糊,这在高速低照度场景中尤为突出。随着当前AR/VR设备的商品化,这些问题变得更加突出。事件摄像机已被证明是标准相机的理想替代品,可以解决带宽延迟权衡问题。事件相机是仿生视觉传感器,只要单个像素的亮度变化超过预定义的阈值,就会异步触发信息。由于这种独特的工作原理,事件摄像机输出时间分辨率为微秒级的稀疏事件流,并具有高动态范围和低功耗的特点。由于事件主要是根据边缘对应触发的,因此事件相机呈现最小的带宽。这使得它们非常适合克服标准相机存在的缺点。为了解决这些缺陷,本文提出了第一个用于事件相机的数据驱动特征跟踪模型,它利用事件相机的高时间分辨率与标准帧相结合来最大限度地提高跟踪性能。基于神经网络模型,在后续事件流中定位来自灰度图像的模板图像来跟踪特征。为了提高跟踪性能,引入了一种新颖的帧注意模块,该模块可以在一个图像中的特征跟踪之间共享信息。首先在合成光流数据集上进行训练,然后使用基于使用相机姿势的 3D 点三角测量的新颖自我监督方案对其进行微调。本文的跟踪模型在事件相机数据集基准 EC 和最近发布的 EDS 数据集上分别比最先进的方法高出 5.5% 和 130.2%。无需大量手动手动调整参数即可实现此性能。此外,在不优化部署代码的情况下,本文的方法比现有方法实现了更快的推理速度。最后,将本文的方法与成熟的基于帧的跟踪器 KLT 进行结合,在高速场景中充分利用两种数据的优点。这里也推荐「3D视觉工坊」新课程《深度剖析面向自动驾驶领域的车载传感器空间同步(标定)》。

在高速和高动态范围场景中,现有事件相机特征跟踪方法的延迟和跟踪鲁棒性具有极好的效果。但是,到目前为止,基于事件的跟踪方法仍是基于经典模型假设设计的,这会导致在存在噪声的情况下跟踪性能较差。它们要么依赖于运动参数的迭代优化,要么对特征可能的变换进行简单的分类。因此,由于未建模因素的影响,不能推广到不同的场景中去。此外,它们通常具有复杂的模型参数,需要大量的手动调整以适应不同的事件相机和不同的场景。

特征跟踪算法旨在在后续时间步中跟踪参考系中的给定点。通常通过提取参考帧中特征位置周围的外观信息,然后在后续帧中进行匹配和定位。遵循此流程,本文在时间步处对给定位置提取灰度帧中的图像,并使用异步事件流跟踪该特征。时间步和之间的事件流由事件组成,每个事件编码像素坐标、微秒级分辨率的时间戳和极性。给定参考图像,本文的网络使用前一时间步的特征位置的局部邻域中的相应事件流来预测和期间的相对特征位移。本地窗口内的事件被转换为密集事件表示,具体来讲使用 SBT 的最大时间戳版本进行数据预处理,其中每个像素都分配有最近事件的时间戳。一旦网络将参考补丁定位在当前事件补丁内,就会更新特征轨迹,并在新预测的特征位置提取新的事件流,同时保留参考图像块。然后重复这一过程,同时累积相对位移以构建一个连续的特征轨迹。本文方法和帧注意力模块的概述如图 2 所示。

为了在当前事件流内定位模板图像中的特征,特征网络首先基于FPN编码器对两个图片进行编码。生成的输出是两个图像的逐像素特征图,其中包含上下文信息,同时保留空间信息。为了计算事件图片和模板图片中每个像素之间的相似性,本文基于模板图片编码器的瓶颈特征向量和事件补丁的特征图构建了一个相关图,如下图所示。随后,将两个特征图与相关图组合作为后续特征编码器的输入,以细化相关图。该特征编码器由标准卷积和一个具有时间状态的 ConvLSTM 块组成。时间信息对于预测随时间变化的特征轨迹至关重要。此外,它还可以集成事件提供的运动信息。特征网络的输出是空间维度为1×1的单个特征向量。到目前为止,每个特征都是相互独立处理的。

为了在同一图像不同特征之间进行共享信息,本文引入了一种新颖的帧注意模块,如下图所示。由于刚体上的点在图像平面中表现出相关运动,因此在图像上的特征之间共享信息有很大的好处。为了实现这一点,本文的帧注意力模块将当前时间步处所有图像块的特征向量作为输入,并基于所有特征向量的自注意力加权融合计算每个图像块的最终位移。具体来说,在一段时间内为每个特征设定一个状态,以便利用注意力模块融合中先前时间步中的位移预测。时间信息有助于与过去具有相似运动的特征之间的信息共享。这样,通过在相似的特征轨迹上自适应地调节它们,可以在具有挑战性的情况下维护易受攻击的特征轨迹。每个输入特征向量首先使用两个具有 Leaky ReLU 激活函数的线性层(MLP) 与当前状态融合(每个特征向量单独进行)。然后,图像中产生的所有融合特征都将用作多头注意力(MHA)的 key、query 和 value,增强图像每个特征自身信息的提取。为了促进训练,在每个特征的多头注意力周围引入了一个跳跃连接,该连接在训练过程中通过 Layerscale 层  (LS) 进行自适应加权。然后,在门控层中使用所得的特征向量,根据先前的状态(GL) 计算更新的状态,具体的公式如下所示。

最终,更新后的状态通过单个线性层进行处理用来预测最终位移。


跟踪网络、提取网络甚至流网络的监督仍然是一个开放的研究领域,因为包含像素级对应作为真值的数据集很少见。更糟糕的是,基于事件的精确像素对应的数据集更少。为了克服这个限制,本文首先使用来自 Multiflow 数据集的合成数据来训练本文的网络,其中包含帧、合成生成的事件和真实像素流。然而,由于没有对噪声进行建模,因此合成事件与真实事件摄像机记录的事件有很大不同。因此,在第二步中,使用新颖的姿势监督损失来微调本文的网络,以缩小合成事件和真实事件之间的差距。

合成数据的好处在于它提供了真实的特征轨迹。因此,基于L1距离损失可以直接应用于预测和真实值之间的每一个预测步骤的预测和真是位移之间的相对位位移,如图3所示。

有可能预测的特征轨迹发散到模板块之外,使得下一个特征位置不在当前搜索中。因此,如果预测位移和真实位移的差值| | Δf ( j-Δfj | | 1 )超过了块半径r,我们不将L1距离加到最终损失中,以避免在监督中引入噪声。我们的截断损失函数的定义如下所示:

为了使网络适应真实场景,引入了一种新颖的仅基于已标定相机真实姿态的姿态监督损失函数。利用运动结构回复(SFM)算法,例如COLMAP,或者通过外部运动捕捉系统,可以很容易地获得稀疏时间步的真实姿态。由于本文的监督策略依赖基于位姿的3D点的三角剖分,因此只能应用在静态场景中。在微调的第一步,跟踪模型预测一个事件序列的多个特征轨迹。对于每个预测轨迹,直接使用Direct Linear Transform(DLT)算法计算相应3D点。具体来说,对于每个特征位置,可以使用相机位姿假设针孔相机模型的投影方程,表示为时间步的旋转矩阵、平移向量与标定矩阵,具体计算如下述公式。由此得到的投影矩阵可以表示为由列向量组成的矩阵,其中。

利用DLT算法,可以将投影方程转化为如下述公式的齐次线性方程组。通过SVD,得到使方程的最小二乘误差最小的三维点。一旦计算出的三维位置,就可以利用透射投影公式来找到每个事件步相对应的重投影像素点。。最终的位姿监督损失函数根据预测的特征和在时刻每个可用的相机位姿的重投影特征构建。如图4所示。

本文使用如下的截断损失函数,当重投影的特征不在事件块之内时, 排除该部分损失函数的值。

本文在常用的事件相机数据集EC(参考论文:The event-camera dataset and simulator: Event-based data for pose estimation, visual odometry, and SLAM)上比较了提出的数据驱动跟踪模型,该数据集包括APS帧(24 Hz)和分辨率为240 × 180的事件,使用DAVIS240C相机记录。此外,该数据集利用外部运动捕捉系统以200 Hz的速率提供实际的相机姿态。此外,为了在更新的传感器设置下评估跟踪性能,本文在新发布的Event-aided Direct Sparse Odometry(EDS)数据集(参考文献:Event-aided Direct Sparse odometry)上测试了本文的方法。与EC数据集相比,EDS数据集包含更高分辨率的帧和事件(640×480像素)。与EC数据集类似,它包含了来自外部运动捕捉系统的150 Hz速率的真实姿态。由于EDS和EC的主要目的是评估相机位姿估计,因此两个数据集中的大多数场景都是静态的。

为了评估不同的特征跟踪模型,本文首先用Harris角点检测器对每个序列提取特征。在初始特征集的基础上,每个被测跟踪模型根据其特定的更新率预测特征位移。遗憾的是,EDS和EC这两个数据集没有可以作为真值的特征轨迹。为了评估没有真值的特征跟踪模型,先前的工作使用基于帧的KLT跟踪模型预测的轨迹作为真值。相反,为了提高KLT轨迹的精度,基于本文提出的位姿监督方法设计评估方案。具体来说,作为真实值的轨迹是通过使用相机实际的姿态对KLT轨迹进行三角剖分,然后将其重新投影到每个选定的目标帧中得到的。对KLT轨迹进行三角剖分的好处是KLT的微小跟踪误差可以被滤除,从而得到几何一致的真实轨迹。为了验证所提出的评估方法,本文进行了一个真实特征轨迹可得的仿真实验。在这个模拟实验中,本文计算了KLT重投影误差与真实特征轨迹之间的皮尔森相关系数,其值为0.716。这表明本文提出的评估方案与真实特征轨迹之间存在显著的相关性,验证了本文的评估方案的有效性。由于每个测试的跟踪模型都有其更新率,因此本文对所有特征轨迹进行线性插值,保证与真实姿势时间步长相同,以计算评估指标。此外,为了有效测试方法基于事件的跟踪能力,本文在评估期间不更新特征模板。此外,我们停用所有终端标准并报告特征与真实值超过一定距离的时间,称为 Feature Age(FA)。本文没有像之前的工作那样选择一个错误阈值,而是以1像素的步长评估1-31像素范围内的多个错误阈值的轨迹。因此,不报告端点误差,因为使用不同的误差阈值测试每个轨迹,这有效地将距离误差纳入 FA 中。作为第一个性能指标,本文计算由真实轨迹持续时间归一化的跟踪 FA,以考虑不同的轨迹长度。。然而,由于一些特征轨迹在开始时被丢弃掉,本文展示稳定轨迹的 FA。第二个误差度量通过稳定轨迹和真实轨迹之间比率来表示被丢失的轨迹。然后将该比率乘以 FA,计算的结果作为第二个性能指标。该指标结合了方法跟踪的特征轨迹的质量和数量。

首先在有3000个特征轨迹的Multiflow数据集上使用ADAM优化器进行模型训练。学习率设置为。最初从 4 个unroll step开始,在 80000 和 120000 个训练步后,逐渐将unroll step分别增加到 16 和 24。在Multiflow数据集上训练完成之后,使用本文提出的监督方法进行700次优化迭代进行参数的微调。在达到指定训练次数时学习率降低至。这些数据集不用于评估。

本文将本文的方法与当前最先进的方法 EKLT 进行比较,后者的每个特征均从灰度图像中提取对应模板块,并通过事件跟踪该特征,类似于本文所提的跟踪模型。作为另一个依赖灰度模板的跟踪模型,本文还比较了 ICP 跟踪模型用于基于事件的视觉里程计。此外,还针对纯基于事件的跟踪模型 HASTE 和 EM-ICP 进行评估。对于 EKLT、HASTE 和 EM-ICP,采用公开可用的代码来进行实验。ICP 的实施取自相关工作(参考论文:Standard and event cameras fusion for feature tracking)。所有方法的超参数都针对特定数据集进行了调整,这需要多个小时才能实现最佳性能。

在常用的跟踪数据集 EC 上,本文提出的数据驱动方法在非零 FA 和预期 FA 方面均优于其他方法,详细如表 1。性能处在第二位的方法为 EKLT,它跟踪特征的持续时间与本文提出的方法相近,如表 1 中的非零 FA 指标所示。然而,本文的方法能够从预期 FA 生成初始特征集中跟踪更多特征。成功跟踪特征的比例越高,FA 越长,使本文的方法更适合姿态估计等下游任务。从图 5 的第一行可以看出,与 EKLT 和 HASTE 相比,本文的方法产生了更多的平滑特征轨迹。正如预期的那样,纯粹基于事件的方法(HASTE、EM-ICP)和使用灰度图像作为模板的方法(本文的、EKLT)之间存在性能差距。这证实了利用灰度图像提取模板(随后基于事件进行跟踪)的好处。

与在 EC 数据集上的性能表现类似,本文提出的方法在 EDS 数据集上优于所有现有跟踪方法,在非零 FA 和预期 FA 方面具有更大的优势,如表 1 所示。性能的显著提升证实了本文方法能够处理不同光照条件和噪声模式的 3D 场景中获得的高分辨率数据。由于使用 Splitter 设置来记录 EDS 数据集的数据,因此事件和图像之间存在未对准伪影,并且由于入射光的减少而导致事件中存在低光噪声。此外,与 EC 数据集相比,EDS 包括更快的相机运动,导致所有方法的总体跟踪性能较低。尽管如此,本文的方法能够处理不同的噪声源,同时可以预测大量的特征轨迹,如图 5 第二行和第三行所示。最后,除了性能增益之外,本文方法不需要数小时的手动微调来将跟踪模型从小分辨率转移到具有不同对比度阈值设置的高分辨率事件相机上。

要在实际应用中使用特征跟踪模型,提供低延迟的特征位移更新至关重要。因此,根据实际影响事件的因素评价不同方法的运行时间,即计算时间除以接收数据的时间,图 6 展示了各个方法的跟踪性能。应该指出的是,大多数跟踪方法并不是为了运行效率而实现的,此外由于使用不同的编程语言实现,无法做到绝对的公平。此外,本文对所有方法进行调整,重点关注跟踪性能,这解释了为什么 EKLT 的运行时间很长,因为本文显著增加了优化迭代的次数。尽管如此,不同方法的运行时间可以粗略地认为不同方法的推理速度。对于 HASTE,本文还展示了理想 HASTE 的运行时间,在图 6 中名为 HASTE 假设 HASTE 代码框架完美并行,按顺序跟踪每个特征。即使没有优化部署代码,本文方法也能在 EC 数据集上展现出接近实时的性能,同时也是 EDS 数据集上最快的方法,具有更高的跟踪性能。在 EDS 数据集上,本文的方法并行处理 19.7 个补丁平均需要 17 毫秒,而在使用 Nvidia Quadro RTX 8000 GPU 的 EC 上处理 14.2 个补丁需要 13 毫秒。本文方法的快速推理能力可以通过深度学习架构的批量处理和高度并行化框架来解释。这表明本文的方法具有应用于低延迟场景的潜力。这里也推荐「3D视觉工坊」新课程《深度剖析面向自动驾驶领域的车载传感器空间同步(标定)》

为了结合灰度图像的上下文信息和事件的高延迟信息,本文使用流行的 KLT 帧跟踪方法扩展了基于事件的跟踪方法。具体来说,本文使用事件跟踪方法来跟踪两帧之间盲区内的特征,并在新帧到达后使用跟踪模型的位移预测作为 KLT 跟踪器的初始猜测。这样做的好处是可以有效减轻高速运动造成的两帧之间基线过大的负面影响。此外,与本文事件跟踪模型的结合提供了两帧之间的特征位置,显着增加了特征位置更新的频率。另一方面,一旦获得可靠的帧信息,KLT 跟踪器就可以纠正特征位置。当基于相机姿态构建真值时,使用具有三个层次尺度的 KLT 跟踪器来处理更大的运动。将本文的方法和 KLT 跟踪器(Ours+KLT)的组合与纯 KLT 跟踪器的帧间不同像素运动进行比较,如图 7 所示。不同的像素运动是通过在 EC 数据集序列中跳帧来实现的,这对应于增加两帧之间的像素运动。从图 7 中可以看出,对于帧间的小像素位移,本文的跟踪模型和 KLT 组合的性能与纯 KLT 跟踪器相当。然而,随着像素运动的增加,本文方法提供的初始猜测有助于 KLT 跟踪器在更长的时间内跟踪特征。此外,本文基于事件的跟踪方法可以在高速运动期间,即当帧遭受运动模糊时提供强大的特征跟踪。这可以在图 1 中可以观察到,图 1 显示了本文的跟踪模型由于高速运动而导致的运动模糊帧上预测的平滑特征轨迹。

为了测试每个网络模块对整个模型的具体贡献,本文基于参考模型进行了几次消融实验,参考模型没有帧注意模块,详情参见表 1。合成数据训练期间的增强显著促进了从合成数据到现实世界数据的零样本传输。此外,特征编码器中的循环导致更长的 FA(w/recurrence),这也是通过引入相关图(w/o correlation)在较小规模上实现的。虽然在 EC 数据集上没有任何改进,但本文提出的帧注意力模块显著提高了 EDS 数据集上序列的性能。这种性能的提高证实了在相似的特征轨迹之间共享信息的好处。通过使用本文的自我监督方案将基于帧注意模块(Ref+Frame Attention)的网络适应真实数据,实现了最高的跟踪性能。最后,帧注意力模块依赖状态变量(无状态)来充分利用帧中特征之间共享信息。

本文提出了第一个用于事件相机的数据驱动特征跟踪模型,它利用低延迟事件来跟踪在灰度帧中检测到的特征。借助本文提出的帧注意力模块,该模块融合特征轨迹上的信息,本文的跟踪模型在两个数据集上的性能优于最先进的方法,同时推理时间更短。此外,本文提出的方法不需要进行大量的手动参数调整,并且可以通过本文的自监督策略适应新的事件相机。最后,本文可以将基于事件的跟踪模型与 KLT 跟踪模型结合起来,用于在具有挑战性的场景中进行稳定轨迹的预测。

目前工坊已经建立了3D视觉方向多个社群,包括SLAM、工业3D视觉、自动驾驶方向。

细分群包括:

[工业方向]三维点云、结构光、机械臂、缺陷检测、三维测量、TOF、相机标定、综合群;

[SLAM方向]多传感器融合、ORB-SLAM、激光SLAM、机器人导航、RTK|GPS|UWB等传感器交流群、SLAM综合讨论群;

[自动驾驶方向]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器讨论群、多传感器标定、自动驾驶综合群等。

[三维重建方向]NeRF、colmap、OpenMVS等。除了这些,还有求职、硬件选型、视觉产品落地等交流群。

大家可以添加小助理微信: dddvisiona,备注:加群+方向+学校|公司, 小助理会拉你入群。


挑战传统!首个数据驱动的事件相机特征追踪框架横空出世!的评论 (共 条)

分享到微博请遵守国家法律