华盛顿大学等开源:具身视觉模态不变的视觉里程计CVPR 2023

以下内容来自小六的机器人SLAM学习圈知识星球每日更新内容
点击领取学习资料 → 机器人SLAM学习资料大礼包
#论文# #开源# CVPR 2023|开源模型:具身视觉模态不变的视觉里程计
【Modality-invariant Visual Odometry for Embodied Vision】
作者单位:华盛顿大学 洛桑联邦理工学院(EPFL)
开源代码:GitHub-memmelmaVO-Transformer
项目主页:https://memmelma.github.io/vot/
在现实、嘈杂的环境中有效地定位智能体对于许多具身视觉任务至关重要。视觉里程计(VO)是一种在室内场景中可靠实用的方法,可以替代不可靠的GPS导航。虽然基于SLAM的方法性能优越且不需要依赖大量的数据,但与基于学习的方法相比,在处理噪声和传感器配置变化方面,它们的灵活性和鲁棒性较差。然而,近期的深度视觉里程计VO模型,在训练过程中给自己设置了限制,只能使用固定的输入模态,例如RGB和深度信息;同时它的训练样本数量达到了数百万。当传感器失效、传感器配置发生变化或可用资源(例如功耗)的限制而有意放弃某些模态时,这些模型会灾难性地失败。此外,在没有模拟器访问权限或者适合进行微调的已有模型的情况下,从零开始训练这些模型会更加昂贵。虽然这些场景在仿真中大多被忽略,但这些因素通常会阻碍模型在实际应用中的可重用性。 本文提出了一种基于Transformer的模态不变视觉里程计Modality-Invariant VO方法,可以适配不同类型或者变化的导航传感器配置。本文的模型在仅使用一小部分数据进行训练的情况下,性能也优于以前的方法。本文希望这种方法能开启通向更广泛的实际应用的大门,从灵活、可学习的视觉里程计模型中受益。

以上内容来自小六的机器人SLAM学习圈知识星球每日更新内容