欢迎光临散文网 会员登陆 & 注册

ROSIE:一种大规模语义图像数据驱动的可扩展机器人交互学习系统

2023-03-10 09:47 作者:3D视觉工坊  | 我要投稿

标题Scaling Robot Learning with Semantically Imagined Experience

项目地址:https://diffusion-rosie.github.io

来源:微信公众号「计算机视觉工坊」  

1、背景

Scaling robot learning是指使机器人系统可以从大规模数据集中进行学习,并在与环境交互时不断提高其性能。这需要采取多种方法,例如使用多个机器人进行数据收集、使用深度学习等表示学习技术、使用迁移学习技术、使用仿真等方法生成大量训练数据、使用强化学习技术、将人类反馈纳入学习过程中等等。通过结合这些方法,可以实现机器人学习的任务扩展,并创建可以在各种环境中操作并执行各种任务的机器人系统。

尽管机器人学习的最新进展表明,机器人能够学习许多自然语言任务,但这种策略的泛化能力仍远低于最近的大规模视觉语言模型。造成这些限制的一个根本原因是缺乏多样的数据,这些数据不仅涵盖了各种运动技能,还涵盖了各种物体和视觉领域。当规模扩大到更大、更多样的数据集时,当前的机器人学习算法展示出不错的发展前景。

然而,目前仍然存在诸多挑战:为了获得大规模数据集,先前的方法要么依赖于需要大量人力参与的演示,要么依赖于工程化的自主数据收集方案,这两种方案都难以规模化。虽然现有的一些工作通过生成模拟数据来满足这些机器人数据需求,提出了解决这一难题的潜在方案,但他们也面临着自己的一系列挑战,例如生成多样且足够精确的模拟或解决模拟到真实的传输。问题在于是否能找到其他方法来综合生成真实的多样数据,而不需要真实的模拟或在真实机器人上收集数据。

为了解决这一问题,作者提出了一种替代方法,并利用计算机视觉和自然语言处理中广泛使用的文本到图像基础模型来获得机器人学习的有意义的数据,而不需要额外的机器人数据。该方法称为具有语义图像体验的机器人学习(ROSIE)。具体而言,作者利用最先进的文本到图像扩散模型,并在现有机器人操纵数据集的基础上,通过使用文本指导修复各种不可见的操纵对象、背景和干扰物,进行积极的数据扩充。通过广泛的真实世界实验,证明以这种方式增强的数据训练的操纵策略能够解决具有新对象的完全未见过的任务,并且在使用新的干扰物时表现得更为鲁棒。

这种基于大规模的图像生成方法有以下三个优点:

1)可以通过自然语言有意义地增强任务的语义信息;

2)方法建立在大规模的数据上,因此可以使用相机生成许多对象和背景的照片级真实图像;

3)可以使用修复等方法来有意义地改变图像的一部分。这使得该方法能够通过结合新的干扰物、背景和环境来生成真实场景,同时反映新任务或场景的语义。

例如,给定“将绿色袋移到橙子附近”等任务的数据,作者希望将该任务扩展到教机器人将任何颜色的袋子移向许多未与之交互的新对象,例如“将黄色袋移到桃子附近”(图1)。这些技术允许将真实数据中的对象变换为任意相关对象。此外,他们可以让场景中语义相关的部分保持不变,例如,当橙子变成桃子时,对薯片袋的抓握仍然存在。这产生了一个新颖的、语义标记的数据点。

图1 作者提出使用文本引导的扩散模型进行数据增强,用于机器人学习领域。这些增强可以产生非常逼真的图像,适合用于学习下游相关任务。如图所示,由于系统的照片逼真度很高,生成的一些物体很难辨别哪些是真实的,哪些是生成的。

2、核心思想

ROSIE是一种通过语义图像增强来扩展机器人数据生成的框架。首先,作者用语义上不同的环境来扩充自然语言指令。例如,在一个将物体放在空抽屉中的任务中,作者添加了“打开的抽屉中有一个可乐罐”。通过这种自然语言提示,ROSIE生成与语言查询相关的感兴趣区域的mask。接下来,给定扩充文本,ROSIE使用Imagen Editor对所选mask进行修复,以插入语义上精确的对象,这些对象遵循扩充文本指令。重要的是,整个过程应用于整个机器人轨迹,在所有步骤中都会不断增强。作者在图2中展示了该框架的概况。

图2 ROSIE的架构。首先,作者使用开放的词袋分割模型来定位增强区域。其次,作者运行Imagen Editor来执行文本引导的图像编辑。最后,作者使用增强的数据来训练RT-1操纵策略。

图3 作者的增强方案生成更具针对性和物理真实性的增强,这些增强对于学习下游任务非常有用,而其他文本到图像生成方法通常会导致全局更改,从而使图像无法用于训练。

A.基于开放词袋分割的增强区域定位:

为了在现有机器人数据集的基础上生成语义上有意义的增强,首先需要检测应该执行这种增强的图像区域。为此,作者利用OWL ViT开放词袋检测器和附加的实例分割头执行开放词袋实例分割。这个额外的头部为OWL-ViT检测到的每个边界框预测固定分辨率的实例mask。(样式类似于Mask-RCNN)。

OWL-ViT提供的实例分割模型需要一个语言查询来指定应该检测图像的哪一部分。作者为机器臂与之交互的对象生成mask,对于机器人数据集中的每个episode e,首先确定语言指令中指定的目标对象。例如,如果指令是“pick coke can”,则任务的目标对象是可乐罐。作者将目标对象作为提示传递给OWL-ViT模型进行分割,并获得结果mask。作者还可以在需要将干扰因素去除的区域生成mask,以提高策略的鲁棒性。在这种情况下,作者使用OWL-ViT同时检测桌子(如图2所示)和桌子上的所有对象。这使得该方法能够对桌子进行采样,而不会与现有对象(作者称之为“passthrough objects”)重叠。在图5中提供了机器人数据集中由OWL-ViT检测到的更多mask示例。

图4 ROSIE在操作中手持物体的增强。作者展示了ROSIE如何有效地将新物体绘制到原始的手持物体中。在顶部一行中,作者展示了原始的示例以及检测到的mask,其中机器人拿起了绿色的薯片袋。在下面的一行中,作者展示了ROSIE可以将各种颜色和风格的微纤维布绘制到原始的绿色薯片袋中。例如,作者可以简单地将带有mask和提示“机器人拿起一条圆点布”的原始示例传递给ROSIE,从而获得机器人以逼真的方式拿起这样的布的示例。

图5 在顶部一行展示了RT-1数据集的原始图像,底部一行展示了检测到的mask和mask标记的图像。

B.增强文本提案:

这里作者讨论了获得文本到图像扩散模型增强提示的两种主要方法:手动提示和LLM建议的提示。

手动设计提示。第一种方法涉及手动指定要进行增强的对象。为了生成新的任务,作者选择训练数据之外的对象,以确保增强能够扩展数据支持。为了提高学习策略和成功检测的鲁棒性,随机选择具有语义意义的对象,并将它们添加到提示中,以在场景中生成有意义的干扰。例如,在图4中,作者旨在通过将原始对象(绿色薯片袋)替换为各种微纤维布来生成新的手持物品。

LLM提议的提示。虽然手工制作的提示可以保证生成的数据在分布范围内,但它限制了数据生成过程的可扩展性。因此,作者利用大型语言模型增强对象的能力。尽管LLM提议的提示存在一些噪声,但实践中通常不会影响机器人控制性能。

C.文本引导修复的扩散模型:

给定分割mask和增强提示,作者通过文本到图像扩散模型进行文本引导的图像编辑。这里,作者使用Imagen Editor,这是最新的文本引导图像修复模型,经过微调后使用预训练的文本到图像生成器Imagen。ROSIE利用扩散模型和从互联网规模的数据中学到的先验知识提供物理上逼真的增强(例如图3),这对于使机器人学习更具一般性和鲁棒性非常有价值。

图6 作者展示了ROSIE生成的场景的可视化,作者将机器人前面的常规桌面替换为碗架、大理石水槽和木制柜台,而这在训练数据集中从未出现过。结果表明,在这种增强上训练的策略使机器人能够将物体放置到真正的金属水槽中。

D.操纵模型训练:

增强的目的是改进对下游任务的学习能力,例如机器人操作。作者基于Robotics Transformer(RT-1)架构训练操纵策略,同时使用较小的学习率以确保微调的稳定性。

图7 作者展示了一个由ROSIE增强的场景(顶部行),其中ROSIE将金属水槽替换到到柜台的顶部抽屉上,并展示了在具有金属水槽的真实厨房中使用原始和增强的数据训练的结果。该策略成功地完成了“将百事可乐罐放入水槽”的任务,即使它之前没有在真实环境中训练过具有水槽的数据,这表明利用与互联网规模数据训练的扩散模型的先验知识可以提高机器人学习在现实世界中的泛化能力。

3、实验环节

在实验评估中,作者专注于机器人操纵和体现式推理(例如,检测操纵任务是否成功执行)。作者设计实验来回答以下研究问题:

RQ1:能否利用语义感知的增强学习得到仅在扩散模型中看到过的全新技能?

RQ2:能否利用语义感知的增强使该策略更加鲁棒,能够应对视觉干扰因素?

RQ3:能否利用语义感知的增强来引导高层次的体现式推理,如成功检测?

为了回答这些问题,作者使用多任务机器人数据集对ROSIE进行了评估,该数据集由130k个机器人演示组成,其中744个语言指令在实验室办公室和厨房中收集。这些任务包括拾取、放置、打开和关闭抽屉、在目标容器附近移动物体、操纵物体进出抽屉以及重新排列物体等技能。

在实验中,作者旨在了解增强文本和增强图像对策略学习的影响。因此,作者进行了两项比较:

1.预训练RT-1(NoAug):虽然预训练的RT-1没有在具有增强文本和生成对象的任务上进行训练,但已经证明它具有很好的预训练能力,并对不可见场景表现出出色的泛化能力。

2.带指令扩充的微调RT-1(InstructionAug)作者将RT-1数据集中的原始集重新标记为通过作者的增强文本生成的新指令,同时保持图像不变。作者希望这种方法能够将文本指令分发出去,但不识别增强对象的视觉效果。

A.RQ1:学习新技能:

为了回答RQ1,作者通过生成机器人需要操纵的新对象来扩充RT-1数据集。作者在以下四个类别中评估所提方法,难度越来越大。

1)学习在生成的新容器附近移动对象。作者测试在看不见的容器附近移动训练对象的任务,如图10所示。如表1所示,作者的ROSIE微调RT-1策略(在130k集的整个RT-1训练集和生成的新任务上进行训练)优于预训练的RT-1策略和带有指令扩充的微调RT-1,这表明ROSIE能够生成对控制有益的完全不可见的任务,并超过RT-1的固有传输能力。

图10 扩充示例

2)学习将对象放置到生成的不可见容器中。作者进行了一个类似的实验,重点是将对象放置在新的目标容器中,而不仅仅是附近。示例扩充如图10所示。表1再次显示,ROSIE在指令增加至少75%的情况下优于预训练的RT-1和RT-1。

3)学习掌握生成的未知可变形对象。作者在新任务上测试ROSIE的限制,其中要操纵的对象是通过ROSIE生成的。作者从由1309集组成的RT-1数据集中选择了一组任务“pick green chip bag”。为了在整个轨迹中准确地生成芯片袋的掩模,作者运行开放词袋分割来检测芯片袋和机器人夹持器作为通过对象,以便可以过滤掉机器人抓取,从而在抓取芯片袋时获得芯片袋的准确mask。表1再次表明,ROSIE优于预训练的RT-1和RT-1,指令增加至少150%,证明ROSIE能够通过使操纵目标多样化来扩展操纵任务,并提高现实世界中的策略性能。

4)学习在新的背景下将物体放入看不见的厨房水槽。为了进一步测试基于扩散的增强框架,作者尝试将物体放入水槽。作者生成了一个具有挑战性的场景,将一个罐子放入柜台的顶部抽屉(共779集),并部署ROSIE来检测打开的抽屉,使用Imagen Editor将抽屉替换为金属水槽(可视化见图7的第一行)。表1最后一行的结果证实了这一点。ROSIE在将可乐罐和百事可乐罐放入水槽中取得了60%的总体成功率,而RT-1政策无法定位罐,未能取得任何成功。

总之,通过这些实验,ROSIE被证明能够有效地修复需要丰富操作的对象和操作策略的目标对象,显著增加了机器人操作中的任务数量。这些结果表明,无需额外的实际数据收集,就可以扩展机器人学习。

表1 ROSIE的完整实验结果。蓝色阴影的结果对应于RQ1,橙色阴影的结果相应于RQ2。对于从上到下的每个任务系列,作者分别用50、20、16、10、80、40和27集(共243集)进行了评估。

B.RQ2:增强操纵策略的鲁棒性:

作者在两种情况下研究RQ2:不同背景下策略的鲁棒性和新的干扰因素。作者使用ROSIE来增加训练数据的背景。执行两种类型的扩充:用彩色桌布替换桌面和在桌面上插入水槽。

C.RQ3:关于成功检测的案例研究:

在本节中,作者展示了ROSIE在改善高级机器人体现式推理任务,如成功检测方面也非常有效。成功检测(或失败检测)是自主机器人在动态环境中完成任务所需的重要能力。鉴于机器人可能遇到的潜在情况的大量多样性,解决这个问题的通用解决方案可能涉及部署已学习的失败检测系统,可以随着更多数据的使用而不断改进。

4、总结

用语义图像经验进行大规模机器人学习是一种旨在通过使用模拟经验来提高机器人学习能力的技术。其想法是生成虚拟体验,可以用来训练机器人执行各种任务,而无需与现实世界进行物理交互。这种方法利用了机器学习的最新进展,特别是深度学习和强化学习。

为了使机器人能够从模拟体验中学习,机器人的学习算法必须能够区分真实体验和模拟体验。这是使用一种称为领域自适应的技术来完成的,该技术涉及使学习算法适应模拟体验和真实体验之间的差异。一旦适应了学习算法,它就可以用于从真实和模拟的经验中学习,这显著提高了机器人的学习能力。这种方法有可能彻底改变机器人领域,使机器人能够在各个领域执行广泛的任务。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊精品课程官网:3dcver.com

1.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)

2.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进

3.国内首个面向工业级实战的点云处理课程

4.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解

5.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦

6.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化

7.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

8.从零搭建一套结构光3D重建系统[理论+源码+实践]

9.单目深度估计方法:算法梳理与代码实现

10.自动驾驶中的深度学习模型部署实战

11.相机模型与标定(单目+双目+鱼眼)

12.重磅!四旋翼飞行器:算法与实战

13.ROS2从入门到精通:理论与实战

14.国内首个3D缺陷检测教程:理论、源码与实战

15.基于Open3D的点云处理入门与实战教程

16.透彻理解视觉ORB-SLAM3:理论基础+代码解析+算法改进

17.不断更新中......

重磅!粉丝学习交流群已成立

交流群主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、ORB-SLAM系列源码交流、深度估计、TOF、求职交流等方向。

添加小助理微信(dddvisiona),一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速通过且邀请进群。 

ROSIE:一种大规模语义图像数据驱动的可扩展机器人交互学习系统的评论 (共 条)

分享到微博请遵守国家法律