【RSS 2023】行为检索:通过查询未标记的数据集进行少样本模仿学习

Chelsea Finn是机器人、强化学习、元学习领域的知名学者。
该文章提出了一种基于元学习的方法,用于实现机器人在现实世界中的多任务学习。
这种方法通过在多个任务之间共享知识,提高了机器人在不同任务之间的泛化能力。
这种方法采用从少量人类专家数据和大量未标记数据集中学习机器人技能,其主要思想是使用专家数据来查询未标记的数据集中的相关行为,然后针对专家和查询的数据训练策略。
具体来说,文章提出了一种称为“行为检索”的技术,用于从先前的经验中检索与当前任务相关的行为。这种方法使用了一种称为“GCBC”的元学习算法,该算法可以在多个任务之间共享知识,并使用一种称为“FT”的技术来适应新的任务。该论文声称,该方法可以从未标记的数据集中过滤出不相关或次优的数据,并利用相关数据的多样性和丰富性。这种方法在多个任务上取得了良好的性能,包括在现实世界中的机器人任务。
本文从图像中评估了该方法在模拟和真实机器人操作任务上的性能,并表明它优于仅使用专家数据或所有未标记数据的基线方法。文中还将该方法与目标条件方法进行了比较,结果表明该方法以较低的复杂度获得了更好的性能。