奖励并非免费:利用网络语言与视频监督机器人学习
深度学习近年来提升了机器人在抓取和运动等任务上的能力。然而,构建能够在陌生环境中执行从烹饪到清洁等交互任务的通用家庭机器人仍面临挑战。关键需求是机器人能够以零样本或少量样本方式,将先验知识泛化到新环境、任务和物体。
实现这种泛化的自然方法是在包含广泛环境、任务和物体的丰富数据源上训练机器人。大规模多样化数据集与可扩展离线学习算法结合,正是自然语言处理和视觉领域基础模型成功的基石。
将这一方法直接扩展到机器人学习存在困难:既缺乏足够大规模、多样化的机器人交互数据集,也不清楚何种监督能从中可扩展地学习有用技能。模仿学习依赖专家数据,规模获取成本高;离线强化学习可使用非专家和自主收集的数据,但需要定义合适的奖励函数。硬编码奖励通常特定于任务且难以设计,在高维观察空间中尤其如此。人工事后标注奖励是一种方法,但即使使用灵活标注界面,为每个时间步和所有可能任务手动标注标量奖励也令人望而却步。
通过众包自然语言进行奖励学习
如果学习奖励只需视频中发生事件的描述会怎样?这种方法可通过众包轻松应用于包含许多任务的大数据集。我们通过重用非专家机器人交互数据集,并众包每个视频中行为的自然语言描述来研究此问题。具体而言,每个视频用单一自然语言描述标注机器人完成的任务(如有)。我们使用某众包平台为某机器人操作桌面的回放缓冲区中的每个片段众包自然语言描述。数据集包含成功和失败的任务尝试,如拾取物体和开关抽屉。
然后使用这些标注训练模型(基于预训练DistilBert模型),预测机器人行为是否完成语言指定的命令。我们的方法LOReL学习一个分类器,输入文本和状态对(图像),预测状态间转换是否完成文本指令。通过从标注数据中提取状态转换轻松生成正例,通过随机置换人工提供的标注生成负例。
给定此奖励生成过程,可使用任何现成强化学习算法学习策略。我们使用视觉模型预测控制(VMPC),学习任务无关的视觉动力学模型,并执行模型预测控制以最大化LOReL奖励。因此,我们能够通过简单众包自然语言描述来监督机器人奖励学习。但LOReL对训练集中未出现任务的指令泛化能力有限。
利用多样化人类视频提升泛化能力
坚持使用网络上存在的监督主题,“野外”人类视频(如某视频平台上的视频)多样化、丰富且收集工作量小。尽管存在从视觉域偏移到机器人环境、缺乏共享动作空间等挑战,但如果能从大量“野外”视频中学习,能否实现类似大语言和视觉模型的更好泛化?
在另一项工作中,我们研究“野外”人类视频在多大程度上能使学习的奖励函数更好地泛化到未见过的任务和环境。具体而言,考虑智能体在训练时从少量机器人数据(单一环境中的几个任务)和大量多样化人类视频数据中学习,在测试时尝试将奖励用于未见过的机器人任务和环境。
我们的方法DVD从零开始训练分类器,混合机器人视频和人类视频,预测两个视频是否完成相同任务。以任务规范(任务的人类视频)作为一个视频,机器人行为作为另一个视频,DVD分数充当可用于强化学习的奖励函数。与LOReL一样,将DVD奖励与VMPC结合,学习以人类视频为条件的行为。
为测试使用多样化人类视频是否能实现改进的泛化,我们设计了多个保留环境,具有不同视角、颜色和物体排列。然后测量在使用和不使用人类视频训练时,学习到的DVD在这些未见环境(左图)和未见任务(右图)上的成功率。发现使用人类视频在未见环境和未见任务上比仅使用机器人数据提高20%以上的成功率。
尽管人类视频与机器人域之间存在巨大域偏移,我们的结果表明,使用多样化“野外”人类视频训练能够使学习的奖励函数跨任务和环境更有效地泛化。
结论
为实现机器人领域的广泛泛化,需要能够从可扩展的监督来源和多样化数据中学习。虽然当前大多数机器人学习方法依赖成本高昂的监督来源(如专家演示或手动设计的奖励函数),但这可能限制扩展到实现广泛泛化所需的数据量。
我们讨论了两项使用通过网络轻松获取的监督的工作:(1)众包机器人行为的自然语言描述,和(2)“野外”人类视频数据集。结果表明,这些方法能够以低成本有效监督奖励学习并提升对未见环境和任务的泛化能力。