目标表示用于指导跟随

目标表示用于遵循指令机器人学习领域的一个长期目标是创建能够为人类执行任务的通才代理。自然语言有可能成为人类指定任意任务的易于使用的界面,但很难训练机器人遵循语言指令。语言条件行为克隆 (LCBC) 等方法训练策略以直接模仿以语言为条件的专家动作,但需要人类注释所有训练轨迹,并且在场景和行为中的泛化能力较差。同时,最近的目标条件方法在一般操作任务中表现更好,但无法为人类操作员提供轻松的任务指定。我们如何才能协调通过类似 LCBC 的方法指定任务的便利性与目标条件学习的性能改进?从概念上讲,遵循指令的机器人需要两种能力。它需要将语言指令扎根于物理环境中,然后能够执行一系列动作来完成预期任务。这些能力不需要从人工标注的轨迹中端到端地学习,而是可以从适当的数据源中单独学习。来自非机器人来源的视觉语言数据可以帮助学习语言基础,并泛化到不同的指令和视觉场景。同时,未标注的机器人轨迹可用于训练机器人

来源:BAIR
指令遵循的目标表示

机器人学习领域的一个长期目标是创建能够为人类执行任务的通才代理。自然语言有可能成为人类指定任意任务的易于使用的界面,但很难训练机器人遵循语言指令。语言条件行为克隆 (LCBC) 等方法训练策略以直接模仿以语言为条件的专家动作,但需要人类注释所有训练轨迹,并且在场景和行为中的概括性很差。同时,最近的目标条件方法在一般操作任务中表现更好,但无法为人类操作员提供轻松的任务指定。我们如何才能协调通过类似 LCBC 的方法指定任务的便利性与目标条件学习的性能改进?

从概念上讲,指令遵循机器人需要两种能力。它需要将语言指令扎根于物理环境中,然后能够执行一系列操作来完成预期的任务。这些功能不需要仅从人工注释的轨迹端到端学习,而是可以从适当的数据源单独学习。来自非机器人来源的视觉语言数据可以帮助学习语言基础,并泛化到不同的指令和视觉场景。同时,未标记的机器人轨迹可用于训练机器人达到特定的目标状态,即使它们与语言指令无关。

指令跟随的目标表示

指令跟随的目标表示 (GRIF) Bridge-v2 数据集

通过对比学习进行对齐

我们通过对比学习在标记数据集上明确对齐目标条件和语言条件任务之间的表示。

机器人政策结果

LangLfP BC-Z

接地故障示例

接地故障示例

结论