Reward Isn't Free: Supervising Robot Learning with Language and Video from the Web
这项工作是 SAIL 和 CRFM 的一部分。近年来,深度学习提高了机器人在抓取 1 和运动 2 等一系列问题上的能力。然而,打造能够在新环境中执行从烹饪到清洁等一系列交互式任务的典型家用机器人仍然难以实现。虽然仍存在许多硬件和软件挑战,但一个必要的组件是机器人能够以零次或几次机会的方式将其先前的知识推广到新环境、任务和对象。例如,负责摆放餐桌的家用机器人无法承受为它可能需要与之互动的每个新盘子、餐具或餐厅进行长时间的重新训练。在我们的机器人中实现这种推广的一种自然方法是使用包含各种不同环境、任务和对象的丰富数据源对它们进行训练。事实上,这种大规模、多样化数据集与可扩展离线学习算法(例如自我监
Reward Isn't Free: Supervising Robot Learning with Language and Video from the Web
这项工作是 SAIL 和 CRFM 的一部分。近年来,深度学习提高了机器人在抓取 1 和运动 2 等一系列问题上的能力。然而,打造能够在新环境中执行从烹饪到清洁等一系列交互式任务的典型家用机器人仍然难以实现。虽然仍存在许多硬件和软件挑战,但一个必要的组件是机器人能够以零次或几次机会的方式将其先前的知识推广到新环境、任务和对象。例如,负责摆放餐桌的家用机器人无法承受为它可能需要与之互动的每个新盘子、餐具或餐厅进行长时间的重新训练。在我们的机器人中实现这种推广的一种自然方法是使用包含各种不同环境、任务和对象的丰富数据源对它们进行训练。事实上,这种大规模、多样化数据集与可扩展离线学习算法(例如自我监