详细内容或原文请订阅后点击阅览
奖励不是免费的:使用来自网络的语言和视频监督机器人学习
这项工作是 SAIL 和 CRFM 的一部分。近年来,深度学习提高了机器人在抓取 1 和运动 2 等一系列问题上的能力。然而,打造能够在新环境中执行从烹饪到清洁等一系列交互式任务的典型家用机器人仍然难以实现。虽然仍存在许多硬件和软件挑战,但一个必要的组件是机器人能够以零次或几次机会的方式将其先前的知识推广到新环境、任务和对象。例如,负责摆放餐桌的家用机器人无法承受为它可能需要与之互动的每个新盘子、餐具或餐厅进行长时间的重新训练。在我们的机器人中实现这种推广的一种自然方法是使用包含各种不同环境、任务和对象的丰富数据源对它们进行训练。事实上,这种大规模、多样化数据集与可扩展离线学习算法(例如自我监督或廉价监督学习)相结合的配方,是 NLP 456789 和愿景 101112 中基础模型 3 近期取得诸多成功的支柱。在机器人学习算法中复制这些令人印象深刻的泛化和适应能力,无疑将是朝着可在非结构化现实世界环境中使用的机器人迈出的一步。然而,直接将这种方法扩展到机器人技术并非易事,因为我们既没有足够大且多样化的 r 数据集
来源:斯坦福人工智能实验室博客这项工作是作为帆和CRFM的一部分进行的。
帆 CRFM深度学习使机器人在近年来掌握和运动等一系列问题上的能力方面有了改进。但是,在新颖的环境中,建立可以执行从烹饪到清洁的一系列交互式任务的典型家用机器人仍然难以捉摸。尽管仍然存在许多硬件和软件挑战,但必要的组件是机器人可以以零或几次的方式将其先验知识推广到新的环境,任务和对象。例如,一个负责设置餐桌的家用机器人无法为可能需要与之互动的每道菜肴,一件餐具或餐厅提供漫长的重新训练。
在机器人中实现这种概括的自然方法是在包含各种不同环境,任务和对象的丰富数据源上训练它们。的确,这种大规模,多样化数据集的配方与可扩展的离线学习算法(例如,自我监督或廉价监督的学习)相结合,一直是NLP和Vision基金会模型最近取得成功的骨干。
那么,我们如何能够稳定地监督奖励学习过程?在此博客文章中,我将分享一些使用数据和监督探索的工作,这些工作可以通过网络轻松收集,以作为学习机器人的学习奖励的一种方式。具体来说,我将首先讨论如何利用诸如众包机器人视频的自然语言描述之类的工具,这是一种可扩展的方式,可以在单个环境中学习许多任务的奖励。然后,我将探讨如何使用机器人数据和多样化的“野外”人类视频(例如YouTube)的培训奖励,可以使学习的奖励功能能够概括零射击以使环境和任务概括。
那么,我们如何能够稳定地监督奖励学习过程?