详细内容或原文请订阅后点击阅览
奖励不是免费的:使用来自网络的语言和视频监督机器人学习
这项工作是 SAIL 和 CRFM 的一部分。近年来,深度学习提高了机器人在抓取 1 和运动 2 等一系列问题上的能力。然而,打造能够在新环境中执行从烹饪到清洁等一系列交互式任务的典型家用机器人仍然难以实现。虽然仍存在许多硬件和软件挑战,但一个必要的组件是机器人能够以零次或几次机会的方式将其先前的知识推广到新环境、任务和对象。例如,负责摆放餐桌的家用机器人无法承受为它可能需要与之互动的每个新盘子、餐具或餐厅进行长时间的重新训练。在我们的机器人中实现这种推广的一种自然方法是使用包含各种不同环境、任务和对象的丰富数据源对它们进行训练。事实上,这种大规模、多样化数据集与可扩展离线学习算法(例如自我监督或廉价监督学习)相结合的配方,是 NLP 456789 和愿景 101112 中基础模型 3 近期取得诸多成功的支柱。在机器人学习算法中复制这些令人印象深刻的泛化和适应能力,无疑将是朝着可在非结构化现实世界环境中使用的机器人迈出的一步。然而,直接将这种方法扩展到机器人技术并非易事,因为我们既没有足够大且多样化的 r 数据集
来源:斯坦福人工智能实验室博客