详细内容或原文请订阅后点击阅览
RT-2:新模型将视觉和语言转化为行动
Robotic Transformer 2 (RT-2) 是一种新颖的视觉-语言-动作 (VLA) 模型,它从网络和机器人数据中学习,并将这些知识转化为机器人控制的通用指令。
来源:DeepMind - 新闻与博客研究
RT-2:新模型将视觉和语言转化为行动
- 已发布2023 年 7 月 28 日作者Yevgen Chebotar、Tianhe Yu
Yevgen Chebotar、Tianhe Yu
Robotic Transformer 2 (RT-2) 是一种新颖的视觉-语言-动作 (VLA) 模型,可从网络和机器人数据中学习,并将这些知识转化为机器人控制的通用指令
高容量视觉语言模型 (VLM) 在网络规模数据集上进行训练,使这些系统在识别视觉方面非常出色或语言模式并跨不同语言运行。但为了让机器人达到类似的能力水平,他们需要直接收集机器人数据,涵盖每个物体、环境、任务和情况。
在我们的论文中,我们介绍了 Robotic Transformer 2 (RT-2),这是一种新颖的视觉-语言-动作 (VLA) 模型,它可以从网络和机器人数据中学习,并将这些知识转化为机器人控制的通用指令,同时保留网络规模的能力。
论文在网络规模数据上预先训练的视觉语言模型 (VLM) 正在从 RT-1 机器人数据中学习,以成为 RT-2,这是一个可以控制机器人的视觉语言动作 (VLA) 模型。
这项工作以 Robotic Transformer 1 (RT-1) 为基础,这是一个在多任务演示上训练的模型,它可以学习机器人数据中看到的任务和对象的组合。更具体地说,我们的工作使用了 RT-1 机器人演示数据,该数据是在办公室厨房环境中使用 13 个机器人在 17 个月内收集的。
(RT-1)