RT-2:新模型将视觉和语言转化为行动

Robotic Transformer 2 (RT-2) 是一种新颖的视觉-语言-动作 (VLA) 模型,它从网络和机器人数据中学习,并将这些知识转化为机器人控制的通用指令。

来源:DeepMind - 新闻与博客

研究

RT-2:新模型将视觉和语言转化为行动

已发布2023 年 7 月 28 日作者Yevgen Chebotar、Tianhe Yu
已发布
2023 年 7 月 28 日
作者
Yevgen Chebotar、Tianhe Yu

Yevgen Chebotar、Tianhe Yu

Robotic Transformer 2 (RT-2) 是一种新颖的视觉-语言-动作 (VLA) 模型,可从网络和机器人数据中学习,并将这些知识转化为机器人控制的通用指令

高容量视觉语言模型 (VLM) 在网络规模数据集上进行训练,使这些系统在识别视觉方面非常出色或语言模式并跨不同语言运行。但为了让机器人达到类似的能力水平,他们需要直接收集机器人数据,涵盖每个物体、环境、任务和情况。

在我们的论文中,我们介绍了 Robotic Transformer 2 (RT-2),这是一种新颖的视觉-语言-动作 (VLA) 模型,它可以从网络和机器人数据中学习,并将这些知识转化为机器人控制的通用指令,同时保留网络规模的能力。

论文
在网络规模数据上预先训练的视觉语言模型 (VLM) 正在从 RT-1 机器人数据中学习,以成为 RT-2,这是一种可以控制机器人的视觉语言-动作 (VLA) 模型。
在网络规模数据上预先训练的视觉语言模型 (VLM) 正在从 RT-1 机器人数据中学习,以成为 RT-2,这是一个可以控制机器人的视觉语言动作 (VLA) 模型。

在网络规模数据上预先训练的视觉语言模型 (VLM) 正在从 RT-1 机器人数据中学习,以成为 RT-2,这是一个可以控制机器人的视觉语言动作 (VLA) 模型。

这项工作以 Robotic Transformer 1 (RT-1) 为基础,这是一个在多任务演示上训练的模型,它可以学习机器人数据中看到的任务和对象的组合。更具体地说,我们的工作使用了 RT-1 机器人演示数据,该数据是在办公室厨房环境中使用 13 个机器人在 17 个月内收集的。

(RT-1)

调整 VLM 以进行机器人控制

成功训练 PaLI-X PaLM-E 自然语言标记器 VC-1 R3M MOO BC-Z