详细内容或原文请订阅后点击阅览

RT-2：新模型将视觉和语言转化为行动

2023年7月28日 00:00 33 Comments

Robotic Transformer 2 (RT-2) 是一种新颖的视觉-语言-动作 (VLA) 模型，它从网络和机器人数据中学习，并将这些知识转化为机器人控制的通用指令。

来源:DeepMind - 新闻与博客

研究

已发布2023 年 7 月 28 日作者Yevgen Chebotar、Tianhe Yu

已发布

2023 年 7 月 28 日

作者

Yevgen Chebotar、Tianhe Yu

Robotic Transformer 2 (RT-2) 是一种新颖的视觉-语言-动作 (VLA) 模型，可从网络和机器人数据中学习，并将这些知识转化为机器人控制的通用指令

高容量视觉语言模型 (VLM) 在网络规模数据集上进行训练，使这些系统在识别视觉方面非常出色或语言模式并跨不同语言运行。但为了让机器人达到类似的能力水平，他们需要直接收集机器人数据，涵盖每个物体、环境、任务和情况。

在我们的论文中，我们介绍了 Robotic Transformer 2 (RT-2)，这是一种新颖的视觉-语言-动作 (VLA) 模型，它可以从网络和机器人数据中学习，并将这些知识转化为机器人控制的通用指令，同时保留网络规模的能力。

论文

在网络规模数据上预先训练的视觉语言模型 (VLM) 正在从 RT-1 机器人数据中学习，以成为 RT-2，这是一种可以控制机器人的视觉语言-动作 (VLA) 模型。

在网络规模数据上预先训练的视觉语言模型 (VLM) 正在从 RT-1 机器人数据中学习，以成为 RT-2，这是一个可以控制机器人的视觉语言动作 (VLA) 模型。

这项工作以 Robotic Transformer 1 (RT-1) 为基础，这是一个在多任务演示上训练的模型，它可以学习机器人数据中看到的任务和对象的组合。更具体地说，我们的工作使用了 RT-1 机器人演示数据，该数据是在办公室厨房环境中使用 13 个机器人在 17 个月内收集的。

(RT-1)

调整 VLM 以进行机器人控制

成功训练 PaLI-X PaLM-E 自然语言标记器 VC-1 R3M MOO BC-Z

语言视觉 VLM 机器人预先训练的 RT 环境网络数据规模 VLA 学习模型