详细内容或原文请订阅后点击阅览

RT-2：新模型将视觉和语言转化为动作

2023年7月28日 00:00 33 Comments

机器人变压器2（RT-2）是一种新颖的视觉语言操作（VLA）模型，从Web和Robotics数据中学习，并将这些知识转化为用于机器人控制的通用指令。

来源:DeepMind - 新闻与博客

研究

出版28 2023年7月，蒂安·尤（Tianhe yu）

已发布

2023年7月28日

作者

Yevgen Chebotar，Tianhe yu

机器人变压器2（RT-2）是一种新颖的视觉语言操作（VLA）模型，可从Web和机器人数据中学习，并将这些知识转化为机器人控制的一般指令

高容量视觉语言模型（VLM）在网络尺度数据集上进行了培训，使这些系统非常擅长识别视觉或语言模式并跨不同语言进行操作。但是，要使机器人获得类似的能力，他们需要第一手收集机器人数据，并在每个对象，环境，任务和情况下收集机器人数据。

在我们的论文中，我们介绍了机器人变压器2（RT-2），这是一种新型的视觉语言操作（VLA）模型，从Web和Robotics数据中学习，并将这些知识转化为用于机器人控制的广义指令，同时保留网络规模的功能。

纸

在Web尺度数据上预先训练的视觉语言模型（VLM）是从RT-1机器人数据中学习的，成为RT-2，它可以控制一个可以控制机器人的视觉语言操作（VLA）模型。

这项工作建立在机器人变压器1（RT-1）的基础上，该模型是在多任务演示中训练的模型，可以学习机器人数据中看到的任务和对象的组合。更具体地说，我们的工作使用了RT-1机器人演示数据，该数据在办公室厨房环境中在17个月内收集了13个机器人。

（RT-1）

RT-2显示出超出其暴露于机器人数据的提高的概括能力，语义和视觉理解。这包括解释新命令并通过执行基本推理（例如有关对象类别或高级描述的推理）来响应用户命令。

适应机器人控制的VLM

成功训练 pali-x 棕榈-E 自然语言标记

vc-1 R3M moo 语言表 BC-Z RT-1 熔岩 Saycan 致谢 RT-1 熔岩

学习机训练的类似的 VLM 机器人变压器数据集视觉操作指令多任务控制的推理命令模型对象语言 Web 提高办公室数据学习的 RT VLA 新型的