RT-2:新模型将视觉和语言转化为动作

机器人变压器2(RT-2)是一种新颖的视觉语言操作(VLA)模型,从Web和Robotics数据中学习,并将这些知识转化为用于机器人控制的通用指令。

来源:DeepMind - 新闻与博客

研究

RT-2:新模型将视觉和语言转化为动作

出版28 2023年7月,蒂安·尤(Tianhe yu)
已发布
2023年7月28日
作者
Yevgen Chebotar,Tianhe yu

机器人变压器2(RT-2)是一种新颖的视觉语言操作(VLA)模型,可从Web和机器人数据中学习,并将这些知识转化为机器人控制的一般指令

高容量视觉语言模型(VLM)在网络尺度数据集上进行了培训,使这些系统非常擅长识别视觉或语言模式并跨不同语言进行操作。但是,要使机器人获得类似的能力,他们需要第一手收集机器人数据,并在每个对象,环境,任务和情况下收集机器人数据。

在我们的论文中,我们介绍了机器人变压器2(RT-2),这是一种新型的视觉语言操作(VLA)模型,从Web和Robotics数据中学习,并将这些知识转化为用于机器人控制的广义指令,同时保留网络规模的功能。

在Web尺度数据上预先训练的视觉语言模型(VLM)是从RT-1机器人数据中学习的,成为RT-2,它可以控制一个可以控制机器人的视觉语言操作(VLA)模型。

这项工作建立在机器人变压器1(RT-1)的基础上,该模型是在多任务演示中训练的模型,可以学习机器人数据中看到的任务和对象的组合。更具体地说,我们的工作使用了RT-1机器人演示数据,该数据在办公室厨房环境中在17个月内收集了13个机器人。

(RT-1)

RT-2 shows improved generalisation capabilities and semantic and visual understanding beyond the robotic data it was exposed to.这包括解释新命令并通过执行基本推理(例如有关对象类别或高级描述的推理)来响应用户命令。

适应机器人控制的VLM

成功训练 pali-x 棕榈-E 自然语言标记

概括和紧急技能

vc-1 R3M moo 语言表 BC-Z RT-1 熔岩 Saycan 致谢 RT-1 熔岩

Saycan致谢