详细内容或原文请订阅后点击阅览
RT-2:新模型将视觉和语言转化为动作
机器人变压器2(RT-2)是一种新颖的视觉语言操作(VLA)模型,从Web和Robotics数据中学习,并将这些知识转化为用于机器人控制的通用指令。
来源:DeepMind - 新闻与博客研究
RT-2:新模型将视觉和语言转化为动作
- 出版28 2023年7月,蒂安·尤(Tianhe yu)
机器人变压器2(RT-2)是一种新颖的视觉语言操作(VLA)模型,可从Web和机器人数据中学习,并将这些知识转化为机器人控制的一般指令
高容量视觉语言模型(VLM)在网络尺度数据集上进行了培训,使这些系统非常擅长识别视觉或语言模式并跨不同语言进行操作。但是,要使机器人获得类似的能力,他们需要第一手收集机器人数据,并在每个对象,环境,任务和情况下收集机器人数据。
在我们的论文中,我们介绍了机器人变压器2(RT-2),这是一种新型的视觉语言操作(VLA)模型,从Web和Robotics数据中学习,并将这些知识转化为用于机器人控制的广义指令,同时保留网络规模的功能。
纸这项工作建立在机器人变压器1(RT-1)的基础上,该模型是在多任务演示中训练的模型,可以学习机器人数据中看到的任务和对象的组合。更具体地说,我们的工作使用了RT-1机器人演示数据,该数据在办公室厨房环境中在17个月内收集了13个机器人。
(RT-1)RT-2显示出超出其暴露于机器人数据的提高的概括能力,语义和视觉理解。这包括解释新命令并通过执行基本推理(例如有关对象类别或高级描述的推理)来响应用户命令。