改善现实世界中通用机器人操纵的概括能力长期以来一直是一个重大挑战。现有的方法通常依赖于收集大规模机器人数据,这些机器人数据是昂贵且耗时的。但是,由于数据的多样性不足,他们通常会限制其在开放域中的能力,并具有新的对象和不同的环境。在本文中,我们提出了一种新颖的范式,该范式有效地利用了由Internet规模的基础模型生成的语言分割掩码,以调节机器人操纵任务。通过将蒙版模态整合到源自视觉基础模型的语义,几何和时间相关先验中,并将其方法呈现为端到端的策略模型,我们的方法可以有效地感知的对象姿势并启用样本有效的概括性学习,包括新的对象,包括新的对象,包括新的对象,semantic intancics,Semantic类别,语义类别,和统一的背景。我们首先引入了一系列基础模型,以跨多个任务进行基础语言需求。其次,我们基于模仿学习开发了一个两流2D策略模型,该模型可以处理原始图像和对象掩码,以以局部 - 全球知觉方式预测机器人动作。在Franka Emika机器人和低成本双臂机器人上进行的广泛的现实世界实验证明了我们提出的范式和政策的有效性。可以在link1或link2中找到演示,我们的代码将在https://github.com/mcg-nju/tpm上发布。
主要关键词