摘要 - 开放的vocabulary泛化要求机器人系统执行涉及复杂和多样化的环境和任务目标的任务。虽然视觉语言模型(VLMS)的最新进展为解决看不见的问题提供了前所未有的机会,但如何利用其新兴能力来控制物理世界中的机器人仍然是一个悬而未决的问题。在本文中,我们介绍了标记开放式摄影键关键点(MOKA),该方法采用VLMS来解决由自由形式语言描述所指定的机器人操纵任务。我们方法的核心是基于紧凑的负担能力和运动的表示,它桥接了VLM对RGB图像的预测以及机器人在物理世界中的动作。通过在Internet规模数据上提示VLM预先训练的VLM,我们的方法可以通过利用广泛来源的概念理解和常识性知识来预测能力并产生相应的动作。要以零拍打为vlm的推理,我们提出了一种视觉提示技术,可以注释图像上的标记,将关键点和路点的预测转换为一系列视觉问题,以解决VLM可行的问题。我们在自由形式的语言描述(例如工具使用,可变形的身体操纵和对象重排)指定的各种操纵任务上评估和分析了Moka的性能。
主要关键词