摘要 - 在开放环境中的自动驾驶机器人导航和操纵需要推理并通过闭环反馈进行重新掌握。我们提出了Come-Robot,这是使用GPT-4V视觉基础模型的第一个闭环框架,用于在现实世界中的开放式推理和自适应计划。我们精心构建了一个用于机器人探索,导航和操纵的动作原始库,在任务计划中用作GPT-4V的可呼叫执行模块。在这些模块的顶部,GPT-4V充当可以完成多模式推理的大脑,使用代码生成动作策略,验证任务进度并提供用于重新启动的反馈。这样的设计使得 - 机器人能够(i)积极地感知环境,(ii)执行定位的过程,以及(iii)从失败中恢复。通过涉及8个挑战现实桌面和操纵任务的全面实验,与现状的基线方法相比,任务成功率显着提高(25%)我们进一步进行全面的分析,以阐明演员的设计如何促进故障恢复,自由形式的指导跟随和长期地平线任务计划。
主要关键词