机器人技术中的自主导航传统上依赖于预定的航路点和结构化图,从而限制了动态,真实世界环境中的可扩展性。缺乏通知的语言操作数据集进一步使语言驱动的导航模型的发展变得复杂。受到大规模视觉语言模型(VLM),图像生成模型和基于视觉的机器人控制的最新进展的启发,我们提出了使用VLM引导的图像子缘合成(ELVISS)探索探索的框架,以增强使用用户指示的机器人导航任务的勘探。此框架利用VLMS的语义推理将复杂的任务分解为更简单的任务,并通过生成由低级策略执行的与任务相关的图像子搜索来执行它们。我们还结合了一个基于VLM的子量验证循环,以最大程度地减少执行未生成的子观念。实验结果表明,我们的验证循环显着改善了执行操作与我们的指令的对齐,并且我们的结果系统能够执行基于广义的基于搜索的说明。
主要关键词