摘要:导航研究中的一个难以捉摸的目标是建立一个智能代理,该智能代理可以理解包括自然语言和IM的多模式说明,并执行有用的导航。为了实现这一目标,我们研究了一个广泛有用的导航任务,我们称之为多模式指令导航,该导航带有恶魔之旅(MINT),其中通过预先录制的演示视频提供了先验的环境。视觉语言模型(VLM)的最新进展在实现这一目标方面表现出了有希望的途径,因为它展示了感知和推理多模式输入的能力。为了解决薄荷,我们提出了移动性VLA,这是一种层次视觉语言行动(VLA)导航政策,将环境理解和长篇小说VLM的常识推理能力结合在一起,以及基于拓扑图的强大的低级导航策略。高级策略由一个长篇小说VLM组成,该VLM将演示游览视频和多模式用户指令作为输入,以在旅行视频中找到目标框架。接下来,一个低级策略使用目标框架和构造的拓扑图来在每个时间步中生成机器人动作。我们在836M 2现实世界环境中评估了移动性VLA,并表明Mobility VLA在以前未解决的多模式指令中具有很高的端到端成功率,例如“我应该在哪里返回?”拿着一个塑料箱。可以在此处找到一个展示移动性VLA的视频:youtu.be/-tof Q8 5S