摘要 - 在视觉和语言导航(VLN)任务中,必须按照自然语言指令导航到目的地。虽然基于学习的方法一直是对任务的主要解决方案,但他们遭受了高培训成本和缺乏解释性的困扰。最近,由于其强大的概括能力,大型语言模型(LLMS)已成为VLN的有前途的工具。但是,现有的基于LLM的方法面临着记忆构建和导航策略多样性的限制。为了应对这些挑战,我们提出了一套技术。首先,我们引入了一种维护拓扑图的方法,该拓扑图存储导航历史记录,保留有关观点,对象及其空间关系的信息。此地图也充当全球动作空间。此外,我们提出了一个思想模块的导航链,利用人类导航示例丰富了导航策略多样性。最后,我们建立了一条管道,将导航记忆和策略与感知和动作预测模块集成在一起。Reverie和R2R数据集的实验结果表明,我们的方法有效地增强了LLM的导航能力并提高导航推理的解释性。
主要关键词