Loading...
机构名称:
¥ 1.0

摘要 - 在视觉和语言导航(VLN)任务中,必须按照自然语言指令导航到目的地。虽然基于学习的方法一直是对任务的主要解决方案,但他们遭受了高培训成本和缺乏解释性的困扰。最近,由于其强大的概括能力,大型语言模型(LLMS)已成为VLN的有前途的工具。但是,现有的基于LLM的方法面临着记忆构建和导航策略多样性的限制。为了应对这些挑战,我们提出了一套技术。首先,我们引入了一种维护拓扑图的方法,该拓扑图存储导航历史记录,保留有关观点,对象及其空间关系的信息。此地图也充当全球动作空间。此外,我们提出了一个思想模块的导航链,利用人类导航示例丰富了导航策略多样性。最后,我们建立了一条管道,将导航记忆和策略与感知和动作预测模块集成在一起。Reverie和R2R数据集的实验结果表明,我们的方法有效地增强了LLM的导航能力并提高导航推理的解释性。

MC-GPT:使用内存图和推理链授权视觉和语言导航

MC-GPT:使用内存图和推理链授权视觉和语言导航PDF文件第1页

MC-GPT:使用内存图和推理链授权视觉和语言导航PDF文件第2页

MC-GPT:使用内存图和推理链授权视觉和语言导航PDF文件第3页

MC-GPT:使用内存图和推理链授权视觉和语言导航PDF文件第4页

MC-GPT:使用内存图和推理链授权视觉和语言导航PDF文件第5页

相关文件推荐

2024 年
¥1.0
2024 年
¥1.0
2025 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0