MC-GPT：使用内存图和推理链授权视觉和语言导航__

MC-GPT：使用内存图和推理链授权视觉和语言导航

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

MC-GPT：使用内存图和推理链授权视觉和语言导航

¥ 1.0

热度

摘要 - 在视觉和语言导航（VLN）任务中，必须按照自然语言指令导航到目的地。虽然基于学习的方法一直是对任务的主要解决方案，但他们遭受了高培训成本和缺乏解释性的困扰。最近，由于其强大的概括能力，大型语言模型（LLMS）已成为VLN的有前途的工具。但是，现有的基于LLM的方法面临着记忆构建和导航策略多样性的限制。为了应对这些挑战，我们提出了一套技术。首先，我们引入了一种维护拓扑图的方法，该拓扑图存储导航历史记录，保留有关观点，对象及其空间关系的信息。此地图也充当全球动作空间。此外，我们提出了一个思想模块的导航链，利用人类导航示例丰富了导航策略多样性。最后，我们建立了一条管道，将导航记忆和策略与感知和动作预测模块集成在一起。Reverie和R2R数据集的实验结果表明，我们的方法有效地增强了LLM的导航能力并提高导航推理的解释性。

添加pdf代下载 VIP点击下载文件