Loading...
机构名称:
¥ 1.0

抽象的视觉和语言导航(VLN)要求代理通过遵循自然语言指导在看不见的环境中导航。为了完成任务完成,代理需要对齐和整合各种导航方式,包括指令,观察和导航历史记录。现有作品主要集中在融合阶段的跨模式关注上,以实现这一目标。然而,不同的单键编码器产生的模态特征位于自己的空间中,从而导致跨模式融合和决策的质量下降。为了解决这个问题,我们通过跨模式对比度学习提出了一个指定框架(Delan)框架。该框架旨在在融合之前对齐各种与导航相关的方式,从而增强跨模式的交互和动作决策。具体来说,我们将融合前的对准分为双重级别:根据其语义相关性,指令历史级别和地标性观察水平。我们还重建了双级指令,以适应双级对准。作为融合前对齐的训练信号非常有限,使用自我监督的对比学习策略来实施不同方式之间的匹配。我们的方法与大多数现有模型无缝集成,从而改善了各种VLN基准测试的导航性能,包括R2R,R4R,RXR和CVDN。

delan:通过跨模式对比学习的视觉和语言导航的双级别对齐

delan:通过跨模式对比学习的视觉和语言导航的双级别对齐PDF文件第1页

delan:通过跨模式对比学习的视觉和语言导航的双级别对齐PDF文件第2页

delan:通过跨模式对比学习的视觉和语言导航的双级别对齐PDF文件第3页

delan:通过跨模式对比学习的视觉和语言导航的双级别对齐PDF文件第4页

delan:通过跨模式对比学习的视觉和语言导航的双级别对齐PDF文件第5页

相关文件推荐

2024 年
¥13.0
1900 年
¥12.0