摘要 - 多功能和自适应的语义理解将使自主系统能够理解并与周围环境相互作用。现有的固定级模型限制了室内移动和辅助自主系统的适应性。在这项工作中,我们介绍了Lexis,这是一种实时的内部本地化和映射(SLAM)系统,它利用了大型语言模型(LLMS)的开放式视频库本质(LLMS),以创建一种统一的方法,以实现现场和放置识别。该方法首先构建了环境的拓扑大满贯图(使用视觉惯性探子仪),并嵌入了图节点中的对比性语言图像预处理(剪辑)特征。我们将此表示形式用于灵活的房间分类和细分,作为以室内为中心的地方识别的基础。这允许循环封闭搜索针对语义相关的位置。使用公共,模拟数据和现实数据,涵盖办公室和家庭环境,对我们提出的系统进行评估。它成功地将房间分类为不同的布局和尺寸,并优于最先进的房间(SOTA)。对于位置识别和轨迹估计任务,我们实现了与SOTA的等效性能,所有这些都使用相同的预训练模型。最后,我们演示了系统的计划潜力。视频:https:// youtu。BE/GRQF3EUDFX8
主要关键词