Loading...
机构名称:
¥ 1.0

我们提出了3D空间多模式内存(M3),这是一种多模式存储系统,旨在通过视频源保留有关中型静态场景的信息,以供视觉感知。通过将3D高斯脱衣技术与基础模型集成在一起,M3构建了能够跨粒度呈现特征表示的多模式内存,其中包括广泛的知识。在我们的探索中,我们在以前的特征劈叉上确定了两个关键挑战:(1)在每个高斯原始原始原始原始的存储高维纤维中的计算限制,以及(2)蒸馏功能和基础模型之间的未对准或信息损失。为了解决这些挑战,我们提出了M3的主要场景组件和高斯记忆注意的关键组成部分,从而实现了有效的训练和推理。为了验证M3,我们对特征相似性和下游任务以及定性可视化进行了全面的定量评估,以突出显示高斯记忆注意的像素痕迹。我们的方法包括各种基础模型,包括视觉模型(VLM),感知模型以及大型多模式和语言模型(LMMS/LLMS)。此外,为了演示现实世界的适用性,我们在四足机器人的室内场景中部署了M3的功能字段。值得注意的是,我们声称M3是在3D功能蒸馏中挑战核心压缩挑战的第一项工作。

3D空间多模式内存

3D空间多模式内存PDF文件第1页

3D空间多模式内存PDF文件第2页

3D空间多模式内存PDF文件第3页

3D空间多模式内存PDF文件第4页

3D空间多模式内存PDF文件第5页

相关文件推荐

2021 年
¥1.0
2021 年
¥1.0
2021 年
¥1.0
2020 年
¥1.0
2024 年
¥1.0
2022 年
¥1.0
2007 年
¥31.0
2024 年
¥4.0
2024 年
¥4.0
2022 年
¥1.0
2022 年
¥4.0
2024 年
¥3.0
2022 年
¥1.0
2024 年
¥1.0
2021 年
¥7.0
2024 年
¥6.0
2025 年
¥3.0
2024 年
¥8.0
2021 年
¥1.0
2022 年
¥3.0
2025 年
¥1.0
2020 年
¥1.0
2024 年
¥2.0
2024 年
¥2.0
2024 年
¥1.0