近年来,视觉语言预训练框架在自然语言过程和计算机视觉方面取得了重大进展,从而在各种下游任务上取得了显着的绩效提高。但是,当扩展到点云数据时,现有的作品主要集中在构建特定于任务的模型上,并且无法提取概括良好的Univer-Sal 3D视觉嵌入。我们仔细研究了语义3D场景理解中的三个常见任务,并获得了对训练模型的开发的关键见解。以这些观察的启发,我们提出了一个视觉语言的预训练框架 - 工作3DVLP(3D视觉语言预训练对象对比度学习),它可以灵活地对3D视觉 - 语言下游任务转移。3DVLP将视觉接地作为代理任务,并引入了对象级别引导检测(OID)损失,以在场景中获得高质量的建议。此外,我们设计对象级交叉对比度对齐(OCC)任务和对象级别的自我对比度学习(OSC)任务,以将对象与示例对齐并显然区分场景中的不同对象。广泛的实验验证了三个3D视觉任务上3DVLP的出色表现,反映了其在语义3D场景理解中的优势。代码可在https://github.com/iridescentttt/3dvlp上找到。
主要关键词