Cheraghian 等人 [ 21 – 23 ] 在零样本 3 维模型分类方 面提出了 3 维点云的零样本学习方法、缓解 3 维零样 本学习中枢纽点问题的方法和基于直推式零样本学 习的 3 维点云分类方法,并将它们封装进一个全新 的零样本 3 维点云方法 [ 24 ] 中。以上方法均是利用已 知类样本的点云表征及其词向量对未知类别进行分 类,开创了零样本 3 维模型分类方法。近年来, CLIP 在零样本图像分类上取得了良好的效果,因此有研 究者将 CLIP 应用到零样本 3 维模型分类方法中, Zhang 等人 [ 25 ] 提出了基于 CLIP 的 3 维点云理解 (Point cloud understanding by CLIP, PointCLIP) 模型, PointCLIP 首先将 3 维点云投影成多个深度图,然 后利用 CLIP 的预训练图像编码器提取深度图特 征,同时将类别名称通过 CLIP 预先训练的文本编 码器提取文本特征。但是 PointCLIP 的性能受到深 度图和图像之间的域差异以及深度分布的多样性限 制。为了解决这一问题,基于图像 - 深度图预训练 CLIP 的点云分类方法 (transfer CLIP to Point cloud classification with image-depth pre-training, CLIP2Point) [ 26 ] 将跨模态学习与模态内学习相结合 训练了一个深度图编码器。在分类时,冻结 CLIP 的图像编码器,使用深度图编码器提取深度图特 征,该方法缓解了深度图和图像间的模型差异。用 于 3 维理解的图像 - 文本 - 点云一致性表征学习方法 (learning Unified representation of Language, Im- age and Point cloud for 3D understanding, ULIP) [ 27 ] 构建了一个图像、文本和点云 3 种模态的 统一嵌入空间,该方法利用大规模图像 - 文本对预 训练的视觉语言模型,并将 3 维点云编码器的特征 空间与预先对齐的视觉 - 文本特征空间对齐,大幅 提高了 3 维模型的识别能力。与之相似的是,基于 提示文本微调的 3 维识别方法 (CLIP Goes 3D, CG3D) [ 28 ] 同样使用 3 元组形式确保同一类别的 3 维模 型特征和图像特征之间以及 3 维模型特征和文本特 征之间存在相似性,从而使点云编码器获得零样本 识别的能力。另外, PointCLIP V2 [ 29 ] 在 Point- CLIP 的基础之上,通过利用更先进的投影算法和 更详细的 3 维模型描述,显着提高了零样本 3 维模型 分类准确率。本文采用语义增强 CLIP 解决图像和文 本的语义鸿沟问题,通过在语义层面为图像和文本 提供更多相似的语义信息,使图像和文本对齐更具有 一致性,从而有效提高 3 维模型的零样本分类性能。 2.2 提示工程
主要关键词