Cheraghian 等人 [ 21 – 23 ] 在零样本 3 维模型分类方 面提出了 3 维点云的零样本学习方法、缓解 3 维零样 本学习中枢纽点问题的方法和基于直推式零样本学 习的 3 维点云分类方法,并将它们封装进一个全新 的零样本 3 维点云方法 [ 24 ] 中。以上方法均是利用已 知类样本的点云表征及其词向量对未知类别进行分 类,开创了零样本 3 维模型分类方法。近年来, CLIP 在零样本图像分类上取得了良好的效果,因此有研 究者将 CLIP 应用到零样本 3 维模型分类方法中, Zhang 等人 [ 25 ] 提出了基于 CLIP 的 3 维点云理解 (Point cloud understanding by CLIP, PointCLIP) 模型, PointCLIP 首先将 3 维点云投影成多个深度图,然 后利用 CLIP 的预训练图像编码器提取深度图特 征,同时将类别名称通过 CLIP 预先训练的文本编 码器提取文本特征。但是 PointCLIP 的性能受到深 度图和图像之间的域差异以及深度分布的多样性限 制。为了解决这一问题,基于图像 - 深度图预训练 CLIP 的点云分类方法 (transfer CLIP to Point cloud classification with image-depth pre-training, CLIP2Point) [ 26 ] 将跨模态学习与模态内学习相结合 训练了一个深度图编码器。在分类时,冻结 CLIP 的图像编码器,使用深度图编码器提取深度图特 征,该方法缓解了深度图和图像间的模型差异。用 于 3 维理解的图像 - 文本 - 点云一致性表征学习方法 (learning Unified representation of Language, Im- age and Point cloud for 3D understanding, ULIP) [ 27 ] 构建了一个图像、文本和点云 3 种模态的 统一嵌入空间,该方法利用大规模图像 - 文本对预 训练的视觉语言模型,并将 3 维点云编码器的特征 空间与预先对齐的视觉 - 文本特征空间对齐,大幅 提高了 3 维模型的识别能力。与之相似的是,基于 提示文本微调的 3 维识别方法 (CLIP Goes 3D, CG3D) [ 28 ] 同样使用 3 元组形式确保同一类别的 3 维模 型特征和图像特征之间以及 3 维模型特征和文本特 征之间存在相似性,从而使点云编码器获得零样本 识别的能力。另外, PointCLIP V2 [ 29 ] 在 Point- CLIP 的基础之上,通过利用更先进的投影算法和 更详细的 3 维模型描述,显着提高了零样本 3 维模型 分类准确率。本文采用语义增强 CLIP 解决图像和文 本的语义鸿沟问题,通过在语义层面为图像和文本 提供更多相似的语义信息,使图像和文本对齐更具有 一致性,从而有效提高 3 维模型的零样本分类性能。 2.2 提示工程
Savers have moved cash into money market funds at a remarkable clip Savers have moved cash into money market funds at a remarkable clip Savers have moved cash into money market funds at a remarkable clip % change of money market funds, indexed to 12m before the last rate hike, time 0 = last Fed rate hike % change of money market funds, indexed to 12m before the last rate hike, time 0 = last Fed rate hike% change of money market funds, indexed to 12m before the last rate hike, time 0 = last Fed rate hike % change of money market funds, indexed to 12m before the last rate hike, time 0 = last Fed rate hike % change of money market funds, indexed to 12m before the last rate hike, time 0 = last Fed rate hike% change of money market funds, indexed to 12m before the last rate hike, time 0 = last Fed rate hike % change of money market funds,在上次加息之前索引到12m
由于缺乏配对样本且功能性磁共振成像 (fMRI) 信号的信噪比低,重建感知到的自然图像或从 fMRI 数据解码其语义内容是一项艰巨的任务。在这项工作中,我们首次提出了一种与任务无关的基于 fMRI 的大脑解码模型 BrainCLIP,该模型利用 CLIP 的跨模态泛化能力来弥合大脑活动、图像和文本之间的模态差距。我们的实验表明,CLIP 可以作为通用大脑解码任务的关键,包括零样本视觉类别解码、fMRI 图像/文本匹配和 fMRI 到图像生成。具体来说,BrainCLIP 旨在通过结合视觉和文本监督来训练一个映射网络,将 fMRI 模式转换为对齐良好的 CLIP 嵌入空间。我们的实验表明,这种组合可以提高解码模型在某些任务上的性能,例如 fMRI 文本匹配和 fMRI 到图像生成。在零样本视觉类别解码任务中,BrainCLIP 的表现明显优于 BraVL,后者是最近提出的一种专门为该任务设计的多模态方法。BrainCLIP 还可以重建具有高语义保真度的视觉刺激,并在高级语义特征方面为基于 fMRI 的自然图像重建建立了新的领先水平。
图 2:模型的常见混淆。(A) 我们研究中观察到的常见混淆的示例图像,(B-E) 针对四个文本提示生成没有和有 CLIP 指导的图像。对于每个提示,都会显示八个随机图像,这些图像不是精心挑选的。
摘要 - 非常重要的是,文本提示调整在调整对比的语言图像预训练(剪辑)模型中表现出了启示性能,以对自然图像质量评估。但是,这种单模式提示学习方法仅调节剪辑模型的语言分支。这还不足以使剪辑模型适应AI生成的图像质量评估(AGIQA),因为AGIS在视觉上与自然图像有所不同。此外,没有研究与AGIS相关的AGIS和用户输入文本提示之间的一致性,该提示与AGIS的感知质量相关,并未研究以指导AgiQA。在这封信中,我们提出了视觉语言一致性指导的多模式的迅速学习,以学习为clip-agiqa。具体来说,我们分别在剪辑模型的语言和视觉分支中介绍了可学习的文本和视觉提示。此外,我们设计了一个文本对象对齐质量预测任务,该任务的学习视觉一致性知识用于指导上述多模式提示的优化。对两个公共AGIQA数据集的实验结果表明,所提出的方法超过了最先进的质量评估模型。源代码可在https://github.com/junfu1995/clip-agiqa上找到。
摘要。最近的方法表明,诸如剪辑之类的大规模视觉模型可以改善语义分割性能。这些方法通常是针对像素级视觉语言对准的,但通常依赖于剪辑中的低分辨率图像特征,从而导致沿边界的类歧义。此外,剪辑文本嵌入中的全局场景代表与本地和详细的像素级特征直接相关,从而使有意义的对齐变得更加困难。为了解决这些局限性,我们介绍了MTA-CLIP,这是一个采用面具级别视觉语言对准的新型框架。具体来说,我们首先提出了掩码文本解码器,该解码器使用夹夹语言模型使用丰富的文本数据来增强掩码代表。接下来,它使用掩码到文本对比度学习将蒙版表示与文本嵌入一致。此外,我们介绍了蒙版 - 文本提示学习,利用多个上下文特定的提示文本嵌入来捕获跨口罩的各种班级表示。总体而言,MTA-CLIP可以实现最先进的工作,在标准基准数据集,ADE20K和CityScapes上平均超过2.8%和1.3%。
我们介绍了超类,这是一种超级简单的分类方法,用于对图像文本数据进行视觉预训练。与与文本编码器对比的对比度剪辑[57]不同,SuperClass直接利用令牌化的原始文本作为监督分类标签,而无需其他文本过滤或选择。由于没有文本编码为对比目标,超级类不需要文本编码器,也不需要像夹子[57]那样保持较大的批量大小。超类在各种下游任务上表现出卓越的性能,包括经典的计算机视觉基准和下游任务的视觉语言。我们进一步探索了超类对模型大小,训练长度或数据大小的缩放行为,并报告了令人鼓舞的结果和剪辑比较。
所有滤杯的设计都采用了独特的双锁功能。滤杯有一个易于使用的释放夹,可以拆卸滤杯。重新组装滤杯后,这个大夹子会发出咔嗒声,确保滤杯处于正确的使用位置。当设备加压时,组件中的止动装置也会接合,确保滤杯在使用过程中不会旋转。这种独特的双锁功能使 Excelon ® Plus 成为市场上最安全的过滤器。