详细内容或原文请订阅后点击阅览
使用 CLIP 样式编码器进行零样本定位
我们如何才能看到视觉编码器所看到的内容?Stephan Widua 在 Unsplash 上的照片想想您最喜欢的预训练视觉编码器。我假设您选择了 CNN(卷积神经网络)或 ViT(视觉变换器)的某种变体。编码器是将图像映射到 d 维向量空间的函数。在此过程中,图像被转换为特征图序列:作者提供的图片。特征图 (w × h × k) 可以被认为是收集的 k 维补丁嵌入的 2D 数组,或者等效地,具有 k 个通道 f₁, … fₖ 的粗略图像 (w × h)。CNN 和 ViT 都以各自的方式将输入图像转换为特征图序列。当图像穿过其层时,我们如何才能看到视觉编码器所看到的内容?零样本定位方法旨在从编码器的特征图中生成人类可解释的可视化效果。这些可视化看起来像热图或粗分割蒙版,可区分输入图像中语义相关的区域。术语“零样本”是指模型尚未明确接受感兴趣的语义类别的蒙版注释训练。例如,像 CLIP 这样的视觉编码器仅接受过图像级文本字幕的训练。在本文中,我们首先概述了一些早期技术,这些技术无需额外训练即可从监督式 CNN 分类器生成可解释的热图。然后我们
来源:走向数据科学用夹式编码器零射击本地化
我们如何看到远见编码器看到了什么?
Stephan Widua Unplash想想您最喜欢的预训练的视觉编码器。我将假设您选择了CNN(卷积神经网络)或VIT(Visual Transferser)的一些变体。编码器是将图像映射到D维矢量空间中的函数。在此过程中,图像被转换为一系列特征图:
d可以将特征映射(w×h×k)视为收集的k维贴片嵌入的2D阵列,或者等效地,带有k通道f₁,…fₖ的粗图像(w×h)。 CNN和VIT各自以各自的方式将输入图像转换为一系列特征地图。
W h k f fₖ我们如何看到远见编码器将其视为图像在其层中的发展?零射击定位方法旨在从编码器的特征图生成人体解剖的可视化。这些可视化看起来像热图或粗分割掩模,它们区分了输入图像中的语义相关区域。 “零射”一词是指以下事实:该模型尚未在感兴趣的语义类别的面具注释上明确培训。例如,像剪辑这样的视觉编码器仅在图像级文本字幕上进行了培训。
在本文中,我们首先概述了一些早期技术,该技术是从监督的CNN分类器中生成可解释的热图,而无需额外的培训。然后,我们探讨了围绕剪辑式编码器实现零拍的挑战。最后,我们谈到了GEM(将所有模块)[1]的关键思想[1],这是一种最近提出的用于剪辑VIT的无训练,开放式摄影的方法。
1