尽管在野外有大量未标记的图像,但在原始图像数据上进行了可扩展的视觉预训练仍然是一个挑战。像素重建之类的通用配方努力为有效捕获详细的语义而努力,而在增强图像视图之间保持一致性的方法优化依赖于未经保育数据(如Web Crawls或视频框架)中不存在的归纳偏见。我们如何从广泛的未标记的IMEAL数据集中更有效地学习?我们研究注释引导程序,这种方法学会了将图像关联到示意注释,并使用未标记的数据来引导模型的理解,通过对图像附近农作物的语义进行预测。关键的优势在于它具有规格(哪些语义概念很有趣?)从预测中(这些概念发生在自然图像数据中?)。我们表明,注释引导使我们能够通过策划的未标记数据集或弱监督的数据集指导预训练,同时通过自举损失从所有未经切割的图像数据中学习。我们的实验证明了对野外未标记图像的预先培训的改进,包括视频数据,例如epickitchens,Coco等场景数据以及CC12M(例如CC12M)。
人类视力和自然语言共有的基本特征是它们的组成性质。,尽管大型录音和语言进行了贡献,但最近的调查发现,大多数(如果不是全部)我们最先进的视觉语言模型在构图中挣扎。他们无法分辨“白人面对黑人的女孩”和“黑人面对白人的女孩”的图像。更重要的是,先前的工作表明,构图并非随着规模而产生:较大的模型尺寸或培训数据无济于事。本文开发了一种新的迭代培训算法,该算法将组成性构成。我们借鉴了数十年来确定文化传播(需要教新一代的需求)的认知科学研究,这是必要的归纳性,这激励了人类发展构图的领域。具体来说,我们将视觉语言对比度学习为视觉代理和语言代理之间的刘易斯信号游戏,并通过迭代地重置训练过程中的一个特工的权重来操作文化转移。在每次迭代之后,这种训练范式引起了“更易于学习”的表示形式,即构图语言的属性:例如我们在CC3M和CC12M上训练的模型将标准夹提高了4.7%,在糖筛基准中以4.0%的速度提高了4.0%。
视觉模型(VLM)的最新进步在弥合计算机视觉和自然语言处理之间的差距方面取得了重大飞跃。然而,传统的VLM通过对有限和嘈杂的图像文本对进行对比学习训练,通常缺乏空间和语言的理解,可以很好地推广到密集的视觉任务或更少的通用语言。我们的方法,坚实的基础剪辑(SF-CLIP),通过隐式建立对经过大量单峰数据训练的基础模型的可靠的视觉和语言理解来避免此问题。sf-clip将对比的图像文本预测与大型基础文本和视觉模型的掩盖知识蒸馏。这种方法可以指导我们的VLM开发强大的文本和图像表示。结果,SF-CLIP显示出异常的零射击分类精度,并增强了图像和文本检索能力,为在YFCC15M和CC12M上训练的VIT-B/16的新最新状态。此外,在语义分割任务中,密集的每个斑点监督增强了我们的零射击和线性探针的性能。我们模型的一个了不起的方面是它的多语言能力,尽管主要接受了英语数据的培训,但通过多种语言的强劲检索结果证明了这一点。我们通过选择性地应用掩盖的蒸馏和教师单词嵌入的继承来实现所有这些改进,而无需牺牲培训效率。
