对比本地化语言图像预训练

对比语言-图像预训练 (CLIP) 是一种广受赞誉的方法,用于训练视觉编码器生成图像/文本表示,以促进各种应用。最近,CLIP 已被广泛用作多模态大型语言模型 (MLLM) 的视觉主干,以连接图像输入以进行语言交互。CLIP 作为视觉语言基础模型的成功依赖于在图像级别对齐网络爬取的嘈杂文本注释。然而,这样的标准可能不足以满足需要细粒度视觉表示的下游任务,尤其是……

来源:Apple机器学习研究

对比性语言图像预训练(剪辑)是培训视觉编码器生成图像/文本表示促进各种应用的著名方法。最近,剪辑已被广泛采用作为多模式大语模型(MLLM)的视觉骨干,以连接图像输入以进行语言交互。剪辑作为视觉基础模型的成功依赖于在图像级别对齐网络爬行的嘈杂文本注释。然而,此类标准可能不足以用于需要细粒度表示表示的下游任务,尤其是当地区级别的理解要求MLLM时。在本文中,我们提高了剪辑的本地化能力,并有多种进步。我们提出了一种通过与区域文本对比损失和模块补充剪辑来补充夹子,提出了一种称为对比的局部语言图像预训练(CLOC)的预训练方法。我们制定了一个新概念,即迅速的嵌入,编码器会产生易于转换为空间提示的区域表示形式的图像嵌入。为了支持大规模的预训练,我们设计了一个富含视觉的和空间定位的字幕框架,以便于以大规模生成区域文本伪​​标签。通过扩展多达数十亿个带注释的图像,CLOC可以为图像区域识别和检索任务提供高质量的区域嵌入,并且可以替换夹子以增强MLLM,尤其是在参考和接地任务上。