大型视觉编码器的多模态自回归预训练

*平等贡献者大型多模态模型中的主导范式是将大型语言解码器与视觉编码器配对。虽然众所周知如何为多模态任务预训练和调整语言解码器,但不太清楚应该如何预训练视觉编码器。事实上的标准是使用判别目标(例如对比损失)预训练视觉编码器。这会导致预训练和生成自回归下游任务之间的不匹配。同时,继语言领域取得成功之后,自回归图像模型已被证明……

来源:Apple机器学习研究

*平等贡献者

大型多模态模型中的主导范式是将大型语言解码器与视觉编码器配对。虽然如何为多模态任务预训练和调整语言解码器是众所周知的,但如何预训练视觉编码器却不太清楚。事实上的标准是使用判别目标(例如对比损失)预训练视觉编码器。这会导致预训练和生成自回归下游任务之间的不匹配。同时,继在语言领域取得成功之后,自回归图像模型已被证明能够预训练强大且可扩展的视觉编码器。本文介绍了 AIMv2,这是一系列使用多模态自回归目标预训练的大型、强大的视觉编码器。这要归功于生成原始补丁和文本标记的多模态解码器。我们的模型不仅在多模态任务上表现出色,而且在定位、基础和分类等视觉识别基准上也表现出色。此外,我们表明 AIMv2 模型训练效率高,在预训练期间看到的样本明显更少的情况下,其表现优于当前最先进的水平。

图 1:AIMv2 一览
图 1:AIMv2 一览

HuggingFace 上可用的模型权重。

HuggingFace