focallens:指令调整启用零射击条件图像表示

本文在ICLR 2025的野外基础模型的研讨会上接受了本文的理解本质上是上下文 - 我们在图像中关注的内容取决于手头的任务。例如,考虑到一个人拿着一束鲜花的人的图像,我们可能会根据感兴趣的背景而专注于他们的衣服或花的类型。但是,大多数现有的图像编码范式代表图像作为固定的通用特征向量,可忽视优先考虑不同下游用例的不同视觉信息的潜在需求。在…

来源:Apple机器学习研究

本文在ICLR 2025的野外基础模型的研讨会上接受。

视觉理解本质上是上下文 - 我们在图像中关注的内容取决于手头的任务。例如,考虑到一个人拿着一束鲜花的人的图像,我们可能会根据感兴趣的背景而专注于他们的衣服或花的类型。但是,大多数现有的图像编码范式代表图像作为固定的通用特征向量,可忽视优先考虑不同下游用例的不同视觉信息的潜在需求。在这项工作中,我们介绍了焦点,这是一种有条件的视觉编码方法,该方法基于感兴趣的上下文为同一图像产生不同的表示,并通过自然语言灵活地表达。我们利用视力指导调整数据并截然不同的捕获概述的视觉编码器,将自然语言指令作为产生条件图像表示的额外输入。广泛的实验验证了焦点的条件图像表示,与标准视觉编码器(如夹子)产生的通用特征相比,您的感兴趣的视觉特征更好。此外,我们还显示了焦点进一步导致对一系列下游任务的绩效提高,包括图像图像检索,图像分类和图像文本检索,分别在具有挑战性的糖筛和MMVP-VLM基准中平均增益为5和10分。

†华盛顿大学

华盛顿大学