大规模视觉模型(例如剪辑)表现出令人印象深刻的能力,并且具有多个应用程序,从文本到图像生成到零照片分类。最近的工作表明,视觉提示(例如红色圆圈)可以将视觉编码器引导到盘旋区域。尽管现在已在各种应用中使用了此类视力提示,但它们可能是特定于模型的,并取决于模型从其训练数据中学习这些行为。在不同的模型,任务和数据集的情况下,发现和评估各种提示可能是不可行的。在本文中,我们提出了一种亮点,一种学习视觉提示的方法,该提示可以突出图像中的区域或完善手动设计的视觉提示。使用我们的框架,我们可以学习使用文本图像区域对的数据集或仅使用合成字幕或图像以无监督的方式以监督方式突出显示。突出显示使用其他视觉提示,提示学习方法以及使用多种模型和视觉提示的集合的计算密集型方法。
主要关键词