详细内容或原文请订阅后点击阅览
稳定的扩散模型秘密地擅长视觉上下文学习
自然语言处理 (NLP) 中的大型语言模型 (LLM) 已展现出上下文学习 (ICL) 的巨大潜力——能够利用几组示例提示来适应各种任务,而无需显式更新模型权重。 ICL 最近被探索用于计算机视觉任务,并取得了有希望的早期成果。这些方法涉及专门的培训和/或额外的数据,使过程复杂化并限制其普遍性。在这项工作中,我们展示了现成的稳定扩散模型可以重新用于视觉上下文学习……
来源:Apple机器学习研究自然语言处理 (NLP) 中的大型语言模型 (LLM) 已展现出上下文学习 (ICL) 的巨大潜力——能够利用几组示例提示来适应各种任务,而无需显式更新模型权重。 ICL 最近被探索用于计算机视觉任务,并取得了有希望的早期成果。这些方法涉及专门的培训和/或额外的数据,使过程复杂化并限制其普遍性。在这项工作中,我们展示了现成的稳定扩散模型可以重新用于视觉上下文学习(V-ICL)。具体来说,我们在稳定扩散架构的自注意力层中制定了就地注意力重新计算,该架构明确地合并了查询和示例提示之间的上下文。无需任何额外的微调,我们表明这种重新调整用途的稳定扩散模型能够适应六种不同的任务:前景分割、单个对象检测、语义分割、关键点检测、边缘检测和着色。例如,与 Visual Prompting 和 IMProv 等最新方法相比,所提出的方法将 Pascal-5i 数据集上的前景分割任务的平均交集比并集 (mIoU) 分别提高了 8.9% 和 3.2%。此外,我们表明所提出的方法能够通过集成有效地利用多个提示来更好地推断任务并进一步提高性能。
- † 马里兰大学学院公园分校‡ 在 Apple 期间完成的工作
