详细内容或原文请订阅后点击阅览
Univg:统一图像生成和编辑的通才扩散模型
文本对图像(T2I)扩散模型在以用户提示后生成视觉吸引人的图像时显示出令人印象深刻的结果。在此基础上,各种方法进一步调整了针对特定任务的预训练的T2I模型。但是,这需要单独的模型体系结构,培训设计和多个参数集来处理不同的任务。在本文中,我们介绍了Univg,这是一个通才扩散模型,该模型能够支持具有一组权重的各种图像生成任务。 Univg将多模式输入视为统一条件,以使各种下游……
来源:Apple机器学习研究文本对图像(T2I)扩散模型在以用户提示后生成视觉吸引人的图像时显示出令人印象深刻的结果。在此基础上,各种方法进一步调整了针对特定任务的预训练的T2I模型。但是,这需要单独的模型体系结构,培训设计和多个参数集来处理不同的任务。在本文中,我们介绍了Univg,这是一个通才扩散模型,该模型能够支持具有一组权重的各种图像生成任务。 UNIVG将多模式输入视为统一条件,以实现各种下游应用程序,从T2I生成,基于指导,基于指导的编辑,具有身份的定义性生成以及布局引导的生成,到深度估计和参考段。通过有关数据混合和多任务培训的全面实证研究,我们对培训过程和决策提供了详细的见解,从而为我们的最终设计提供了信息。例如,我们表明,T2I生成和其他任务(例如基于指令的编辑)可以在无绩效折衷的情况下共存,而辅助任务(例如深度估计和参考细分)可以增强图像编辑。值得注意的是,我们的模型甚至可以在其各自的基准上胜过某些特定于任务的模型,这标志着朝着统一的图像生成模型迈出的重要一步。