详细内容或原文请订阅后点击阅览
Kaleido 扩散:使用自回归潜在模型改进条件扩散模型
扩散模型已成为从文本描述生成高质量图像的强大工具。尽管这些模型取得了成功,但它们在采样图像中通常表现出有限的多样性,尤其是在使用高无分类器指导权重进行采样时。为了解决这个问题,我们提出了 Kaleido,这是一种通过结合自回归潜在先验来增强样本多样性的新方法。Kaleido 集成了一个自回归语言模型,该模型对原始标题进行编码并生成潜在变量,作为抽象和中间表示……
来源:Apple机器学习研究扩散模型已成为从文本描述生成高质量图像的强大工具。尽管这些模型取得了成功,但它们在采样图像中通常表现出有限的多样性,尤其是在使用高无分类器指导权重进行采样时。为了解决这个问题,我们提出了 Kaleido,这是一种通过结合自回归潜在先验来增强样本多样性的新方法。Kaleido 集成了一个自回归语言模型,该模型对原始标题进行编码并生成潜在变量,作为指导和促进图像生成过程的抽象和中间表示。在本文中,我们探索了各种离散潜在表示,包括文本描述、检测边界框、对象块和视觉标记。这些表示使扩散模型的输入条件多样化和丰富,从而实现更多样化的输出。我们的实验结果表明,Kaleido 有效地拓宽了从给定文本描述生成的图像样本的多样性,同时保持了高图像质量。此外,我们表明 Kaleido 紧密遵循生成的潜在变量提供的指导,展示了其有效控制和指导图像生成过程的能力。