详细内容或原文请订阅后点击阅览
飞镖:可扩展文本到图像生成的自动回归变压器
扩散模型已成为视觉产生的主要方法。他们是通过deno培训的马尔可夫工艺,该过程逐渐为输入增加了噪音。我们认为,马尔可夫的财产限制了该模型充分利用生成轨迹的能力,从而导致训练和推理期间效率低下。在本文中,我们提出了DART,这是一种基于变压器的模型,该模型统一自回归(AR)和非马克维亚框架内的扩散。飞镖迭代地将图像贴片在空间和光谱上使用与标准相同的架构相同的AR模型
来源:Apple机器学习研究扩散模型已成为视觉产生的主要方法。他们是通过deno培训的马尔可夫工艺,该过程逐渐为输入增加了噪音。我们认为,马尔可夫的财产限制了该模型充分利用生成轨迹的能力,从而导致训练和推理期间效率低下。在本文中,我们提出了DART,这是一种基于变压器的模型,该模型统一自回归(AR)和非马克维亚框架内的扩散。使用具有与标准语言模型相同的架构的AR模型在空间和光谱上迭代地进行了DeNOTOARTIES贴片。 DART不依赖图像量化,这可以在保持灵活性的同时进行更有效的图像建模。此外,飞镖在统一模型中无缝训练文本和图像数据。我们的方法表明了在班级条件和文本形象生成任务上的竞争性能,提供了可扩展,有效的替代传统扩散模型的替代方案。通过这个统一的框架,DART为可扩展的高质量图像合成设定了新的基准。
†在苹果实习期间完成的工作。 ‡香港中国大学米拉
†在苹果实习期间完成的工作。 •香港中国大学 §MILA§MILA