详细内容或原文请订阅后点击阅览
StarFlow:高分辨率图像合成
我们提出了Starflow,这是一种基于标准化流的可扩展生成模型,可在高分辨率图像合成中实现强大的性能。 Starflow的核心是变压器自回旋流量(TARFLOW),它结合了标准化流的表达能力与自回旋变压器的结构化建模功能。我们首先建立了TARFLOW的理论普遍性,用于建模连续分布。在这个基础的基础上,我们介绍了几种关键的建筑和算法创新,以显着提高可扩展性:(1)深刺……
来源:Apple机器学习研究我们提出了Starflow,这是一种基于标准化流的可扩展生成模型,可在高分辨率图像合成中实现强大的性能。 Starflow的核心是变压器自回旋流量(TARFLOW),它结合了标准化流的表达能力与自回旋变压器的结构化建模功能。我们首先建立了TARFLOW的理论普遍性,用于建模连续分布。在该基础的基础上,我们介绍了几种关键的架构和算法创新,以显着提高可扩展性:(1)深度刺激设计,其中深度变压器块捕获了大多数模型的代表能力,并得到了一些浅层变压器块,这些浅层变压器块是计算上有效效率却基本上有益的; (2)在经过预处理的自动编码器的潜在空间中进行建模,这比直接像素级建模更有效; (3)一种新颖的指导算法,可显着提高样品质量。至关重要的是,我们的模型仍然是端到端的归一化流,可以在连续空间中实现精确的最大似然训练而无需离散化。 Starflow在课堂条件和文本条件图像生成任务中都能达到竞争性能,从而接近样本质量的最新扩散模型。据我们所知,这项工作是在此规模和解决方案中有效运行的首次成功演示。