扩散模型的训练和采样已在先前的艺术中详尽阐明(Karras等,2022; 2024b)。取而代之的是,底层网络架构设计保持在摇摇欲坠的经验基础上。此外,根据最新规模定律的趋势,大规模模型涉足生成视觉任务。但是,运行如此大的扩散模型会造成巨大的综合负担,从而使其具有优化的计算并有效分配资源。为了弥合这些空白,我们浏览了基于u-NET的效率扩散模型的设计景观,这是由声望的EDM2引起的。我们的勘探路线沿两个关键轴组织,层放置和模块插入。我们系统地研究基本设计选择,并发现了一些有趣的见解,以提高功效和效率。这些发现在我们的重新设计的架构EDM2+中,这些发现将基线EDM2的计算复杂性降低了2倍,而不会损害生成质量。广泛的实验和比较分析突出了我们提出的网络体系结构的有效性,该结构在Hallmark Imagenet基准上实现了最先进的FID。代码将在接受后发布。
主要关键词