DiT-Air:重新审视文本到图像生成中扩散模型架构设计的效率

在这项工作中,我们实证研究了用于文本到图像生成的扩散变压器 (DiT),重点关注架构选择、文本调节策略和训练协议。我们评估了一系列基于 DiT 的架构(包括 PixArt 风格和 MMDiT 变体),并将它们与直接处理串联文本和噪声输入的标准 DiT 变体进行比较。令人惊讶的是,我们的研究结果表明,标准 DiT 的性能与那些专用模型相当,同时表现出卓越的参数效率,尤其是在扩大规模时。利用分层......

来源:Apple机器学习研究

在这项工作中,我们实证研究了用于文本到图像生成的扩散变压器 (DiT),重点关注架构选择、文本调节策略和训练协议。我们评估了一系列基于 DiT 的架构(包括 PixArt 风格和 MMDiT 变体),并将它们与直接处理串联文本和噪声输入的标准 DiT 变体进行比较。令人惊讶的是,我们的研究结果表明,标准 DiT 的性能与那些专用模型相当,同时表现出卓越的参数效率,尤其是在扩大规模时。利用分层参数共享策略,与 MMDiT 架构相比,我们将模型大小进一步减小了 66%,同时对性能的影响最小。基于对文本编码器和变分自动编码器 (VAE) 等关键组件的深入分析,我们推出了 DiT-Air 和 DiT-Air-Lite。通过监督和奖励微调,DiT-Air 在 GenEval 和 T2I CompBench 上实现了最先进的性能,而 DiT-Air-Lite 仍然具有高度竞争力,尽管尺寸紧凑,但超越了大多数现有型号。