Pixar关键词检索结果

DiT-Air:重新审视文本到图像生成中扩散模型架构设计的效率

DiT-Air: Revisiting the Efficiency of Diffusion Model Architecture Design in Text to Image Generation

在这项工作中,我们实证研究了用于文本到图像生成的扩散变压器 (DiT),重点关注架构选择、文本调节策略和训练协议。我们评估了一系列基于 DiT 的架构(包括 PixArt 风格和 MMDiT 变体),并将它们与直接处理串联文本和噪声输入的标准 DiT 变体进行比较。令人惊讶的是,我们的研究结果表明,标准 DiT 的性能与那些专用模型相当,同时表现出卓越的参数效率,尤其是在扩大规模时。利用分层......