ec-dit:使用自适应专家选择路由缩放扩散变压器

扩散变压器已被广泛用于文本对图像合成。在将这些模型扩展到数十亿个参数显示出希望的同时,超越当前尺寸的缩放的有效性仍然没有充满挑战和具有挑战性。通过明确利用图像世代的计算异质性,我们开发了一个新的Experts(MOE)模型(MOE)模型(EC-DIT),用于具有专家选择路由的扩散变压器。 EC-DIT学会了适应性地优化分配的计算以了解输入文本并生成相应的图像补丁,从而实现异质性…

来源:Apple机器学习研究

扩散变压器已被广泛用于文本对图像合成。在将这些模型扩展到数十亿个参数显示出希望的同时,超越当前尺寸的缩放的有效性仍然没有充满挑战和具有挑战性。通过明确利用图像世代的计算异质性,我们开发了一个新的Experts(MOE)模型(MOE)模型(EC-DIT),用于具有专家选择路由的扩散变压器。 EC-DIT学会了适应性地优化分配的计算以了解输入文本并生成相应的图像贴片,从而使异质计算与不同的文本图像复杂性对齐。这种异质性提供了一种有效的方法,可以将EC-DIT扩展到970亿个参数,并在训练收敛,文本到图像对准以及与密集模型和常规MOE模型相比的整体生成质量方面取得了重大改进。通过广泛的消融,我们表明EC-DIT通过识别通过端到端培训来识别文本重要性的不同文本重要性来表现出卓越的可扩展性和自适应计算分配。值得注意的是,在文本到图像对准评估中,我们最大的模型达到了71.68%的最先进的Geneval评分,并且仍然保持竞争性推理速度,并具有直观的解释性。

图1:用于异质计算分配的专家选择路由。 EC-DIT利用序列范围的信息来适应TOEKSN。这种动态路由将更多的计算分配给详细区域(例如空间站和月球),同时将其减少为更简单的区域,例如背景。

†在苹果实习期间完成的工作。

‡佐治亚理工学院