流量匹配模型的评分蒸馏

扩散模型实现了高质量的图像生成,但受到缓慢的迭代采样的限制。蒸馏方法通过一步或几步生成来缓解这一问题。流匹配最初是作为一个独特的框架引入的,后来被证明在理论上等同于高斯假设下的扩散,这就提出了蒸馏技术(例如分数蒸馏)是否可以直接转移的问题。我们提供了一个简单的推导——基于贝叶斯规则和条件期望——统一了高斯扩散和流量匹配,而不依赖于 ODE/SDE……

来源:Apple机器学习研究

扩散模型实现了高质量的图像生成,但受到缓慢的迭代采样的限制。蒸馏方法通过一步或几步生成来缓解这一问题。流匹配最初是作为一个独特的框架引入的,后来被证明在理论上等同于高斯假设下的扩散,这就提出了蒸馏技术(例如分数蒸馏)是否可以直接转移的问题。我们提供了一个基于贝叶斯规则和条件期望的简单推导,它统一了高斯扩散和流量匹配,而不依赖于 ODE/SDE 公式。基于这一观点,我们将分数身份蒸馏 (SiD) 扩展到预训练的文本到图像流匹配模型,包括 SANA、SD3-Medium、SD3.5-Medium/Large 和 FLUX.1-dev,所有模型都具有 DiT 主干。实验表明,只需进行适度的流程匹配和 DiT 特定调整,SiD 在无数据和数据辅助设置中即可在这些模型中开箱即用,无需教师微调或架构更改。这提供了第一个系统证据,表明分数蒸馏广泛适用于文本到图像流匹配模型,解决了先前对稳定性和健全性的担忧,并统一了基于扩散和流的生成器的加速技术。

  • † 德克萨斯大学奥斯汀分校