条件扩散中组合泛化的局部机制

条件扩散模型似乎能够进行成分泛化,即为调节器的分布外组合生成令人信服的样本,但这种能力背后的机制仍不清楚。为了使这一点具体化,我们研究了长度泛化,即生成具有比训练期间看到的更多对象的图像的能力。在受控的 CLEVR 设置中(Johnson 等人,2017),我们发现在某些情况下可以实现长度泛化,但在其他情况下则不能,这表明模型有时只能学习底层的组成结构。然后我们调查......

来源:Apple机器学习研究

条件扩散模型似乎能够进行成分泛化,即为调节器的分布外组合生成令人信服的样本,但这种能力背后的机制仍不清楚。为了使这一点具体化,我们研究了长度泛化,即生成具有比训练期间看到的更多对象的图像的能力。在受控的 CLEVR 设置中(Johnson 等人,2017),我们发现在某些情况下可以实现长度泛化,但在其他情况下则不能,这表明模型有时只能学习底层的组成结构。然后我们研究局部性作为组合泛化的结构机制。先前的工作提出将得分局部性作为无条件扩散模型中创造力的机制(Kamb&Ganguli,2024;Niedoba 等人,2024),但没有解决灵活条件或组合泛化。在本文中,我们证明了特定的构图结构(“条件投影构图”)(Bradley 等人,2025)与对像素和条件具有稀疏依赖性的分数(“局部条件分数”)之间的精确等价性。该理论还扩展到特征空间的组合性。我们通过经验验证了我们的理论:在长度泛化方面成功的 CLEVR 模型表现出局部条件分数,而失败的模型则没有。此外,我们表明,明确执行局部条件分数的因果干预可以恢复先前失败模型中的长度泛化。最后,我们研究了颜色调节 CLEVR 中的特征空间组合性,并找到了 SDXL 中组合结构的初步证据。