详细内容或原文请订阅后点击阅览
条件扩散中组合泛化的局部机制
条件扩散模型似乎能够进行成分泛化,即为调节器的分布外组合生成令人信服的样本,但这种能力背后的机制仍不清楚。为了使这一点具体化,我们研究了长度泛化,即生成具有比训练期间看到的更多对象的图像的能力。在受控的 CLEVR 设置中(Johnson 等人,2017),我们发现在某些情况下可以实现长度泛化,但在其他情况下则不能,这表明模型有时只能学习底层的组成结构。然后我们调查......
来源:Apple机器学习研究条件扩散模型似乎能够进行成分泛化,即为调节器的分布外组合生成令人信服的样本,但这种能力背后的机制仍不清楚。为了使这一点具体化,我们研究了长度泛化,即生成具有比训练期间看到的更多对象的图像的能力。在受控的 CLEVR 设置中(Johnson 等人,2017),我们发现在某些情况下可以实现长度泛化,但在其他情况下则不能,这表明模型有时只能学习底层的组成结构。然后我们研究局部性作为组合泛化的结构机制。先前的工作提出将得分局部性作为无条件扩散模型中创造力的机制(Kamb&Ganguli,2024;Niedoba 等人,2024),但没有解决灵活条件或组合泛化。在本文中,我们证明了特定的构图结构(条件投影构图)(Bradley et al., 2025)与对像素和条件具有稀疏依赖性的分数(局部条件分数)之间的精确等价性。该理论还扩展到特征空间中概念的组合(例如风格+内容)。我们通过经验验证了我们的理论:在长度泛化方面成功的 CLEVR 模型表现出局部条件分数,而失败的模型则没有。此外,我们表明,明确执行局部条件分数的因果干预可以在先前失败的模型中实现长度泛化。最后,我们研究了 SDXL,发现在像素空间中,存在空间局部性,但条件局部性大多不存在;然而,我们在网络学习的特征空间中找到了局部条件分数的定量证据。
