用于分类生成建模的连续增强离散扩散模型

标准离散扩散模型通过将所有未观察到的状态映射到吸收 [MASK] 标记来同等对待它们。这会产生一个“信息空白”,其中可以从未屏蔽的标记推断出的语义信息在去噪步骤之间丢失。我们引入了连续增强离散扩散(CADD),这是一个通过连续潜在空间中的成对扩散来增强离散状态空间的框架。这会产生分级的、逐渐损坏的状态,其中屏蔽的标记由嘈杂但信息丰富的潜在向量表示,而不是崩溃的“信息空白”。在...

来源:Apple机器学习研究

标准离散扩散模型通过将所有未观察到的状态映射到吸收 [MASK] 标记来同等对待它们。这会产生一个“信息空白”,其中可以从未屏蔽的标记推断出的语义信息在去噪步骤之间丢失。我们引入了连续增强离散扩散(CADD),这是一个通过连续潜在空间中的成对扩散来增强离散状态空间的框架。这会产生分级的、逐渐损坏的状态,其中屏蔽的标记由嘈杂但信息丰富的潜在向量表示,而不是崩溃的“信息空白”。在每个反向步骤中,CADD 可以利用连续潜在特征作为语义提示来指导离散去噪。该设计简洁且与现有的离散扩散训练兼容。在采样时,连续潜在向量的估计器的强度和选择可以在模式覆盖(生成不同的输出)和模式搜索(生成上下文精确的输出)行为之间进行受控权衡。根据经验,我们证明 CADD 在文本生成、图像合成和代码建模方面比基于掩码的扩散提高了生成质量,并且相对于强大的离散基线在定性和定量指标上都有一致的收益。

  • † 德克萨斯大学奥斯汀分校
  • ‡ 香港大学 (HKU)
  • ** 在 Apple 期间完成的工作