FS-DFM:通过少步扩散语言模型快速准确地生成长文本

自回归语言模型 (ARM) 提供了很强的可能性,但本质上是串行的:它们每次前向传递生成一个令牌,这限制了吞吐量并增加了长序列的延迟。扩散语言模型 (DLM) 跨位置并行,因此对于语言生成来说似乎很有前景,但标准离散扩散通常需要数百到数千次模型评估才能达到高质量,以串行深度换取迭代广度。我们引入 FS-DFM,即少步离散流匹配。离散流量匹配模型,专为提高速度而设计,且不牺牲……

来源:Apple机器学习研究

自回归语言模型 (ARM) 提供了很强的可能性,但本质上是串行的:它们每次前向传递生成一个令牌,这限制了吞吐量并增加了长序列的延迟。扩散语言模型 (DLM) 跨位置并行,因此对于语言生成来说似乎很有前景,但标准离散扩散通常需要数百到数千次模型评估才能达到高质量,以串行深度换取迭代广度。我们引入 FS-DFM,即少步离散流匹配。离散流匹配模型,旨在提高速度而不牺牲质量。核心思想很简单:将采样步骤的数量作为一个显式参数,并训练模型在步骤预算之间保持一致,这样一个大的动作就会落在许多小动作会发生的地方。我们将其与可靠的更新规则配对,该规则将概率向正确的方向移动而不会超调,并与从长期轨迹中提取的强有力的教师指导相结合。这些选择共同使得少步采样稳定、准确且易于控制。在语言建模基准上,具有 8 个采样步骤的 FS-DFM 与 1,024 步离散流基线实现了困惑度对等,使用类似大小的模型生成 1,024 个标记,提供高达 128 倍的更快采样速度和相应的延迟/吞吐量增益。

    † 俄亥俄州立大学‡ 在 Apple 期间完成的工作
  • † 俄亥俄州立大学
  • ‡ 在 Apple 期间完成的工作