学习扩散语言模型的揭露策略

扩散(大型)语言模型 (dLLM) 现在在许多任务上与自回归模型的下游性能相匹配,同时有望在推理过程中提高效率。 dLLM 的一个关键设计方面是采样程序,该程序选择在每个扩散步骤中揭开哪些标记。事实上,最近的工作发现,与随机揭露相比,置信度阈值等启发式策略可以提高样本质量和令牌吞吐量。然而,这种启发式方法也有缺点:它们需要手动调整,而且我们观察到它们的性能......

来源:Apple机器学习研究

扩散(大型)语言模型 (dLLM) 现在在许多任务上与自回归模型的下游性能相匹配,同时有望在推理过程中提高效率。 dLLM 的一个关键设计方面是采样程序,该程序选择在每个扩散步骤中揭开哪些标记。事实上,最近的工作发现,与随机揭露相比,置信度阈值等启发式策略可以提高样本质量和令牌吞吐量。然而,这种启发式方法也有缺点:它们需要手动调整,而且我们观察到它们的性能会随着块大小的增大而降低。在这项工作中,我们建议使用强化学习来训练采样程序。具体来说,我们将屏蔽扩散采样形式化为马尔可夫决策过程,其中 dLLM 作为环境,并提出了一种基于单层转换器的轻量级策略,将 dLLM 令牌置信度映射到揭露决策。我们的实验表明,这些经过训练的策略与半自回归(块)生成相结合时的性能与最先进的启发式策略相匹配,同时在完全扩散设置中优于它们。

  • * 平等贡献者
  • † 阿姆斯特丹大学
  • ‡ 麻省理工学院
  • ** 在 Apple 期间完成的工作