学习扩散语言模型的揭露策略 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

学习扩散语言模型的揭露策略

2026年7月2日 00:00 33 Comments

来源:Apple机器学习研究

扩散（大型）语言模型 (dLLM) 现在在许多任务上与自回归模型的下游性能相匹配，同时有望在推理过程中提高效率。 dLLM 的一个关键设计方面是采样程序，该程序选择在每个扩散步骤中揭开哪些标记。事实上，最近的工作发现，与随机揭露相比，置信度阈值等启发式策略可以提高样本质量和令牌吞吐量。然而，这种启发式方法也有缺点：它们需要手动调整，而且我们观察到它们的性能会随着块大小的增大而降低。在这项工作中，我们建议使用强化学习来训练采样程序。具体来说，我们将屏蔽扩散采样形式化为马尔可夫决策过程，其中 dLLM 作为环境，并提出了一种基于单层转换器的轻量级策略，将 dLLM 令牌置信度映射到揭露决策。我们的实验表明，这些经过训练的策略与半自回归（块）生成相结合时的性能与最先进的启发式策略相匹配，同时在完全扩散设置中优于它们。

* 平等贡献者

† 阿姆斯特丹大学

‡ 麻省理工学院

** 在 Apple 期间完成的工作

置信度工作中策略缺点吞吐量程序多任务高效率揭露扩散采样训练的 dLLM 先进的设计方面完成的提高质量性能令牌模型的事实上相匹配最近的决策转换器手动调整回归模型自回归过程启发式

学习扩散语言模型的揭露策略

其他外部链接

Tags

XiaoMi-AI