残余上下文扩散语言模型 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

残余上下文扩散语言模型

2026年7月2日 00:00 33 Comments

来源:Apple机器学习研究

扩散大型语言模型 (dLLM) 已成为纯自回归语言模型的有前途的替代方案，因为它们可以并行解码多个标记。然而，最先进的分块 dLLM 依赖于“重新屏蔽”机制，该机制仅解码最有信心的令牌并丢弃其余令牌，从而有效地浪费了计算。我们证明，从丢弃的令牌中回收计算是有益的，因为这些令牌保留了对后续解码迭代有用的上下文信息。有鉴于此，我们提出了残差上下文扩散（RCD），该模块将这些丢弃的标记表示转换为上下文残差，并将它们注入回用于下一步去噪步骤。 RCD 使用解耦的两级训练管道来绕过与反向传播相关的内存瓶颈。我们在长 CoT 推理 (SDAR) 和短 CoT 指令跟踪 (LLaDA) 模型上验证了我们的方法。我们证明，只需约 10 亿个代币即可将标准 dLLM 有效转换为 RCD 范式。 RCD 在各种基准测试中以最小的额外计算开销持续将前沿 dLLM 的准确度提高了 5-10 个百分点。值得注意的是，在最具挑战性的 AIME 任务中，RCD 几乎使基线精度提高了一倍，并在同等精度水平下实现了多达 4-5 倍的降噪步骤。

† 加州大学伯克利分校

* 同等贡献

‡ 平等建议

自回归解码上下文丢弃扩散有益的 dLLM RCD 机制先进的相关的提高贡献 10 残差令牌最小的标记模型的计算开销有前途的反向传播训练准确度有用的基线精度百分点计算替代方案证明 CoT

残余上下文扩散语言模型

其他外部链接

Tags

XiaoMi-AI