详细内容或原文请订阅后点击阅览
残余上下文扩散语言模型
扩散大型语言模型 (dLLM) 已成为纯自回归语言模型的有前途的替代方案,因为它们可以并行解码多个标记。然而,最先进的分块 dLLM 依赖于“重新屏蔽”机制,该机制仅解码最有信心的令牌并丢弃其余令牌,从而有效地浪费了计算。我们证明,从丢弃的令牌中回收计算是有益的,因为这些令牌保留了对后续解码迭代有用的上下文信息。有鉴于此,我们提出了残余上下文扩散(RCD),该模块......
来源:Apple机器学习研究扩散大型语言模型 (dLLM) 已成为纯自回归语言模型的有前途的替代方案,因为它们可以并行解码多个标记。然而,最先进的分块 dLLM 依赖于“重新屏蔽”机制,该机制仅解码最有信心的令牌并丢弃其余令牌,从而有效地浪费了计算。我们证明,从丢弃的令牌中回收计算是有益的,因为这些令牌保留了对后续解码迭代有用的上下文信息。有鉴于此,我们提出了残差上下文扩散(RCD),该模块将这些丢弃的标记表示转换为上下文残差,并将它们注入回用于下一步去噪步骤。 RCD 使用解耦的两级训练管道来绕过与反向传播相关的内存瓶颈。我们在长 CoT 推理 (SDAR) 和短 CoT 指令跟踪 (LLaDA) 模型上验证了我们的方法。我们证明,只需约 10 亿个代币即可将标准 dLLM 有效转换为 RCD 范式。 RCD 在各种基准测试中以最小的额外计算开销持续将前沿 dLLM 的准确度提高了 5-10 个百分点。值得注意的是,在最具挑战性的 AIME 任务中,RCD 几乎使基线精度提高了一倍,并在同等精度水平下实现了多达 4-5 倍的降噪步骤。
