镜像推测解码:打破 LLM 推理中的串行障碍

推测性解码通过使用草稿模型进行预测来加速 LLM 推理,但收益受到自回归草稿生成成本的限制:增加草稿大小会提高接受率,但会引入额外的延迟开销,从而加剧速度与准确性的权衡。先前的方法(Medusa、Hydra、EAGLE)部分降低了草稿成本,但要么降低了接受度,要么引入了限制扩展的开销。我们提出了镜像推测解码(Mirror-SD),这是一种打破延迟与接受权衡的推理算法。 Mirror-SD 从...启动分支完整部署

来源:Apple机器学习研究

推测性解码通过使用草稿模型进行预测来加速 LLM 推理,但收益受到自回归草稿生成成本的限制:增加草稿大小会提高接受率,但会引入额外的延迟开销,从而加剧速度与准确性的权衡。先前的方法(Medusa、Hydra、EAGLE)部分降低了草稿成本,但要么降低了接受度,要么引入了限制扩展的开销。我们提出了镜像推测解码(Mirror-SD),这是一种打破延迟与接受权衡的推理算法。 Mirror-SD 从早期退出信号与目标模型的后缀并行启动分支完整部署,并显式映射跨异构加速器(GPU 和 NPU)的计算以利用跨设备并行性。草案推测目标要验证的前向延续,而目标同时推测草案的纠正路径,将推测转换为两个互补的执行管道。为了进一步减少草稿延迟而不削弱接受语义,我们添加了推测流,以便草稿每一步发出多个令牌。这种并行异构执行加上多令牌推测流的双重策略将推测解码推向其高接受度和低开销的理想状态。在具有从 14B 到 66B 参数的服务器规模模型的 SpecBench 上,Mirror-SD 提供一致的端到端增益,在不同任务中实现 2.8 倍至 5.8 倍的墙时间加速,并且比最强基线 EAGLE3 平均相对改进 30%。