P-EAGLE:通过 vLLM 中的并行推测解码实现更快的 LLM 推理

在这篇文章中,我们将解释 P-EAGLE 的工作原理、如何将其集成到从 v0.16.0 (PR#32887) 开始的 vLLM 中,以及如何通过预先训练的检查点为其提供服务。

来源:亚马逊云科技 _机器学习

EAGLE 是大型语言模型 (LLM) 推理中推测性解码的最先进方法,但其自回归起草产生了一个隐藏的瓶颈:您推测的标记越多,起草者需要的顺序前向传递就越多。最终这些开销会侵蚀你的收益。 P-EAGLE 通过在一次前向传递中生成所有 K 个草案令牌来消除这一上限,在 NVIDIA B200 上的实际工作负载上比普通 EAGLE-3 提供高达 1.69 倍的加速。

您可以通过下载(或训练)具有并行功能的绘图头并在 vLLM 服务管道上添加“parallel_drafting”: true 来解锁此性能增益。 HuggingFace 上已提供适用于 GPT-OSS 120B、GPT-OSS 20B 和 Qwen3-Coder 30B 的预训练 P-EAGLE 头,因此您可以立即开始。

在这篇文章中,我们将解释 P-EAGLE 的工作原理、如何将其集成到从 v0.16.0 (PR#32887) 开始的 vLLM 中,以及如何通过预先训练的检查点为其提供服务。以下是使用的工件列表:

图 1:P-EAGLE 在 SPEED-BENCH 上与其他方法相比,在一张 NVIDIA B200 卡上的并发性为 1。

快速入门 P-EAGLE:

您可以通过 SpeculativeConfig 类中的单个配置更改来启用并行绘图:

# vllm/config/speculative.py

parallel_drafting: bool = True

以下是 vLLM 中的示例命令,用于启用使用 P-EAGLE 作为绘图器的并行绘图:

vllm 服务 openai/gpt-oss-20b \

--speculative-config '{"method": "eagle3", "model": "amazon/gpt-oss-20b-p-eagle", "num_speculative_tokens": 5, "parallel_drafting": true}'

EAGLE 的绘图瓶颈

我们的方法:Parallel-EAGLE (P-EAGLE)

我们提出了 P-EAGLE,它将 EAGLE 从自回归转变为并行草稿生成。在 B200 GPU 上,P-EAGLE 在 GPT-OSS 20B 上通过 MT-Bench、HumanEval 和 SpeedBench 实现了比普通 EAGLE-3 1.05×–1.69× 的加速。它现已集成到 vLLM 中以解锁并行推测解码,并准备好加速现实世界的部署。

图 2:P-EAGLE 架构概述。在长序列上训练 P-EAGLE结论