详细内容或原文请订阅后点击阅览

P-EAGLE：通过 vLLM 中的并行推测解码实现更快的 LLM 推理

2026年3月13日 19:27 33 Comments

在这篇文章中，我们将解释 P-EAGLE 的工作原理、如何将其集成到从 v0.16.0 (PR#32887) 开始的 vLLM 中，以及如何通过预先训练的检查点为其提供服务。

来源:亚马逊云科技 _机器学习

EAGLE 是大型语言模型 (LLM) 推理中推测性解码的最先进方法，但其自回归起草产生了一个隐藏的瓶颈：您推测的标记越多，起草者需要的顺序前向传递就越多。最终这些开销会侵蚀你的收益。 P-EAGLE 通过在一次前向传递中生成所有 K 个草案令牌来消除这一上限，在 NVIDIA B200 上的实际工作负载上比普通 EAGLE-3 提供高达 1.69 倍的加速。

您可以通过下载（或训练）具有并行功能的绘图头并在 vLLM 服务管道上添加“parallel_drafting”: true 来解锁此性能增益。 HuggingFace 上已提供适用于 GPT-OSS 120B、GPT-OSS 20B 和 Qwen3-Coder 30B 的预训练 P-EAGLE 头，因此您可以立即开始。

在这篇文章中，我们将解释 P-EAGLE 的工作原理、如何将其集成到从 v0.16.0 (PR#32887) 开始的 vLLM 中，以及如何通过预先训练的检查点为其提供服务。以下是使用的工件列表：

图 1：P-EAGLE 在 SPEED-BENCH 上与其他方法相比，在一张 NVIDIA B200 卡上的并发性为 1。

快速入门 P-EAGLE：

您可以通过 SpeculativeConfig 类中的单个配置更改来启用并行绘图：

# vllm/config/speculative.py

parallel_drafting: bool = True

以下是 vLLM 中的示例命令，用于启用使用 P-EAGLE 作为绘图器的并行绘图：

vllm 服务 openai/gpt-oss-20b \

--speculative-config '{"method": "eagle3", "model": "amazon/gpt-oss-20b-p-eagle", "num_speculative_tokens": 5, "parallel_drafting": true}'

EAGLE 的绘图瓶颈

我们的方法：Parallel-EAGLE (P-EAGLE)

我们提出了 P-EAGLE，它将 EAGLE 从自回归转变为并行草稿生成。在 B200 GPU 上，P-EAGLE 在 GPT-OSS 20B 上通过 MT-Bench、HumanEval 和 SpeedBench 实现了比普通 EAGLE-3 1.05×–1.69× 的加速。它现已集成到 vLLM 中以解锁并行推测解码，并准备好加速现实世界的部署。

图 2：P-EAGLE 架构概述。在长序列上训练 P-EAGLE结论

绘图器检查点 " 普通 speculative 绘图工作原理功能的 OSS 开始的服务需要的 vLLM EAGLE 隐藏的并发性世界的方法 drafting 使用的启用 B200 工作负载 GPT 自回归训练的并行解码侵蚀推测消除

P-EAGLE：通过 vLLM 中的并行推测解码实现更快的 LLM 推理

快速入门 P-EAGLE：

vllm 服务 openai/gpt-oss-20b \

--speculative-config '{"method": "eagle3", "model": "amazon/gpt-oss-20b-p-eagle", "num_speculative_tokens": 5, "parallel_drafting": true}'

图 2：P-EAGLE 架构概述。在长序列上训练 P-EAGLE结论

其他外部链接

Tags

XiaoMi-AI