详细内容或原文请订阅后点击阅览
P-EAGLE:通过 vLLM 中的并行推测解码实现更快的 LLM 推理
在这篇文章中,我们将解释 P-EAGLE 的工作原理、如何将其集成到从 v0.16.0 (PR#32887) 开始的 vLLM 中,以及如何通过预先训练的检查点为其提供服务。
来源:亚马逊云科技 _机器学习EAGLE 是大型语言模型 (LLM) 推理中推测性解码的最先进方法,但其自回归起草产生了一个隐藏的瓶颈:您推测的标记越多,起草者需要的顺序前向传递就越多。最终这些开销会侵蚀你的收益。 P-EAGLE 通过在一次前向传递中生成所有 K 个草案令牌来消除这一上限,在 NVIDIA B200 上的实际工作负载上比普通 EAGLE-3 提供高达 1.69 倍的加速。
您可以通过下载(或训练)具有并行功能的绘图头并在 vLLM 服务管道上添加“parallel_drafting”: true 来解锁此性能增益。 HuggingFace 上已提供适用于 GPT-OSS 120B、GPT-OSS 20B 和 Qwen3-Coder 30B 的预训练 P-EAGLE 头,因此您可以立即开始。
在这篇文章中,我们将解释 P-EAGLE 的工作原理、如何将其集成到从 v0.16.0 (PR#32887) 开始的 vLLM 中,以及如何通过预先训练的检查点为其提供服务。以下是使用的工件列表:
图 1:P-EAGLE 在 SPEED-BENCH 上与其他方法相比,在一张 NVIDIA B200 卡上的并发性为 1。
快速入门 P-EAGLE:
您可以通过 SpeculativeConfig 类中的单个配置更改来启用并行绘图:
# vllm/config/speculative.py
parallel_drafting: bool = True
以下是 vLLM 中的示例命令,用于启用使用 P-EAGLE 作为绘图器的并行绘图:
vllm 服务 openai/gpt-oss-20b \
--speculative-config '{"method": "eagle3", "model": "amazon/gpt-oss-20b-p-eagle", "num_speculative_tokens": 5, "parallel_drafting": true}'
EAGLE 的绘图瓶颈
我们的方法:Parallel-EAGLE (P-EAGLE)
