Accelerating decode-heavy LLM inference with speculative decoding on AWS Trainium and vLLM
在本文中,您将了解推测性解码的工作原理以及它为何有助于降低 AWS Trainium2 上每个生成令牌的成本。
P-EAGLE: Faster LLM inference with Parallel Speculative Decoding in vLLM
在这篇文章中,我们将解释 P-EAGLE 的工作原理、如何将其集成到从 v0.16.0 (PR#32887) 开始的 vLLM 中,以及如何通过预先训练的检查点为其提供服务。