在 Amazon SageMaker AI 上使用 P-EAGLE 并行化推测解码 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

在 Amazon SageMaker AI 上使用 P-EAGLE 并行化推测解码

2026年6月16日 17:47 33 Comments

本文将引导您了解如何直接在 Amazon SageMaker AI 中使用 P-EAGLE。它将演示如何从 SageMaker JumpStart 目录中选择兼容模型、配置并行绘图规范以及部署高度优化的实时 SageMaker AI 端点以加速您的生成式 AI 应用程序。

来源:亚马逊云科技 _机器学习

随着大型语言模型 (LLM) 的规模和复杂性不断增长，最大化推理吞吐量同时最小化延迟仍然是企业生产部署的关键挑战。推测性解码是解决此问题的一种有效策略，它利用轻量级草案模型来猜测未来的标记，然后由目标 LLM 在单次前向传递中进行验证。虽然像提高语言模型效率的外推算法 (EAGLE) 这样的最先进的框架已经实现了令人印象深刻的加速，但它们遇到了隐藏的架构天花板：它们的草稿令牌是自回归生成的。由于每个草稿令牌都取决于前一个草稿令牌的输出，因此生成 K 个候选者需要 K 个顺序前向传递通过草稿头，从而产生随推测深度线性增长的延迟成本。最新的迭代 EAGLE-3 在早期版本的基础上进行了改进，通过直接预测标记而不是特征，并结合目标模型多层的表示，提高草稿准确性并允许该方法从更大的训练数据集中受益。然而，即使取得了这些成果，基本的顺序起草限制仍然存在。您推测得越深，积累的起草开销就越多，最终会影响您的性能收益。

今天，Amazon SageMaker JumpStart 现在原生支持 P-EAGLE 的一系列流行基础模型。 SageMaker JumpStart 提供了一个精选的最先进的开放式模型中心，只需单击一下或几行代码即可进行部署。通过将 P-EAGLE 的模型优化与 Amazon SageMaker AI 的完全托管环境相结合，开发人员现在可以部署 P-EAGLE 加速的推理终端节点，其速度比 EAGLE-3 快 1.69 倍，而无需管理复杂的底层 CUDA 内核或分布式服务设置。

基准

HumanEval：每秒输出令牌总数

SPEED-Bench 代码：每秒输出令牌总数

实时推理比较

推算法基本的 EAGLE 复杂的吞吐量延迟成本 LLM 先进的提高模型增长的多层的仍然是性能收益加速的部署起草最新的数据集一系列未来的推理天花板最小化积累的最大化开发人员速度比 JumpStart 推测令牌标记输出准确性复杂性 Amazon 端节点进行 SageMaker 草稿隐藏的开放式自回归分布式目标模型