详细内容或原文请订阅后点击阅览
在 Amazon SageMaker AI 上使用 P-EAGLE 并行化推测解码
本文将引导您了解如何直接在 Amazon SageMaker AI 中使用 P-EAGLE。它将演示如何从 SageMaker JumpStart 目录中选择兼容模型、配置并行绘图规范以及部署高度优化的实时 SageMaker AI 端点以加速您的生成式 AI 应用程序。
来源:亚马逊云科技 _机器学习随着大型语言模型 (LLM) 的规模和复杂性不断增长,最大化推理吞吐量同时最小化延迟仍然是企业生产部署的关键挑战。推测性解码是解决此问题的一种有效策略,它利用轻量级草案模型来猜测未来的标记,然后由目标 LLM 在单次前向传递中进行验证。虽然像提高语言模型效率的外推算法 (EAGLE) 这样的最先进的框架已经实现了令人印象深刻的加速,但它们遇到了隐藏的架构天花板:它们的草稿令牌是自回归生成的。由于每个草稿令牌都取决于前一个草稿令牌的输出,因此生成 K 个候选者需要 K 个顺序前向传递通过草稿头,从而产生随推测深度线性增长的延迟成本。最新的迭代 EAGLE-3 在早期版本的基础上进行了改进,通过直接预测标记而不是特征,并结合目标模型多层的表示,提高草稿准确性并允许该方法从更大的训练数据集中受益。然而,即使取得了这些成果,基本的顺序起草限制仍然存在。您推测得越深,积累的起草开销就越多,最终会影响您的性能收益。
今天,Amazon SageMaker JumpStart 现在原生支持 P-EAGLE 的一系列流行基础模型。 SageMaker JumpStart 提供了一个精选的最先进的开放式模型中心,只需单击一下或几行代码即可进行部署。通过将 P-EAGLE 的模型优化与 Amazon SageMaker AI 的完全托管环境相结合,开发人员现在可以部署 P-EAGLE 加速的推理终端节点,其速度比 EAGLE-3 快 1.69 倍,而无需管理复杂的底层 CUDA 内核或分布式服务设置。
