Amazon SageMaker 推出了用于生成式 AI 的更新推理优化工具包

今天,Amazon SageMaker 很高兴宣布对推理优化工具包进行更新,提供新功能和增强功能,以帮助您更快地优化生成式 AI 模型。在这篇文章中,我们将更详细地讨论该工具包的这些新功能。

来源:亚马逊云科技 _机器学习

今天,Amazon SageMaker 很高兴宣布对推理优化工具包进行更新,提供新功能和增强功能,以帮助您更快地优化生成式 AI 模型。这些更新基于推理优化工具包最初发布时引入的功能(要了解更多信息,请参阅使用新的推理优化工具包在 Amazon SageMaker 上实现高达约 2 倍的吞吐量,同时将成本降低约 50% - 第 1 部分)。

Amazon SageMaker 推理优化工具包 使用新的推理优化工具包,在 Amazon SageMaker 上实现高达约 2 倍的吞吐量,同时将成本降低约 50% - 第 1 部分

以下是推理优化工具包的主要新增功能:

    Meta Llama 3.1 模型的推测解码支持 - 该工具包现在支持最新 Meta Llama 3.1 70B 和 405B (FP8) 文本模型的推测解码,让您能够加速推理过程。支持 FP8 量化 - 该工具包已更新,可启用 FP8(8 位浮点)量化,帮助您进一步优化模型大小和 GPU 的推理延迟。与 FP32(32 位浮点)相比,FP8 在深度学习模型推理方面具有多项优势,包括减少内存使用量、加快计算速度、降低功耗以及更广泛的适用性,因为 FP8 量化可以应用于关键模型组件,如 KV 缓存、注意力和 MLP 线性层。TensorRT-LLM 的编译支持 - 您现在可以使用该工具包的编译功能将您的生成式 AI 模型与 NVIDIA 的 TensorRT-LLM 集成,通过使用提前编译优化模型来提供增强的性能。您可以减少模型的部署时间和自动扩展延迟,因为当模型部署到新实例时,模型权重不需要即时编译。
Meta Llama 3.1 模型的推测解码支持 支持 FP8 量化 笔记本