详细内容或原文请订阅后点击阅览
使用新的推理优化工具包,在 Amazon SageMaker 上实现高达约 2 倍的吞吐量,同时将成本降低约 50% - 第 1 部分
今天,Amazon SageMaker 宣布了一款新的推理优化工具包,可帮助您将优化生成式人工智能 (AI) 模型所需的时间从数月缩短到数小时,从而为您的用例实现一流的性能。借助这项新功能,您可以从优化技术菜单中进行选择,将它们应用于您的生成式 AI [...]
来源:亚马逊云科技 _机器学习今天,Amazon SageMaker 宣布推出一款新的推理优化工具包,可帮助您将优化生成式人工智能 (AI) 模型所需的时间从数月缩短至数小时,从而为您的用例实现一流的性能。借助这项新功能,您可以从优化技术菜单中进行选择,将它们应用于您的生成式 AI 模型,验证性能改进,并只需单击几下即可部署模型。
Amazon SageMaker通过采用推测解码、量化和编译等技术,Amazon SageMaker 的新推理优化工具包可将吞吐量提高约 2 倍,同时将 Llama 3、Mistral 和 Mixtral 等生成式 AI 模型的成本降低约 50%。例如,使用 Llama 3-70B 模型,您可以在 ml.p5.48xlarge 实例上实现高达约 2400 个令牌/秒,而之前未经任何优化时约为 1200 个令牌/秒。此外,推理优化工具包显著降低了应用最新优化技术的工程成本,因为您无需在部署之前分配开发人员资源和时间进行研究、实验和基准测试。您现在可以专注于您的业务目标,而不是优化模型所涉及的繁重工作。
在本文中,我们讨论了这个新工具包的好处及其解锁的用例。
推理优化工具包的好处
“大型语言模型 (LLM) 需要昂贵的基于 GPU 的实例进行托管,因此大幅降低成本非常有价值。使用 Amazon SageMaker 的新推理优化工具包,根据我们的实验,我们预计可以将自托管 LLM 的部署成本降低约 30%,并将最多 8 个并发请求的延迟降低高达 25%”,Qualtrics 机器学习工程师 FNU Imran 说。
Amazon SageMaker JumpStart Amazon SageMaker Studio Amazon SageMaker Python SDK