详细内容或原文请订阅后点击阅览
使用新的推理优化工具包,在 Amazon SageMaker 上实现高达约 2 倍的吞吐量,同时将成本降低约 50% - 第 2 部分
随着生成式人工智能 (AI) 推理对企业越来越重要,客户正在寻求扩展其生成式 AI 操作或将生成式 AI 模型集成到现有工作流程中的方法。模型优化已成为一个关键步骤,使组织能够平衡成本效益和响应能力,从而提高生产力。但是,性价比要求在不同用例之间差异很大。对于 [...]
来源:亚马逊云科技 _机器学习随着生成式人工智能 (AI) 推理对企业越来越重要,客户正在寻求扩展其生成式 AI 操作或将生成式 AI 模型集成到现有工作流程中的方法。模型优化已成为一个关键步骤,使组织能够平衡成本效益和响应能力,从而提高生产力。但是,性价比要求在不同用例之间差异很大。对于聊天应用程序,最小化延迟是提供交互式体验的关键,而实时应用程序(如推荐)则需要最大化吞吐量。权衡这些利弊对于快速采用生成式 AI 提出了重大挑战,因为您必须仔细选择和评估不同的优化技术。
为了克服这些挑战,我们很高兴推出推理优化工具包,这是 Amazon SageMaker 中完全托管的模型优化功能。这项新功能可将生成式 AI 模型(如 Llama 3、Mistral 和 Mixtral 模型)的吞吐量提高约 2 倍,同时将成本降低约 50%。例如,使用 Llama 3-70B 模型,您可以在 ml.p5.48xlarge 实例上实现高达约 2400 个令牌/秒,而之前未经任何优化时则约为 1200 个令牌/秒。
Amazon SageMaker 编译 量化 推测解码 AWS Inferentia 使用 Amazon SageMaker 优化模型推理 使用新的推理优化工具包在 Amazon SageMaker 上实现高达约 2 倍的吞吐量,同时将成本降低高达约 50% - 第 1 部分 Amazon SageMaker JumpStart Amazon SageMaker Python SDK 笔记本 使用 Amazon SageMaker 优化模型推理在 SageMaker JumpStart 中使用预优化模型
以 SageMaker JumpStart 中的 Meta-Llama-3-8b 模型为例,您可以从模型页面中选择部署。在部署配置中,可以展开模型配置选项,选择并发用户数,部署优化后的模型。
部署ModelBuilder