Amazon SageMaker AI 现在支持优化的生成式 AI 推理建议

如今,Amazon SageMaker AI 支持优化的生成式 AI 推理建议。通过提供经过验证的、具有性能指标的最佳部署配置,Amazon SageMaker AI 让您的模型开发人员专注于构建准确的模型,而不是管理基础设施。

来源:亚马逊云科技 _机器学习

组织正在竞相将生成式人工智能模型部署到生产中,以支持智能助手、代码生成工具、内容引擎和面向客户的应用程序。但将这些模型部署到生产中仍然需要花费数周的时间来调整 GPU 配置、优化技术和手动基准测试,从而延迟了这些模型要交付的价值。

如今,Amazon SageMaker AI 支持优化的生成式 AI 推理建议。通过提供经过验证的、具有性能指标的最佳部署配置,Amazon SageMaker AI 让您的模型开发人员专注于构建准确的模型,而不是管理基础设施。

我们评估了多种基准测试工具并选择了 NVIDIA AIPerf(NVIDIA Dynamo 的模块化组件),因为它提供了详细、一致的指标并支持开箱即用的各种工作负载。它的 CLI、并发控制和数据集选项使我们能够灵活地快速迭代并以最少的设置跨不同场景进行测试。

“通过将开源 NVIDIA Dynamo 分布式推理框架的模块化组件直接集成到 Amazon SageMaker AI 中,AWS 使企业能够更轻松、充满信心地部署生成式 AI 模型。AWS 通过深度合作和技术贡献,在推动 AIPerf 的发展方面发挥了重要作用。NVIDIA AIPerf 的集成展示了标准化基准测试如何能够消除数周的手动测试,并向最终用户提供经过验证的、可部署的配置。”

– Eliuth Triana,NVIDIA 开发者关系经理。

挑战:从模型到生产需要数周时间

图 1:团队在将生成式 AI 模型部署到生产中时面临的三个核心挑战

优化的生成式 AI 推理建议如何工作

第一阶段:缩小配置空间

第 2 阶段:应用目标一致的优化

  • 对于延迟目标,它调整计算内核以减少每个令牌的处理时间,从而缩短第一个令牌的时间。
  • 定价