使用Amazon SageMaker AI推理组件优化Salesforce的模型端点

在这篇文章中,我们分享了Salesforce AI平台团队如何优化GPU利用率,提高了资源效率并使用Amazon SageMaker AI,特别是推理组件来节省成本。

来源:亚马逊云科技 _机器学习
这篇文章是Salesforce和AWS之间的共同合作,在Salesforce Engineering Blog和AWS机器学习博客上都在交叉发布。SalesforceAI平台模型服务团队致力于开发和管理为大型语言模型(LLMS)和Salessforce中的其他AI Workloads提供动力的服务。他们的主要重点是登机模型,为客户提供强大的基础架构,以托管各种ML模型。他们的任务是简化模型部署,增强推理性能并优化成本效率,确保无缝集成到代理Force和其他需要推理的应用程序中。他们致力于通过集成最先进的解决方案并与领先的技术提供商合作,包括开源社区和云服务(例如Amazon Web Services(AWS)),并将其构建为统一的AI平台,从而提高了模型推理性能和整体效率。这有助于确保Salesforce客户在优化服务基础架构的成本绩效的同时获得最先进的AI技术。在这篇文章中,我们如何分享Salesforce AI平台团队如何优化GPU利用率,提高资源效率,并通过使用Amazon Sagemaker AI进行挑战,以实现挑战的挑战:优化的挑战,以实现挑战。对于各种规模的组织来说,有效,可靠和成本效益是一个关键的挑战。 Salesforce AI平台团队负责在SageMaker AI上部署其专有LLM,例如Codegen和XGEN,并优化推断。 Salesforce有多个模型分布在单个模型端点(SME)之间,支持从几千兆字节(GB)到30 GB的各种型号尺寸,每个型号都有独特的性能要求和基础设施要求。