使用AWS Graviton和Amazon Sagemaker AI

在这篇文章中,我们通过将预建的容器扩展到与AWS Graviton实例兼容,演示了如何在Sagemaker AI上部署小语言模型。我们首先提供解决方案的概述,然后提供详细的实施步骤以帮助您入门。您可以在GitHub存储库中找到示例笔记本。

来源:亚马逊云科技 _机器学习
随着组织希望将AI功能纳入其应用程序,大型语言模型(LLMS)已成为自然语言处理任务的强大工具。 Amazon Sagemaker AI提供了一项完全管理的服务,用于部署这些机器学习(ML)模型,该模型具有多个推理选项,从而使组织可以优化成本,延迟和吞吐量。 AWS一直为客户提供选择。其中包括模型选择,硬件选择和工具选择。在硬件选择方面,除了NVIDIA GPU和AWS自定义AI芯片外,基于CPU的实例代表了(由于CPU硬件中的最新创新),对于想要运行生成AI推断的客户,例如托管小型语言模型和数十亿个参数的客户都需要大量的计算资源。例如,在BFLOAT16处的70亿参数模型(例如Meta Llama 7b)(每个参数2个字节)通常需要大约14 GB的GPU存储器来存储模型权重 - 总GPU存储器的需求通常是长序列长度的3-4倍。但是,模型量化和知识蒸馏方面的最新发展使得在CPU基础架构上运行较小,有效的语言模型成为可能。尽管这些模型可能不符合最大的LLM的功能,但它们为许多现实世界应用提供了一种实用的选择,而成本优化至关重要。在这篇文章中,我们演示了如何通过扩展我们的预构建的容器与AWS Graviton Instances兼容的SageMaker AI上的小语言模型。我们首先提供解决方案的概述,然后提供详细的实施步骤以帮助您入门。您可以在github repo.solution概述解决方案中找到示例笔记本,使用sagemaker ai和graviton3处理器来运行小语言模型的成本效益。关键组件包括:SageMaker AI托管了mod