详细内容或原文请订阅后点击阅览
使用 Amazon EKS 和 vLLM 在 AWS Inferentia 上部署 Meta Llama 3.1-8B
在本文中,我们将介绍使用 Amazon EKS 在 Inferentia 2 实例上部署 Meta Llama 3.1-8B 模型的步骤。此解决方案将 Inferentia 2 芯片的卓越性能和成本效益与 Amazon EKS 的强大和灵活的环境相结合。Inferentia 2 芯片提供高吞吐量和低延迟推理,非常适合 LLM。
来源:亚马逊云科技 _机器学习随着 Meta Llama 3.1 等大型语言模型 (LLM) 的兴起,对可扩展、可靠且经济高效的解决方案的需求日益增长,以部署和提供这些模型。基于 AWS Trainium 和 AWS Inferentia 的实例与 Amazon Elastic Kubernetes Service (Amazon EKS) 相结合,可提供高性能且低成本的框架,以在容器化环境中高效运行 LLM。
AWS Trainium AWS Inferentia Amazon Elastic Kubernetes Service在本文中,我们将介绍使用 Amazon EKS 在 Inferentia 2 实例上部署 Meta Llama 3.1-8B 模型的步骤。
Meta Llama 3.1-8B解决方案概述
实施解决方案的步骤如下:
- 创建 EKS 集群。设置 Inferentia 2 节点组。安装 Neuron 设备插件和调度扩展。准备 Docker 映像。部署 Meta Llama 3.18B 模型。
我们还演示了如何测试解决方案和监控性能,并讨论了扩展和多租户选项。
先决条件
开始之前,请确保您已在本地计算机或开发环境中安装以下实用程序。如果您尚未安装它们,请按照每个工具提供的说明进行操作。
在本文中,示例使用 inf2.48xlarge 实例;请确保您有足够的服务配额来使用此实例。有关如何查看和增加配额的更多信息,请参阅 Amazon EC2 服务配额。
inf2.48xlarge
Amazon EC2 服务配额
创建 EKS 集群
如果您没有现有的 EKS 集群,则可以使用 eksctl 创建一个。调整以下配置以满足您的需求,例如 Amazon EKS 版本、集群名称和 AWS 区域。在运行以下命令之前,请确保您已向 AWS 进行身份验证:
eksctl
向 AWS 进行身份验证
然后完成以下步骤:
eks_cluster.yaml
metadata.name
my-cluster