使用 Amazon EKS 和 vLLM 在 AWS Inferentia 上部署 Meta Llama 3.1-8B

在本文中,我们将介绍使用 Amazon EKS 在 Inferentia 2 实例上部署 Meta Llama 3.1-8B 模型的步骤。此解决方案将 Inferentia 2 芯片的卓越性能和成本效益与 Amazon EKS 的强大和灵活的环境相结合。Inferentia 2 芯片提供高吞吐量和低延迟推理,非常适合 LLM。

来源:亚马逊云科技 _机器学习

随着 Meta Llama 3.1 等大型语言模型 (LLM) 的兴起,对可扩展、可靠且经济高效的解决方案的需求日益增长,以部署和提供这些模型。基于 AWS Trainium 和 AWS Inferentia 的实例与 Amazon Elastic Kubernetes Service (Amazon EKS) 相结合,可提供高性能且低成本的框架,以在容器化环境中高效运行 LLM。

AWS Trainium AWS Inferentia Amazon Elastic Kubernetes Service

在本文中,我们将介绍使用 Amazon EKS 在 Inferentia 2 实例上部署 Meta Llama 3.1-8B 模型的步骤。

Meta Llama 3.1-8B

解决方案概述

实施解决方案的步骤如下:

    创建 EKS 集群。设置 Inferentia 2 节点组。安装 Neuron 设备插件和调度扩展。准备 Docker 映像。部署 Meta Llama 3.18B 模型。
  • 创建 EKS 集群。
  • 设置 Inferentia 2 节点组。
  • 安装 Neuron 设备插件和调度扩展。
  • 准备 Docker 映像。
  • 部署 Meta Llama 3.18B 模型。
  • 我们还演示了如何测试解决方案和监控性能,并讨论了扩展和多租户选项。

    先决条件

    开始之前,请确保您已在本地计算机或开发环境中安装以下实用程序。如果您尚未安装它们,请按照每个工具提供的说明进行操作。

    在本文中,示例使用 inf2.48xlarge 实例;请确保您有足够的服务配额来使用此实例。有关如何查看和增加配额的更多信息,请参阅 Amazon EC2 服务配额。

    inf2.48xlarge Amazon EC2 服务配额

    创建 EKS 集群

    如果您没有现有的 EKS 集群,则可以使用 eksctl 创建一个。调整以下配置以满足您的需求,例如 Amazon EKS 版本、集群名称和 AWS 区域。在运行以下命令之前,请确保您已向 AWS 进行身份验证:

    eksctl 向 AWS 进行身份验证

    然后完成以下步骤:

    eks_cluster.yaml metadata.name my-cluster