使用 Amazon EKS 和 vLLM 在 AWS Inferentia 上部署 Meta Llama 3.1-8B XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

使用 Amazon EKS 和 vLLM 在 AWS Inferentia 上部署 Meta Llama 3.1-8B

2024年11月26日 22:12 33 Comments

在本文中，我们将介绍使用 Amazon EKS 在 Inferentia 2 实例上部署 Meta Llama 3.1-8B 模型的步骤。此解决方案将 Inferentia 2 芯片的卓越性能和成本效益与 Amazon EKS 的强大和灵活的环境相结合。Inferentia 2 芯片提供高吞吐量和低延迟推理，非常适合 LLM。

来源:亚马逊云科技 _机器学习

随着 Meta Llama 3.1 等大型语言模型 (LLM) 的兴起，对可扩展、可靠且经济高效的解决方案的需求日益增长，以部署和提供这些模型。基于 AWS Trainium 和 AWS Inferentia 的实例与 Amazon Elastic Kubernetes Service (Amazon EKS) 相结合，可提供高性能且低成本的框架，以在容器化环境中高效运行 LLM。

AWS Trainium AWS Inferentia Amazon Elastic Kubernetes Service

在本文中，我们将介绍使用 Amazon EKS 在 Inferentia 2 实例上部署 Meta Llama 3.1-8B 模型的步骤。

Meta Llama 3.1-8B

解决方案概述

实施解决方案的步骤如下：

创建 EKS 集群。设置 Inferentia 2 节点组。安装 Neuron 设备插件和调度扩展。准备 Docker 映像。部署 Meta Llama 3.18B 模型。

创建 EKS 集群。

设置 Inferentia 2 节点组。

安装 Neuron 设备插件和调度扩展。

准备 Docker 映像。

部署 Meta Llama 3.18B 模型。

我们还演示了如何测试解决方案和监控性能，并讨论了扩展和多租户选项。

先决条件

开始之前，请确保您已在本地计算机或开发环境中安装以下实用程序。如果您尚未安装它们，请按照每个工具提供的说明进行操作。

在本文中，示例使用 inf2.48xlarge 实例；请确保您有足够的服务配额来使用此实例。有关如何查看和增加配额的更多信息，请参阅 Amazon EC2 服务配额。

inf2.48xlarge Amazon EC2 服务配额

创建 EKS 集群

如果您没有现有的 EKS 集群，则可以使用 eksctl 创建一个。调整以下配置以满足您的需求，例如 Amazon EKS 版本、集群名称和 AWS 区域。在运行以下命令之前，请确保您已向 AWS 进行身份验证：

eksctl 向 AWS 进行身份验证

然后完成以下步骤：

eks_cluster.yaml metadata.name my-cluster

Meta 创建集群 AWS 实例计算机 Llama 高性能先决条件设备运行扩展 EKS 确保您解决方案 Inferentia 使用开发环境配额安装实用程序提供 Amazon