详细内容或原文请订阅后点击阅览
使用 vLLM 和带有 AWS AI 芯片的 Amazon EC2 实例提供 LLM
在过去一年中,大型语言模型 (LLM) 和生成式 AI 的使用呈爆炸式增长。随着强大的公开基础模型的发布,用于训练、微调和托管您自己的 LLM 的工具也变得民主化。在 AWS Trainium 和 Inferentia 上使用 vLLM 可以托管 LLM 以实现高性能 [...]
来源:亚马逊云科技 _机器学习在过去一年中,大型语言模型 (LLM) 和生成式 AI 的使用呈爆炸式增长。随着强大的公开基础模型的发布,用于训练、微调和托管您自己的 LLM 的工具也变得民主化。在 AWS Trainium 和 Inferentia 上使用 vLLM 可以托管 LLM 以实现高性能推理和可扩展性。
vLLM Trainium Inferentia在本文中,我们将引导您了解如何在 Amazon Elastic Compute Cloud (Amazon EC2) Inf2 实例上使用 vLLM 快速部署 Meta 的最新 Llama 模型。对于此示例,我们将使用 1B 版本,但可以使用这些步骤以及其他流行的 LLM 部署其他大小。
Meta 的最新 Llama 模型 Amazon Elastic Compute Cloud (Amazon EC2) Inf2 实例在 AWS Trainium 和 Inferentia EC2 实例上部署 vLLM
在这些部分中,您将了解如何在 AWS Inferentia EC2 实例上使用 vLLM 部署 Meta 的最新 Llama 3.2 模型。您将了解如何请求访问模型、创建 Docker 容器以使用 vLLM 部署模型以及如何在模型上运行在线和离线推理。我们还将讨论如何调整推理图的性能。
先决条件:Hugging Face 帐户和模型访问权限
要使用 meta-llama/Llama-3.2-1B 模型,您需要一个 Hugging Face 帐户并有权访问该模型。请转到模型卡、注册并同意模型许可。然后,您将需要一个 Hugging Face 令牌,您可以按照以下步骤获取它。当您进入“保存您的访问令牌”屏幕时(如下图所示),请确保复制该令牌,因为它不会再次显示。
meta-llama/Llama-3.2-1B
模型卡
这些步骤
保存您的访问令牌
创建 EC2 实例
您可以按照指南创建 EC2 实例。需要注意的几点:
指南inf2.xlarge
inf2.xlarge
这些 AWS 区域