使用安全的公共 API 在本地运行 vLLM 模型

使用 vLLM 在本地运行 LLM,并使用 Clarifai Local Runners 通过安全的公共 API 公开它们。

来源:Clarifai博客 | 实际应用中的人工智能

简介

vLLM 是用于大型语言模型 (LLM) 的高吞吐量、开源推理和服务引擎。它使用 PagedAttention 和连续批处理等 GPU 优化提供快速、内存高效的推理,使其适合基于 GPU 的工作负载。

vLLM

在本教程中,我们将展示如何完全在本地计算机上使用 vLLM 运行 LLM,并通过安全的公共 API 公开它们。这种方法使您可以通过 GPU 加速运行模型,保持本地执行速度,并完全控制您的环境,而无需依赖云服务或互联网连接。

Clarifai Local Runners 使这个过程变得简单。您可以通过安全的公共 API 直接从笔记本电脑、工作站或内部服务器为 AI 模型或代理提供服务。您不需要上传模型或管理基础设施。 Local Runner 将 API 请求路由到您的计算机,在本地执行它们,并将结果返回给客户端,而所有计算都保留在您的硬件上。

本地跑步者

让我们看看如何设置。

通过 vLLM 本地运行模型

Clarifai CLI 中的 vLLM 工具包允许您在本地通过 vLLM 初始化、配置和运行模型,同时通过安全的公共 API 公开它们。您可以直接从您的计算机进行测试、集成和迭代,而无需建立任何基础设施。

第 1 步:先决条件

安装 Clarifai CLI

vLLM 支持来自 Hugging Face Hub 的模型。如果您使用私人存储库,则需要 Hugging Face 访问令牌。

第 2 步:初始化模型

使用 Clarifai CLI 构建基于 vLLM 的模型目录。这将准备本地执行和与 Clarifai 集成所需的所有文件。

如果您想使用特定模型,请使用 --model-name 标志:

--型号名称

注意:某些模型很大并且需要大量内存。确保您的机器满足型号的要求。

注意:

初始化后,生成的文件夹结构如下所示:

模型.py config.yaml 需求.txt

第 3 步:自定义 model.py