详细内容或原文请订阅后点击阅览
使用安全的公共 API 在本地运行 vLLM 模型
使用 vLLM 在本地运行 LLM,并使用 Clarifai Local Runners 通过安全的公共 API 公开它们。
来源:Clarifai博客 | 实际应用中的人工智能简介
vLLM 是用于大型语言模型 (LLM) 的高吞吐量、开源推理和服务引擎。它使用 PagedAttention 和连续批处理等 GPU 优化提供快速、内存高效的推理,使其适合基于 GPU 的工作负载。
vLLM在本教程中,我们将展示如何完全在本地计算机上使用 vLLM 运行 LLM,并通过安全的公共 API 公开它们。这种方法使您可以通过 GPU 加速运行模型,保持本地执行速度,并完全控制您的环境,而无需依赖云服务或互联网连接。
Clarifai Local Runners 使这个过程变得简单。您可以通过安全的公共 API 直接从笔记本电脑、工作站或内部服务器为 AI 模型或代理提供服务。您不需要上传模型或管理基础设施。 Local Runner 将 API 请求路由到您的计算机,在本地执行它们,并将结果返回给客户端,而所有计算都保留在您的硬件上。
本地跑步者让我们看看如何设置。
通过 vLLM 本地运行模型
Clarifai CLI 中的 vLLM 工具包允许您在本地通过 vLLM 初始化、配置和运行模型,同时通过安全的公共 API 公开它们。您可以直接从您的计算机进行测试、集成和迭代,而无需建立任何基础设施。
第 1 步:先决条件
安装 Clarifai CLI
vLLM 支持来自 Hugging Face Hub 的模型。如果您使用私人存储库,则需要 Hugging Face 访问令牌。
第 2 步:初始化模型
使用 Clarifai CLI 构建基于 vLLM 的模型目录。这将准备本地执行和与 Clarifai 集成所需的所有文件。
如果您想使用特定模型,请使用 --model-name 标志:
--型号名称
注意:某些模型很大并且需要大量内存。确保您的机器满足型号的要求。
注意:初始化后,生成的文件夹结构如下所示:
模型.py config.yaml 需求.txt