如何在单个服务器上使用Llama-SWAP在本地运行多个LLM XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

如何在单个服务器上使用Llama-SWAP在本地运行多个LLM

2025年8月27日 12:00 33 Comments

每次您要测试某些东西时都厌倦了启动/停止不同的模型？让美洲驼为您处理它。

来源:KDnuggets

作者的图像|意识形态图

运行多种大型语言模型是否有用，无论是用于比较模型输出，设置后备，以防万一失败或自定义行为（例如使用一种模型进行编码，而另一种模型进行技术写作）。这就是我们经常在实践中使用LLM的方式。像Poe.com这样的应用程序提供了这种设置。这是一个单个平台，您可以在其中运行多个LLM。但是，如果您想在本地进行所有操作，节省API成本并保持数据私密怎么办？

poe.com

好吧，这就是真正的问题出现的地方。设置此问题通常意味着兼顾不同的端口，运行单独的进程以及手动之间的切换。不理想。

那正是痛苦的Llama-Swap解决的问题。这是一台超轻质（仅一个二进制）的开源代理服务器，它使您可以轻松地在多个本地LLMS之间切换。简而言之，它会在计算机上听OpenAI风格的API调用，并根据您要求的模型自动启动或停止正确的模型服务器。让我们分解它的工作原理，然后逐步进行逐步设置，以使其在本地计算机上运行。

LLAMA-SWAP 简单地说，它会在计算机上听OpenAI风格的API调用，并根据您要求的模型自动启动或停止正确的模型服务器。

＃如何工作遍历llama-swap

＃

从概念上讲，Llama-Swap作为智能路由器位于LLM服务器的前面。当API请求到达时（例如，POST/V1/CHAT/COLTENIONS CALL），它查看JSON有效负载中的“模型”字段。然后，它为该模型加载适当的服务器进程，在需要时关闭任何其他模型。例如，如果您首先请求模型“ A”，然后请求模型“ B”，Llama-SWAP将自动停止服务器的“ A”服务器，并为“ B”启动服务器，以便每个请求都由正确的模型提供。这种动态交换是透明的，因此客户看到了预期的响应，而不必担心基础过程。

POST/V1/CHAT/完成 “模型” //

适当的停止服务不同的动态 LLM 透明的使用请求 Llama 问题根据意味着正确的计算机轻松地工作原理路由器 Swap 停止要求的单独的运行关闭应用程序有效负载进行 API 进程 com 预期的真正的服务器模型设置二进制

如何在单个服务器上使用Llama-SWAP在本地运行多个LLM

＃如何工作遍历llama-swap

其他外部链接

Tags

XiaoMi-AI