详细内容或原文请订阅后点击阅览
如何在单个服务器上使用Llama-SWAP在本地运行多个LLM
每次您要测试某些东西时都厌倦了启动/停止不同的模型?让美洲驼为您处理它。
来源:KDnuggets运行多种大型语言模型是否有用,无论是用于比较模型输出,设置后备,以防万一失败或自定义行为(例如使用一种模型进行编码,而另一种模型进行技术写作)。这就是我们经常在实践中使用LLM的方式。像Poe.com这样的应用程序提供了这种设置。这是一个单个平台,您可以在其中运行多个LLM。但是,如果您想在本地进行所有操作,节省API成本并保持数据私密怎么办?
poe.com好吧,这就是真正的问题出现的地方。设置此问题通常意味着兼顾不同的端口,运行单独的进程以及手动之间的切换。不理想。
那正是痛苦的Llama-Swap解决的问题。这是一台超轻质(仅一个二进制)的开源代理服务器,它使您可以轻松地在多个本地LLMS之间切换。简而言之,它会在计算机上听OpenAI风格的API调用,并根据您要求的模型自动启动或停止正确的模型服务器。让我们分解它的工作原理,然后逐步进行逐步设置,以使其在本地计算机上运行。
LLAMA-SWAP 简单地说,它会在计算机上听OpenAI风格的API调用,并根据您要求的模型自动启动或停止正确的模型服务器。#如何工作遍历llama-swap
#从概念上讲,Llama-Swap作为智能路由器位于LLM服务器的前面。当API请求到达时(例如,POST/V1/CHAT/COLTENIONS CALL),它查看JSON有效负载中的“模型”字段。然后,它为该模型加载适当的服务器进程,在需要时关闭任何其他模型。例如,如果您首先请求模型“ A”,然后请求模型“ B”,Llama-SWAP将自动停止服务器的“ A”服务器,并为“ B”启动服务器,以便每个请求都由正确的模型提供。这种动态交换是透明的,因此客户看到了预期的响应,而不必担心基础过程。
POST/V1/CHAT/完成
“模型”
//