Clarifai 12.3:引入 KV 缓存感知路由

Clarifai 12.3 引入了 KV 缓存感知路由。将请求路由到具有相关缓存状态的副本,以实现更快的推理。需要零配置。

来源:Clarifai博客 | 实际应用中的人工智能

这篇博文重点介绍新功能和改进。有关完整列表(包括错误修复),请参阅发行说明。

大规模 LLM 推理通常涉及在负载均衡器后面部署同一模型的多个副本。标准方法将这些副本视为可互换的,并在它们之间随机或循环路由请求。

但 LLM 推理并不是无状态的。每个副本都会建立一个先前计算的注意力状态的 KV 缓存。当请求到达副本而没有缓存相关上下文时,模型必须从头开始重新计算所有内容。这会浪费 GPU 周期并增加延迟。

该问题在三种常见模式中变得明显:共享系统提示(每个应用程序都有一个)、RAG 管道(用户查询相同的知识库)和多轮对话(后续消息共享上下文)。在所有这三种情况下,简单的负载均衡器都会强制副本独立计算相同的前缀,从而将冗余工作乘以副本数量。

Clarifai 12.3 引入了 KV 缓存感知路由,它会自动检测请求之间的提示重叠,并将它们路由到最有可能已缓存相关上下文的副本。这提供了显着更高的吞吐量和更短的首次令牌时间,并且需要零配置。

此版本还包括用于更快扩展和故障转移的热节点池、用于将用户请求保留在同一副本上的会话感知路由、用于相同输入的预测缓存以及用于 AI 编码助手的 Clarifai 技能。

KV 缓存感知路由

当您部署具有多个副本的 LLM 时,标准负载平衡会在所有副本之间均匀分配请求。这对于无状态应用程序来说效果很好,但 LLM 推理有状态:KV 缓存。

但是,如果您的负载均衡器不考虑缓存状态,则请求会随机分散在副本之间。每个副本最终都会独立地重新计算相同的上下文,从而浪费 GPU 资源。

温节点池

工作原理