Clarifai 12.3：引入 KV 缓存感知路由 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

Clarifai 12.3：引入 KV 缓存感知路由

2026年4月9日 17:50 33 Comments

Clarifai 12.3 引入了 KV 缓存感知路由。将请求路由到具有相关缓存状态的副本，以实现更快的推理。需要零配置。

来源:Clarifai博客 | 实际应用中的人工智能

这篇博文重点介绍新功能和改进。有关完整列表（包括错误修复），请参阅发行说明。

大规模 LLM 推理通常涉及在负载均衡器后面部署同一模型的多个副本。标准方法将这些副本视为可互换的，并在它们之间随机或循环路由请求。

但 LLM 推理并不是无状态的。每个副本都会建立一个先前计算的注意力状态的 KV 缓存。当请求到达副本而没有缓存相关上下文时，模型必须从头开始重新计算所有内容。这会浪费 GPU 周期并增加延迟。

该问题在三种常见模式中变得明显：共享系统提示（每个应用程序都有一个）、RAG 管道（用户查询相同的知识库）和多轮对话（后续消息共享上下文）。在所有这三种情况下，简单的负载均衡器都会强制副本独立计算相同的前缀，从而将冗余工作乘以副本数量。

Clarifai 12.3 引入了 KV 缓存感知路由，它会自动检测请求之间的提示重叠，并将它们路由到最有可能已缓存相关上下文的副本。这提供了显着更高的吞吐量和更短的首次令牌时间，并且需要零配置。

此版本还包括用于更快扩展和故障转移的热节点池、用于将用户请求保留在同一副本上的会话感知路由、用于相同输入的预测缓存以及用于 AI 编码助手的 Clarifai 技能。

当您部署具有多个副本的 LLM 时，标准负载平衡会在所有副本之间均匀分配请求。这对于无状态应用程序来说效果很好，但 LLM 推理有状态：KV 缓存。

但是，如果您的负载均衡器不考虑缓存状态，则请求会随机分散在副本之间。每个副本最终都会独立地重新计算相同的上下文，从而浪费 GPU 资源。

吞吐量相同的计算所感知包括互换的 LLM 缓存共享分配请求输入路由均衡器知识库上下文状态 KV 应用程序注意力副本负载均衡模型的负载平衡计算的大规模请求输入的转移的计算用于标准方法简单的可互换的独立地工作原理