零浪费代理 RAG:设计缓存架构以最大限度地减少延迟和 LLM 成本

通过验证感知的多层缓存将 LLM 成本降低 30% 后零浪费代理 RAG:设计缓存架构以最大限度地减少延迟和大规模 LLM 成本首先出现在《走向数据科学》上。

来源:走向数据科学

-增强一代 (RAG) 已走出实验阶段并坚定地进入企业生产。我们不再只是构建聊天机器人来测试 LLM 能力;我们正在构建复杂的代理系统,直接与内部结构化数据库(SQL)、非结构化知识湖(矢量数据库)以及第三方 API 和 MCP 工具交互。然而,随着 RAG 在组织内的采用规模扩大,一个明显且昂贵的问题就显而易见了:冗余。

在许多企业 RAG 部署中,团队观察到超过 30% 的用户查询是重复的或语义相似的。不同部门的员工要求相同的第四季度销售数据、相同的入职程序以及相同的标准供应商合同摘要。询问其年龄健康保险费的外部用户经常会收到相似个人资料中相同的答复。

在一个简单的 RAG 架构中,这些重复的问题中的每一个都会触发一个相同的、昂贵的事件链:生成嵌入、执行向量相似性搜索、扫描 SQL 表、检索大量上下文窗口,并强制大型语言模型 (LLM) 对完全相同的标记进行推理以产生一小时前生成的答案。

这种冗余增加了云基础设施成本,并为用户响应增加了不必要的多秒延迟。我们需要一个智能缓存策略来控制成本并随着用户和查询量的增加保持 RAG 的可行性。

但是,Agentic RAG 的缓存并不是简单的“键:值”存储。语言是微妙的,数据是高度动态的,并且提供陈旧或幻觉的缓存是一个真正的风险。在本文中,我将通过实际场景演示一种可以带来切实好处的缓存架构。

设置:双源代理系统

让我们考虑使用亚马逊产品评论 (CC0) 数据集的模拟企业环境。

两层缓存架构

第 1 层:语义缓存(在查询级别)

结论