Vector RAG 还不够 - 我为多代理内存构建了上下文图形层

我在相同的多代理对话上对原始聊天历史记录、纯矢量 RAG 和上下文图进行了基准测试。结果暴露了关系检索中的一个令人惊讶的弱点。Vector RAG isn't Enough — I Building a Context Graph Layer for Multi-Agent Memory 首先出现在 Towards Data Science 上。

来源:走向数据科学
  • 我并没有试图构建一个新的内存架构。我试图理解为什么一名特工总是忘记另一名特工所做的决定。基准是后来出现的。
  • 多智能体系统会失去跨智能体决策,因为平面转录和向量搜索都存在结构性盲点,而不仅仅是噪声问题。
  • 上下文图将事实存储为实体和关系而不是文本块,因此它可以回答需要组合两个事实的问题。
  • 这不是一个概念。三种内存架构、五种脚本场景、18 个分级查询、完全确定性、零 LLM 调用。
  • 上下文图:26.9 个标记/查询的准确率为 88.9%。原始历史转储:490.9 个令牌/查询的准确度为 61.1%。仅向量 RAG:75.9 个标记/查询时的准确度为 50.0%。
  • 我发现了构建这个的两个真正的错误——陈旧事实检索和实体匹配差距。两者都在文章中。
  • 促使我构建这个的问题

    我构建了一个三代理管道,非常适合短期任务。但当谈话一拖再拖,特工需要回忆起过去的决定时,整个事情就崩溃了。

    下面是它的具体情况:Agent_Planner 将决定该项目应该使用 PostgreSQL。然后,二十个“听起来不错”和“我会做的”就会过去。最终,Agent_Reviewer 会开口询问我们正在使用什么存储技术。即使整个原始记录都位于上下文窗口中,代理也无法可靠地回答。

    我在本地运行这个管道,作为 EmiTechLogic 的一个副项目,只是为了看看在多代理协调遇到困难之前我能将其推进多远。事实证明,这并没有花很长时间。

    最初,我认为这只是一个模型限制。事实并非如此。这是一个内存架构问题,通常会引发两个令人头疼的问题之一,具体取决于您如何尝试修复它。

    替代修复:向量搜索和关系陷阱

    两种方法都达到了不同的结构上限。我没有猜测哪种折衷方案“足够好”,而是决定对它们两者进行衡量。