为什么多代理系统需要内存工程 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

为什么多代理系统需要内存工程

2026年2月25日 12:12 33 Comments

大多数多智能体人工智能系统在悄然失效之前都会付出高昂的代价。对于任何调试过该模式的人来说，这种模式都很熟悉：代理 A 完成一项子任务并继续前进。代理 B 由于无法了解 A 的工作，因此使用略有不同的参数重新执行相同的操作。代理 C 收到双方的不一致结果并协商达成一致。 [...]

来源:O'Reilly Media _AI & ML

大多数多智能体人工智能系统在悄然失效之前都会付出高昂的代价。

对于任何调试过该模式的人来说，该模式都很熟悉：代理 A 完成子任务并继续前进。代理 B 由于无法了解 A 的工作，因此使用略有不同的参数重新执行相同的操作。代理 C 收到双方的不一致结果并协商达成一致。系统产生输出，但输出的成本是其应有的三倍，并且包含通过每个下游任务传播的错误。

构建这些系统的团队倾向于关注代理通信：更好的提示、更清晰的授权、更复杂的消息传递。但沟通并不是问题所在。代理之间可以很好地交换消息。他们不能做的是对已经发生的事情、当前的事实以及已经做出的决定保持共同的理解。

在生产中，内存（而不是消息传递）决定了多代理系统的行为是否像一个协调的团队，或者是独立进程的昂贵冲突。

Cemri 等人发表了迄今为止最系统的多智能体故障分析。他们的 MAST 分类法由 AutoGen、CrewAI 和 LangGraph 等框架中的 1,600 多个带注释的执行跟踪构建而成，可识别 14 种不同的故障模式。故障分为三类：系统设计问题、代理间错位和任务验证故障。

重要数字：代理间错位占所有故障的 36.9%。特工不会因为无法推理而失败。它们失败是因为它们对共享状态的不一致视图进行操作。一个代理完成的工作不会在另一代理的上下文中注册。在步骤 3 中有效的假设在步骤 7 中变得无效，但没有机制传播更新。团队出现分歧。

清晰的分类法故障分析授权代理未对准任务完成的设计问题共享继续前进不一致团队错位双方的有故障的不同的系统设计相同的倾向于人工智能代理的系统有效的失败系统的复杂的输出的当前的无法消息传递协调的传播注释的故障子任务故障模式状态进程的参考文献基础设施共同的