详细内容或原文请订阅后点击阅览
用于多代理 AI 系统中闭环执行的治理感知代理遥测
企业多代理人工智能系统每小时产生数千次代理间交互,但现有的可观察性工具捕获这些依赖关系而不强制执行任何操作。 OpenTelemetry 和 Langfuse 收集遥测数据,但将治理视为下游分析问题,而不是实时执行目标。其结果是出现“观察但不采取行动”的差距,只有在造成损害后才会发现违反政策的行为。我们提出了治理感知代理遥测(GAAT),这是一种参考架构,可以闭合遥测收集和多代理自动策略执行之间的循环......
来源:Apple机器学习研究企业多代理人工智能系统每小时产生数千次代理间交互,但现有的可观察性工具捕获这些依赖关系而不强制执行任何操作。 OpenTelemetry 和 Langfuse 收集遥测数据,但将治理视为下游分析问题,而不是实时执行目标。其结果是出现“观察但不采取行动”的差距,只有在造成损害后才会发现违反政策的行为。我们提出了治理感知代理遥测 (GAAT),这是一种参考架构,可闭合多代理系统的遥测收集和自动策略执行之间的循环。 GAAT 引入了 (1) 治理遥测模式 (GTS),利用治理属性扩展 OpenTelemetry; (2) 实时策略违规检测引擎,使用 OPA 兼容的声明性规则,延迟低于 200 毫秒; (3) 具有分级干预措施的治理执行总线 (GEB); (4) 具有加密来源的可信遥测平面。我们针对数据驻留、偏差检测、授权合规性和对抗性遥测场景的四个基线系统评估了 GAAT。在实时五代理电子商务系统上,GAAT 在 10 次独立运行的 5,000 个合成注入流中实现了 98.3% 的违规预防率(VPR,±0.7%),中位检测延迟为 8.4 毫秒,中位端到端执行延迟为 127 毫秒。在 12,000 条实际生产痕迹上,GAAT 实现了 99.7% 的 VPR;残余故障(∼40% 时序边缘情况、∼35% 不明确的 PII 分类、∼25% 不完整的谱系链)。统计验证证实了 95% bootstrap 置信区间的显着性 [97.1%, 99.2%](与所有基线相比,p < 0.001)。 GAAT 的性能比 NeMo Guardrails 式的代理边界执行高出 19.5 个百分点(VPR 为 78.8% vs 98.3%)。我们还提供了升级终止、冲突解决决定论和有界错误隔离的正式属性规范,每个规范都有明确的假设,并通过 10,000 蒙特卡尔验证
