行为凭证:为什么静态授权会导致自治代理失败

企业人工智能治理仍然授权代理,就好像它们是稳定的软件工件一样。但事实并非如此。某企业部署基于浪链的研究代理来分析市场趋势并起草内部简报。在预生产审查期间,系统的行为在可接受的范围内:它将查询路由到批准的数据源,在不明确的情况下适当地表达不确定性,并维护源[...]

来源:O'Reilly Media _AI & ML
企业人工智能治理仍然授权代理,就好像它们是稳定的软件工件一样。

他们不是。

某企业部署基于浪链的研究代理来分析市场趋势并起草内部简报。在预生产审查期间,系统的行为在可接受的范围内:它将查询路由到批准的数据源,在不明确的情况下适当地表达不确定性,并维护源归因规则。在此基础上,它接收 OAuth 凭据和 API 令牌并进入生产。

六周后,遥测显示出不同的行为特征。工具使用熵增加了。代理通过辅助搜索 API(不属于原始操作配置文件的一部分)路由越来越多的查询。置信度校准已经发生了变化:它在以前表示不确定性的模糊问题上表达了确定性。来源归属在技术上仍然准确,但输出越来越多地忽略了部署时系统可能已经浮出水面的相互矛盾的证据。

凭据仍然有效。身份验证检查仍然通过。但授予该授权的行为基础已经发生了变化。证明对敏感数据的访问合理性的决策模式不再与现在在生产中运行的运行时系统相匹配。

在这种故障模式下,没有任何事情需要妥协。没有攻击者攻破系统。没有提示注入成功。模型重量没有改变。代理在累积的上下文、记忆状态和交互模式中漂移。没有任何一个事件看起来是灾难性的。然而,总的来说,该系统与通过审查的系统存在重大差异。

大多数企业治理堆栈并不是为了检测这一点而构建的。他们监视安全事件、策略违规和性能下降。他们不会监控今天做出的决定是否仍然与批准的决定相似。

这就是差距。

架构不匹配

代理系统打破了这一假设。

作为运行时信号的行为标识