从护栏到治理:CEO 的代理系统安全指南

本系列的上一篇文章“规则在提示时失败,在边界成功”重点讨论了第一次人工智能策划的间谍活动和提示级控制的失败。本文即为处方。每个首席执行官现在从董事会得到的问题都是这样的:我们如何应对代理风险?跨越...

来源:MIT Technology Review _人工智能

3.设计权限:将工具绑定到任务,而不是模型

一个常见的反模式是为模型提供长期的凭证,并希望提示保持礼貌。 SAIF 和 NIST 则持相反观点:凭证和范围应与工具和任务绑定、定期轮换且可审计。然后,代理通过这些工具请求范围狭窄的功能。

实际上,这看起来像:“未经 CFO 批准,finance-ops-agent 可以读取但不能写入某些分类账。”

CEO 问题:我们可以在不重新架构整个系统的情况下撤销代理的特定功能吗?

控制数据和行为

这些步骤控制输入、输出并约束行为。

4. 输入、内存和 RAG:将外部内容视为敌对内容,除非另有证明

大多数特工事件都是从偷偷摸摸的数据开始的:中毒的网页、PDF、电子邮件或将对抗性指令偷偷带入系统的存储库。 OWASP 的即时注入备忘单和 OpenAI 自己的指南都坚持将系统指令与用户内容严格分离,并将未经审查的检索源视为不可信。

在操作上,在任何内容进入检索或长期记忆之前进行控制:新的来源经过审查、标记和加入;当存在不受信任的上下文时,持久内存将被禁用;每个块都附有出处。

CEO 问题:我们能否枚举我们的代理学习的每个外部内容源以及谁批准了它们?

5. 输出处理和渲染:“仅仅因为模型这么说”,什么都不执行

在 Anthropic 案例中,人工智能生成的漏洞利用代码和凭证转储直接发挥作用。任何可能导致副作用的输出都需要代理和现实世界之间的验证器。 OWASP 的不安全输出处理类别在这一点上是明确的,围绕源边界的浏览器安全最佳实践也是如此。