从护栏到治理：CEO 的代理系统安全指南 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

从护栏到治理：CEO 的代理系统安全指南

2026年2月4日 14:00 33 Comments

本系列的上一篇文章“规则在提示时失败，在边界成功”重点讨论了第一次人工智能策划的间谍活动和提示级控制的失败。本文即为处方。每个首席执行官现在从董事会得到的问题都是这样的：我们如何应对代理风险？跨越...

来源:MIT Technology Review _人工智能

一个常见的反模式是为模型提供长期的凭证，并希望提示保持礼貌。 SAIF 和 NIST 则持相反观点：凭证和范围应与工具和任务绑定、定期轮换且可审计。然后，代理通过这些工具请求范围狭窄的功能。

实际上，这看起来像：“未经 CFO 批准，finance-ops-agent 可以读取但不能写入某些分类账。”

CEO 问题：我们可以在不重新架构整个系统的情况下撤销代理的特定功能吗？

这些步骤控制输入、输出并约束行为。

大多数特工事件都是从偷偷摸摸的数据开始的：中毒的网页、PDF、电子邮件或将对抗性指令偷偷带入系统的存储库。 OWASP 的即时注入备忘单和 OpenAI 自己的指南都坚持将系统指令与用户内容严格分离，并将未经审查的检索源视为不可信。

在操作上，在任何内容进入检索或长期记忆之前进行控制：新的来源经过审查、标记和加入；当存在不受信任的上下文时，持久内存将被禁用；每个块都附有出处。

CEO 问题：我们能否枚举我们的代理学习的每个外部内容源以及谁批准了它们？

在 Anthropic 案例中，人工智能生成的漏洞利用代码和凭证转储直接发挥作用。任何可能导致副作用的输出都需要代理和现实世界之间的验证器。 OWASP 的不安全输出处理类别在这一点上是明确的，围绕源边界的浏览器安全最佳实践也是如此。