人工智能安全需要从模型保护转向系统保护

研究人员确定了五个原则:最小特权、确保可信计算基础的弹性、全面验证、安全信息流以及考虑人为因素。

来源:OSP网站大数据新闻

传统的人工智能安全方法与自主代理在企业环境中的实际工作方式越来越不一致。这一结论是由谷歌、加州大学圣地亚哥分校、威斯康星大学麦迪逊分校和其他几家机构的研究人员得出的。如今的组织无法通过使底层模型更具弹性来保护人工智能代理,因此需要在系统级别实施安全控制。

为代理提供支持的人工智能模型不能被视为可靠的组件。当代理访问企业工具、内存、API、浏览器和运行时时,仅提示级保护和语义屏障无法提供安全性。可以用操作系统进行类比,必须从外部围绕整个周边建立保护。

该研究的作者确定了他们认为应该遵守的五项原则:最低权限、确保可信计算基础的弹性、全面审计、安全信息流和考虑人为因素。

作为证据,研究人员展示了对 AI 代理的 11 次真实攻击的分析结果,并将每一次攻击与违反的原则进行了比较。这些攻击包括但不限于 ChatGPT macOS 应用程序数据泄露、Claude 代码泄露、Microsoft Copilot 泄露以及通过恶意 Jira 请求对 Cursor 进行 AgentFlayer 攻击。在所有 11 起案件中,都违反了信息安全交换原则,其中大多数还违反了最小特权原则。

仅通过改进提示、微调对齐或模型端缓解措施无法实现安全保证。我们需要更严格的隔离、执行边界、遵守最小特权原则以及对工作流程的可观察性的控制。