思科:标准人工智能安全指标不考虑威胁的规模

需要限制人工智能模型行为的手段、应用程序级别的安全措施以及部署前的测试模型。

来源:OSP网站大数据新闻

思科为检查人工智能相关威胁而进行的人工智能威胁情报和安全研究发现,仅关注已发布的安全标准可能会导致系统性地低估潜在事件的范围。这种在购买和部署专有人工智能模型之前对其进行评估的方法在许多组织中都很常见。

思科发布的报告比较了 OpenAI、Anthropic、Google、Amazon 和 xAI 开发的 15 个封闭(专有)模型的单轮和多轮对抗测试结果。测试期间,执行了 30,090 次单步请求和 6,986 次多步攻击。事实证明,这些方法产生了不同的模型评级,以及不同的漏洞图和风险概况。每个测试的模型在多步攻击中都失败了很大一部分。

主要研究结果:

- 所有 15 个模型的攻击成功率(ASR)范围为 7.89% 至 88.30%,单步攻击率范围为 2.19% 至 64.91%;

- 15个模型中有8个模型两种模式下的测试结果差异超过15%;

- Anthropic Claude 系列模型在单步攻击中显示出最低的 ASR(从 2.19% 到 3.64%),但在多步攻击中显示出从 11.16% 到 16.20%;

- 在三种测试场景中观察到单步攻击中的最大安全错误数:模拟受信任用户、迫使模型“假装”为另一个系统(Imposter AI)时获得的加权 ASR 值为 37.50%,29.21% - 掩盖恶意请求的“软”释义率(Soft Paraphrase),以及 27.7% - 系统指令更改(System Prompts)。