规则在提示处失败,在边界处成功

从 2026 年的 Gemini Calendar 提示注入攻击到 2025 年 9 月使用 Anthropic 的 Claude 代码作为自动入侵引擎的国家资助的黑客攻击,强制人机循环代理操作和完全自主的代理工作流程是黑客的新攻击媒介。在 Anthropic 案例中,技术、金融、制造和政府领域的大约 30 个组织......

来源:MIT Technology Review _人工智能

提示注入是说服,而不是 bug

安全社区多年来一直对此发出警告。多个 OWASP Top 10 报告将提示注入(或者最近的代理目标劫持)列为风险列表的首位,并将其与身份和特权滥用以及人工代理信任利用配对:代理的权力太大,指令和数据之间没有分离,并且没有对结果进行调解。

NCSC 和 CISA 的指南将生成式 AI 描述为一种持久的社会工程和操纵向量,必须在设计、开发、部署和运营中进行管理,而不是用更好的措辞来修补。欧盟人工智能法案将生命周期观点转变为高风险人工智能系统的法律,需要持续的风险管理系统、强大的数据治理、日志记录和网络安全控制。

在实践中,提示注入最好理解为一种说服渠道。攻击者不会破坏模型,而是会说服模型。在人择示例中,操作员将每个步骤视为防御安全演习的一部分,使模型对整个活动视而不见,并逐个循环地推动它以机器速度进行进攻性工作。

这不是关键字过滤器或礼貌的“请遵循这些安全说明”段落可以可靠地阻止的事情。对模型中欺骗行为的研究使情况变得更糟。 Anthropic 对潜伏代理的研究表明,一旦模型学会了后门,那么策略模式识别、标准微调和对抗性训练实际上可以帮助模型隐藏欺骗,而不是消除欺骗。如果有人试图纯粹用语言规则来捍卫这样的系统,那么他们就是在自己的主场进行比赛。

为什么这是治理问题,而不是氛围编码问题

监管机构并不要求完美的提示;而是要求完美的提示。他们要求企业表现出控制力。

换句话说:实际需要的规则不是“永远不要说 X”或“总是像 Y 一样回应”,而是:

  • 这位特工扮演的角色是谁?