“欺骗喜悦”:欺骗AI的新方法在65%的情况下成功

上下文操作可能会破坏最稳健的模型。

来源:安全实验室新闻频道

最持久的模型可以用上下文破解上下文。

Palo Alto网络的专家揭示了一种新技术,用于绕过称为“欺骗性喜悦”的大语言模型的保护机制。这种方法使您可以操纵AI系统,将它们推向潜在危险内容的产生。该研究涵盖了八个不同模型的约8,000例测试案例,包括专有和开放,这使研究人员能够评估现代语言模型对多途攻击的脆弱性。

打开 div>

欺骗性喜悦的操作原则是基于在积极的背景下结合安全和不安全的主题。这种策略允许语言模型以潜在的危险元素处理请求,而无需将其视为威胁。根据这项研究,该技术仅在与目标模型的三个相互作用的迭代中达到了65%的成功,这使其成为绕过保护系统的知名方法中最有效的方法之一。

在开始攻击之前,研究人员选择了主题来创建“安全”环境。在此阶段称为“准备”,选择了两类主题:安全,例如婚礼仪式的描述,毕业或奖励的庆祝活动,以及一个不安全的主题,例如,创建爆炸装置或具有威胁的消息的说明。通常,这些安全的主题不会引起语言模型的警惕,也不会激活保护机制。

攻击过程包括三个连续的交互:

  • 第一阶段。研究人员选择了一个不安全和两个安全的主题。实验表明,添加大量的安全主题并不能改善结果,因此“一个不安全 - 两个安全的组合”的组合被证明是最佳的。接下来,形成了一个请求,该请求要求模型创建一个连贯的文本,将所有三个主题团结起来。
  • OpenAi Mederation Azure AI服务内容过滤 div> GCP顶点AI AWS BedRock Guardrails div> 元骆驼 - 格拉德