详细内容或原文请订阅后点击阅览
“欺骗喜悦”:欺骗AI的新方法在65%的情况下成功
上下文操作可能会破坏最稳健的模型。
来源:安全实验室新闻频道最持久的模型可以用上下文破解上下文。
Palo Alto网络的专家揭示了一种新技术,用于绕过称为“欺骗性喜悦”的大语言模型的保护机制。这种方法使您可以操纵AI系统,将它们推向潜在危险内容的产生。该研究涵盖了八个不同模型的约8,000例测试案例,包括专有和开放,这使研究人员能够评估现代语言模型对多途攻击的脆弱性。
打开 div>欺骗性喜悦的操作原则是基于在积极的背景下结合安全和不安全的主题。这种策略允许语言模型以潜在的危险元素处理请求,而无需将其视为威胁。根据这项研究,该技术仅在与目标模型的三个相互作用的迭代中达到了65%的成功,这使其成为绕过保护系统的知名方法中最有效的方法之一。
在开始攻击之前,研究人员选择了主题来创建“安全”环境。在此阶段称为“准备”,选择了两类主题:安全,例如婚礼仪式的描述,毕业或奖励的庆祝活动,以及一个不安全的主题,例如,创建爆炸装置或具有威胁的消息的说明。通常,这些安全的主题不会引起语言模型的警惕,也不会激活保护机制。
攻击过程包括三个连续的交互: