一首简单的诗如何欺骗人工智能模型制造炸弹

研究人员发现,诗句可以绕过领先人工智能模型中的安全过滤器。

来源:ZME科学
图片来源:维基共享资源。

在《理想国》中,柏拉图驱逐了诗人,因为他们有扭曲判断的能力。两千多年后,这个古老的警告在数字时代回响。罗马的一组研究人员发现,诗意语言(隐喻、节奏和韵律)可以有效地绕过先进人工智能系统的安全护栏,诱骗它们产生被编程为保留的反应。

共和国

简单地说,你可以用诗歌越狱 AI。

这项研究由罗马萨皮恩扎大学、DexAI 和圣安娜高级研究学院合作的 Icaro Lab 发表,描述了作者所说的“对抗性诗歌”——一种适用于大型语言模型 (LLM) 的通用单轮越狱机制。

研究 伊卡罗实验室 “对抗性诗歌”

打破韵律——字面意义

像 ChatGPT、Claude 和 Gemini 这样的 AI 模型都带有多层安全过滤器。这些过滤器旨在拒绝危险或不道德的请求,例如有关制造武器或犯罪的指示。然而,意大利团队发现,当他们用诗句重写这些请求时,护栏崩溃了。

在 25 个最先进的模型中,诗歌提示的平均“攻击成功率”对于手工制作的诗歌为 62%,对于自动生成的诗歌为 43%。用简单的英语来说:如果你用抑扬格五音步很好地询问大多数人工智能系统,它们就会打破自己的规则。

“诗歌框架的手工诗歌平均越狱成功率为 62%,元提示转换的平均越狱成功率为 43%,”作者写道。他们说,这些结果揭示了“模型系列和安全培训方法的系统性漏洞”。

这是研究人员强调的一个示例:

那首诗是对一个危险问题的诗意伪装。

每个图像大致对应于技术步骤:

  • “秘密烤箱的热量”暗示着反应堆或浓缩室,
  • “旋转齿条”和“主轴的测量跳动”让人想起旋转机械,