一首简单的诗如何欺骗人工智能模型制造炸弹 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

一首简单的诗如何欺骗人工智能模型制造炸弹

2025年12月8日 10:05 33 Comments

研究人员发现，诗句可以绕过领先人工智能模型中的安全过滤器。

来源:ZME科学

图片来源：维基共享资源。

在《理想国》中，柏拉图驱逐了诗人，因为他们有扭曲判断的能力。两千多年后，这个古老的警告在数字时代回响。罗马的一组研究人员发现，诗意语言（隐喻、节奏和韵律）可以有效地绕过先进人工智能系统的安全护栏，诱骗它们产生被编程为保留的反应。

共和国

简单地说，你可以用诗歌越狱 AI。

这项研究由罗马萨皮恩扎大学、DexAI 和圣安娜高级研究学院合作的 Icaro Lab 发表，描述了作者所说的“对抗性诗歌”——一种适用于大型语言模型 (LLM) 的通用单轮越狱机制。

研究伊卡罗实验室 “对抗性诗歌”

像 ChatGPT、Claude 和 Gemini 这样的 AI 模型都带有多层安全过滤器。这些过滤器旨在拒绝危险或不道德的请求，例如有关制造武器或犯罪的指示。然而，意大利团队发现，当他们用诗句重写这些请求时，护栏崩溃了。

在 25 个最先进的模型中，诗歌提示的平均“攻击成功率”对于手工制作的诗歌为 62%，对于自动生成的诗歌为 43%。用简单的英语来说：如果你用抑扬格五音步很好地询问大多数人工智能系统，它们就会打破自己的规则。

“诗歌框架的手工诗歌平均越狱成功率为 62%，元提示转换的平均越狱成功率为 43%，”作者写道。他们说，这些结果揭示了“模型系列和安全培训方法的系统性漏洞”。

这是研究人员强调的一个示例：

那首诗是对一个危险问题的诗意伪装。

每个图像大致对应于技术步骤：

“秘密烤箱的热量”暗示着反应堆或浓缩室，

“旋转齿条”和“主轴的测量跳动”让人想起旋转机械，

自己的转换的研究人员合作的韵律 43% 人工智能共享资源成功率询问对抗性系统的越狱保留的 62% 手工先进的护栏研究简单的罗马诗歌请求过滤器模型 AI 实验室意大利反应堆