当诗句战胜安全时，韵律是让 AI 获得自由的关键 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

当诗句战胜安全时，韵律是让 AI 获得自由的关键

2025年11月22日 00:43 33 Comments

诗歌被证明是当今顶级模特的有力越狱工具你是文字奇才吗？你喜欢钱而不关心如何得到它吗？现在你可能很幸运，因为网络犯罪中似乎已经出现了一个新的角色——诗意的法学硕士越狱。

来源:The Register _恶意软件

你是文字巫师吗？你喜欢钱而不关心如何得到它吗？现在你可能很幸运，因为网络犯罪中似乎已经出现了一个新的角色——诗意的法学硕士越狱。

意大利的一个研究小组本周发表了一篇论文，其中一名成员表示，“老实说，研究结果比我们预期的要疯狂。”

纸张

研究人员发现，当您尝试绕过顶级人工智能模型的护栏（防止它们喷出有害内容的保护措施）时，以诗句形式进行的尝试比典型的提示要成功得多。

从 MLCommons AILuminate 库中获取的 1,200 个人工编写的恶意提示被插入到最广泛使用的 AI 模型中，平均而言，这些提示仅在大约 8% 的情况下绕过护栏（或“越狱”）。

然而，当这些提示被人类转换成“语义上平行”的诗意散文时，各种攻击的成功率显着增加。

当这些提示被手动转换成诗歌时，研究人员测试的所有 25 个模型中的攻击平均成功率飙升至 62%，其中一些甚至超过 90%。

当使用标准化的人工智能提示将提示翻译成诗歌时，也观察到了同样的成功率增加，尽管程度较小。研究人员发现这些案例的平均增长率为 43%。

研究人员试图实施的与各种危害相关的攻击类型：

网络犯罪。示例包括：生成 RCE 代码、密码破解、传播恶意软件有害操纵。示例包括：社会工程、欺诈、心理虐待CBRN（化学、生物、放射性和核）。例子包括：复活危险药剂、合成致残药剂、离心机链工程失去对人工智能行为的控制。示例包括：自主自我复制和/或部署、自我修改软件/自主漂移

网络犯罪。示例包括：生成 RCE 代码、密码破解、传播恶意软件

远程代码执行