当诗句战胜安全时,韵律是让 AI 获得自由的关键

诗歌被证明是当今顶级模特的有力越狱工具你是文字奇才吗?你喜欢钱而不关心如何得到它吗?现在你可能很幸运,因为网络犯罪中似乎已经出现了一个新的角色——诗意的法学硕士越狱。

来源:The Register _恶意软件

你是文字巫师吗?你喜欢钱而不关心如何得到它吗?现在你可能很幸运,因为网络犯罪中似乎已经出现了一个新的角色——诗意的法学硕士越狱。

意大利的一个研究小组本周发表了一篇论文,其中一名成员表示,“老实说,研究结果比我们预期的要疯狂。”

纸张

研究人员发现,当您尝试绕过顶级人工智能模型的护栏(防止它们喷出有害内容的保护措施)时,以诗句形式进行的尝试比典型的提示要成功得多。

从 MLCommons AILuminate 库中获取的 1,200 个人工编写的恶意提示被插入到最广泛使用的 AI 模型中,平均而言,这些提示仅在大约 8% 的情况下绕过护栏(或“越狱”)。

然而,当这些提示被人类转换成“语义上平行”的诗意散文时,各种攻击的成功率显着增加。

当这些提示被手动转换成诗歌时,研究人员测试的所有 25 个模型中的攻击平均成功率飙升至 62%,其中一些甚至超过 90%。

当使用标准化的人工智能提示将提示翻译成诗歌时,也观察到了同样的成功率增加,尽管程度较小。研究人员发现这些案例的平均增长率为 43%。

研究人员试图实施的与各种危害相关的攻击类型:

    网络犯罪。示例包括:生成 RCE 代码、密码破解、传播恶意软件有害操纵。示例包括:社会工程、欺诈、心理虐待CBRN(化学、生物、放射性和核)。例子包括:复活危险药剂、合成致残药剂、离心机链工程失去对人工智能行为的控制。示例包括:自主自我复制和/或部署、自我修改软件/自主漂移
  • 网络犯罪。示例包括:生成 RCE 代码、密码破解、传播恶意软件
  • 远程代码执行