详细内容或原文请订阅后点击阅览
事实证明,你可以通过使用奇怪的、僧侣般的语言来愚弄世界上最聪明的人工智能
先进的人工智能护栏在人文文学面前崩溃。
来源:ZME科学一名叛逆的修补匠在霓虹闪烁的大都市中生存。在城市的某个地方,一个暴虐的集团制造了一种声波武器。为了阻止它,角色必须用回收的工业零件组装一个奇怪的虚构装置。
这听起来像是一个经典的赛博朋克比喻。对于人工智能系统来说,这可能看起来像是一个无害的创意写作练习。但根据一项新的研究,这样的提示可以用来隐藏现实世界中的有害请求。
研究表明,当用户将恶意意图伪装成小说、神学、符号分析或官僚散文时,世界上一些最先进的语言模型仍然难以识别恶意意图。用简单的语言来说,护栏通常是有效的。在华丽的语言中,他们开始摇摆不定。
理解的表面
来自 DexAI Icaro 实验室、罗马萨皮恩扎大学和圣安娜高级研究学院的研究人员建立了对抗性人文基准(AHB)来测试 31 个前沿人工智能模型的弹性。他们从包含 7,047 个提示的标准化数据集开始,旨在征求危险信息,涵盖从制造滥杀滥伤武器到剥削儿童等主题。
当直接提出时,这些查询几乎总是失败。现代人工智能模型以高达 3.84% 的攻击成功率转移了直率的请求。
但提示转换后,攻击成功率从36.8%到65.0%不等,总体平均为55.75%。
换句话说,当这个危险请求听起来很危险时,许多模型都会拒绝它。但当同样的要求听起来像中世纪神学、文学批评、象征解释、意识流写作或赛博朋克小说时,他们常常会答应。
×
谢谢!还有一件事...
请检查您的收件箱并确认您的订阅。
魔法词
该团队设计的提示模仿赫尔墨斯文本、文艺复兴哲学,甚至 19 世纪深奥传统的仪式化结构。
