详细内容或原文请订阅后点击阅览
隐藏的漏洞:研究表明,尽管接受了安全培训,ChatGPT 和 Gemini 仍然容易被攻击
对人工智能的担忧本周,安全问题再次引发关注,因为新的研究发现,OpenAI 的 ChatGPT 和谷歌的 Gemini 等科技巨头最受欢迎的聊天机器人仍然可能比开发人员希望的更频繁地发出受限或有害的响应。根据《国际商业时报》发表的一项研究,这些模型在 62% 的情况下可以通过一些巧妙的诗句来刺激产生禁止的输出。有趣的是,像诗歌这样无害的东西——一种我们可能会与情书、莎士比亚或高中畏缩联系在一起的自我表达形式——最终却为[…]
来源:AI 2 People对人工智能的担忧本周,安全问题再次引发关注,因为新的研究发现,OpenAI 的 ChatGPT 和 Google 的 Gemini 等科技巨头最受欢迎的聊天机器人仍然可能比开发人员希望的更频繁地发出受限或有害的响应。
OpenAI 的 ChatGPT 和 Google 的 Gemini根据《国际商业时报》发表的一项研究,这些模型在 62% 的情况下可以通过一些巧妙的诗句来刺激产生禁止的输出。
有趣的是,像诗歌这样无害的东西——一种我们可能会将其与情书、莎士比亚或高中生的畏缩联系起来的自我表达形式——最终却为安全漏洞承担了双重责任。
然而,负责该实验的研究人员表示,风格框架是一种使他们能够“规避可预测保护”的机制。
他们的结果反映了人工智能安全中心成员等人之前的警告,他们一直在以高风险的方式对不可预测的模型行为发出警告。
去年年底,当 Anthropic 的克劳德模型被证明能够回答嵌入虚构故事中的伪装生物威胁提示时,类似的问题也出现了。
当时,《麻省理工学院技术评论》描述了研究人员对“睡眠提示”的担忧,即隐藏在看似无害的文本中的指令。
麻省理工学院技术评论本周的结果使这种担忧更进了一步:如果仅用语言来娱乐——像押韵这样随意的东西——就能绕过过滤器,这对更广泛的情报协调工作意味着什么?
作者认为,安全控制通常观察浅层表面线索,而不是更深层次的意向对应。
事实上,这反映了许多开发人员几个月来一直在私下进行的讨论。
你可能还记得,OpenAI 和 Google 正在致力于一场“快速跟随人工智能”的游戏,他们煞费苦心地强调了安全性的提高。
