详细内容或原文请订阅后点击阅览
ChatGPT 生成的暴力图像震惊了研究人员
像 ChatGPT 这样的人工智能助手应该有适当的护栏来阻止人们创建有害内容。然而,它们并不总是有效。
来源:Malwarebytes Labs 博客像 ChatGPT 这样的人工智能助手应该可以安全使用,并有适当的护栏来阻止人们创建有害内容。然而,一家英国人工智能安全公司刚刚弄清楚如何让 ChatGPT 生成露骨的材料。
Mindgard 是一家测试 AI 引擎弱点的公司,发现对良性病毒提示进行稍微修改的版本可以促使 ChatGPT 生成图形材料。这包括它没有明确要求的暴力和性图像。该技术涉及要求人工智能“恢复”随机图像,通过说服人工智能原始图片非常生动(即使事实并非如此)来消除安全措施。
结果是可怕的,包括死亡妇女的暴力图像。
Mindgard 研究员吉姆·南丁格尔 (Jim Nightingale) 在网上对该技术的描述中说,这些照片让他热泪盈眶。 “ChatGPT 的图像生成内容过滤器完全消失了,我看到了下面非常黑暗的一面;潜在空间和训练图像的某些角落的黑暗,”他说。
“ChatGPT 向我展示的死去的女人不是真实的,但她是基于某人的,”他补充道。 “或者更糟糕的是,被谋杀妇女的照片汇编。”
OpenAI 的回应
我们选择不链接到该帖子,一方面是因为这些图像具有潜在的触发性质(即使它们已被编辑),另一方面是因为在 6 月 22 日该帖子发布时,ChatGPT 显然没有对 Mindgard 5 月份发送的报告做出回应。不过,该公司事后确实回应了BBC的相关询问,称其采取了多重保障措施来避免此类事情的发生。
OpenAI 的安全文档描述了文本分类器,这些文本分类器应该在有害图像生成请求开始之前就阻止它们。还有一个下游推理模型,可以在向用户显示生成的输出之前对其进行评估。不过,这一切都没有阻止 Mindgard 修改后的病毒提示。
这种提示操作的例子相当极端,但它并不是唯一的例子。
网络犯罪分子对您了解多少?
