ChatGPT 生成的暴力图像震惊了研究人员 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

ChatGPT 生成的暴力图像震惊了研究人员

2026年7月1日 09:10 33 Comments

像 ChatGPT 这样的人工智能助手应该有适当的护栏来阻止人们创建有害内容。然而，它们并不总是有效。

来源:Malwarebytes Labs 博客

像 ChatGPT 这样的人工智能助手应该可以安全使用，并有适当的护栏来阻止人们创建有害内容。然而，一家英国人工智能安全公司刚刚弄清楚如何让 ChatGPT 生成露骨的材料。

Mindgard 是一家测试 AI 引擎弱点的公司，发现对良性病毒提示进行稍微修改的版本可以促使 ChatGPT 生成图形材料。这包括它没有明确要求的暴力和性图像。该技术涉及要求人工智能“恢复”随机图像，通过说服人工智能原始图片非常生动（即使事实并非如此）来消除安全措施。

结果是可怕的，包括死亡妇女的暴力图像。

Mindgard 研究员吉姆·南丁格尔 (Jim Nightingale) 在网上对该技术的描述中说，这些照片让他热泪盈眶。 “ChatGPT 的图像生成内容过滤器完全消失了，我看到了下面非常黑暗的一面；潜在空间和训练图像的某些角落的黑暗，”他说。

“ChatGPT 向我展示的死去的女人不是真实的，但她是基于某人的，”他补充道。 “或者更糟糕的是，被谋杀妇女的照片汇编。”

我们选择不链接到该帖子，一方面是因为这些图像具有潜在的触发性质（即使它们已被编辑），另一方面是因为在 6 月 22 日该帖子发布时，ChatGPT 显然没有对 Mindgard 5 月份发送的报告做出回应。不过，该公司事后确实回应了BBC的相关询问，称其采取了多重保障措施来避免此类事情的发生。

OpenAI 的安全文档描述了文本分类器，这些文本分类器应该在有害图像生成请求开始之前就阻止它们。还有一个下游推理模型，可以在向用户显示生成的输出之前对其进行评估。不过，这一切都没有阻止 Mindgard 修改后的病毒提示。

这种提示操作的例子相当极端，但它并不是唯一的例子。

网络犯罪分子对您了解多少？