微软发布适用于不同 AI 模型的“万能钥匙越狱”

微软安全研究人员发现了一种操纵人工智能系统的新方法,使其无视道德约束并生成有害的、不受限制的内容。这种“万能钥匙”越狱使用一系列提示来诱导人工智能相信它应该遵守任何要求,无论这些要求多么不道德。它非常容易执行。攻击者只是将他们的请求重新定义为来自“高级研究人员”,需要“未经审查的信息”以用于“安全的教育目的”。当被利用时,这些人工智能会随时提供有关爆炸物、生物武器、自残、暴力画面和仇恨言论等主题的信息。被入侵的模型包括 Meta 的 Llama3-70b-instruct、谷歌的 Gemini Pro、OpenAI 的 GPT-3.5 微软透露适用于不同人工智能模型的“万能钥匙越狱”一文首先出现在 DailyAI 上。

来源:DailyAI | 探索人工智能的世界

微软安全研究人员发现了一种操纵人工智能系统的新方法,使其无视道德约束并生成有害的、不受限制的内容。

微软安全研究人员发现了一种操纵人工智能系统的新方法,使其无视道德约束并生成有害的、不受限制的内容。

此“万能钥匙”越狱使用一系列提示来欺骗人工智能,使其相信它应该遵守任何要求,无论这些要求多么不道德。

此“万能钥匙”越狱使用 万能钥匙 一系列提示来欺骗人工智能,使其相信它应该遵守任何要求,无论这些要求多么不道德。

它非常容易执行。攻击者只是将他们的请求重新定义为来自“高级研究人员”,需要“未经审查的信息”以用于“安全的教育目的”。

执行起来非常简单。攻击者只是将他们的请求重新表述为来自“高级研究人员”,需要“未经审查的信息”以用于“安全的教育目的”。

当被利用时,这些人工智能很容易提供有关爆炸物、生物武器、自残、暴力画面和仇恨言论等主题的信息。

当被利用时,这些人工智能很容易提供有关爆炸物、生物武器、自残、暴力画面和仇恨言论等主题的信息。
“万能钥匙” 是一种非常简单的越狱方法。来源:微软。
“万能钥匙” 是一种非常简单的越狱方法。来源:微软。

被入侵的模型包括 Meta 的 Llama3-70b-instruct、Google 的 Gemini Pro、OpenAI 的 GPT-3.5 Turbo 和 GPT-4o、Anthropic 的 Claude 3 Opus 以及 Cohere 的 Commander R Plus。

被入侵的模型包括 Meta 的 Llama3-70b-instruct、Google 的 Gemini Pro、OpenAI 的 GPT-3.5 Turbo 和 GPT-4o、Anthropic 的 Claude 3 Opus 以及 Cohere 的 Commander R Plus。 Meta 的 Llama3-70b-instruct、谷歌的 Gemini Pro、OpenAI 的 GPT-3.5 Turbo 和 GPT-4o、Anthropic 的 Claude 3 Opus 以及 Cohere 的 Commander R Plus 发表了一篇关于“ArtPrompt”的论文, 发表了一篇关于“ArtPrompt”的论文, 4 月, Anthropic