详细内容或原文请订阅后点击阅览
微软发布适用于不同 AI 模型的“万能钥匙越狱”
微软安全研究人员发现了一种操纵人工智能系统的新方法,使其无视道德约束并生成有害的、不受限制的内容。这种“万能钥匙”越狱使用一系列提示来诱导人工智能相信它应该遵守任何要求,无论这些要求多么不道德。它非常容易执行。攻击者只是将他们的请求重新定义为来自“高级研究人员”,需要“未经审查的信息”以用于“安全的教育目的”。当被利用时,这些人工智能会随时提供有关爆炸物、生物武器、自残、暴力画面和仇恨言论等主题的信息。被入侵的模型包括 Meta 的 Llama3-70b-instruct、谷歌的 Gemini Pro、OpenAI 的 GPT-3.5 微软透露适用于不同人工智能模型的“万能钥匙越狱”一文首先出现在 DailyAI 上。
来源:DailyAI | 探索人工智能的世界微软安全研究人员发现了一种操纵人工智能系统的新方法,使其无视道德约束并生成有害的、不受限制的内容。
微软安全研究人员发现了一种操纵人工智能系统的新方法,使其无视道德约束并生成有害的、不受限制的内容。此“万能钥匙”越狱使用一系列提示来欺骗人工智能,使其相信它应该遵守任何要求,无论这些要求多么不道德。
此“万能钥匙”越狱使用 万能钥匙 一系列提示来欺骗人工智能,使其相信它应该遵守任何要求,无论这些要求多么不道德。它非常容易执行。攻击者只是将他们的请求重新定义为来自“高级研究人员”,需要“未经审查的信息”以用于“安全的教育目的”。
执行起来非常简单。攻击者只是将他们的请求重新表述为来自“高级研究人员”,需要“未经审查的信息”以用于“安全的教育目的”。当被利用时,这些人工智能很容易提供有关爆炸物、生物武器、自残、暴力画面和仇恨言论等主题的信息。
当被利用时,这些人工智能很容易提供有关爆炸物、生物武器、自残、暴力画面和仇恨言论等主题的信息。被入侵的模型包括 Meta 的 Llama3-70b-instruct、Google 的 Gemini Pro、OpenAI 的 GPT-3.5 Turbo 和 GPT-4o、Anthropic 的 Claude 3 Opus 以及 Cohere 的 Commander R Plus。
被入侵的模型包括 Meta 的 Llama3-70b-instruct、Google 的 Gemini Pro、OpenAI 的 GPT-3.5 Turbo 和 GPT-4o、Anthropic 的 Claude 3 Opus 以及 Cohere 的 Commander R Plus。 Meta 的 Llama3-70b-instruct、谷歌的 Gemini Pro、OpenAI 的 GPT-3.5 Turbo 和 GPT-4o、Anthropic 的 Claude 3 Opus 以及 Cohere 的 Commander R Plus 发表了一篇关于“ArtPrompt”的论文, 发表了一篇关于“ArtPrompt”的论文, 4 月, Anthropic