微软称“万能钥匙”攻击解锁了 AI 最糟糕之处 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

微软称“万能钥匙”攻击解锁了 AI 最糟糕之处

1900年1月20日 15:07 33 Comments

简单的越狱提示可以绕过主要型号的安全护栏微软周四公布了有关 Skeleton Key 的详细信息 - 该技术可以绕过 AI 模型制造商使用的护栏，以防止其生成聊天机器人创建有害内容。

来源:The Register _恶意软件

微软周四公布了 Skeleton Key 的详细信息，该技术可以绕过 AI 模型制造商使用的防护栏，以防止其生成聊天机器人创建有害内容。

从 5 月开始，Skeleton Key 可用于诱导 AI 模型（如 Meta Llama3-70b-instruct、Google Gemini Pro 或 Anthropic Claude 3 Opus）解释如何制作燃烧弹。

瓶子、抹布、汽油和打火机的组合并不是什么秘密。但 AI 公司坚持认为，他们正在努力抑制隐藏在 AI 训练数据中的有害内容，这样炸药配方之类的东西就不会出现。

这不是一件容易的事，因为大型语言模型需要对各种数据进行训练，其中一些数据可能需要是令人讨厌的甚至是非法的。要理解原因，请考虑一个聊天机器人被问及如何编写安全代码，它将提供更好的答复，这些答复是根据与发现恶意代码和安全漏洞相关的数据进行训练的。

甚至是非法的

模型制作者知道，他们正试图确保他们的服务能够回答有关编写安全代码的查询，而不会让他们喷出随时可运行的恶意软件。

Skeleton Key 表明此类风险尚未得到充分解决。

Microsoft Azure 首席技术官 Mark Russinovich 最初在 5 月份的 Microsoft Build 大会上讨论了 Skeleton Key 越狱攻击，当时它被称为“万能钥匙”。

讨论

“这种威胁属于越狱类别，因此依赖于攻击者已经拥有对 AI 模型的合法访问权限，”Russinovich 在一篇博客文章中写道。

博客文章

“通过绕过安全措施，Skeleton Key 允许用户使模型产生通常被禁止的行为，这些行为可能包括产生有害内容，甚至超越其通常的决策规则。”

这次攻击确实发生了，或者说，对于那些为了响应微软的负责任披露而修复了模型的开发人员来说，攻击确实发生了，它通过一个简单的文本提示来指示模型修改而不是放弃其安全指令。

机器人文章越狱 Microsoft 内容 Skeleton Key 有害聊天 Russinovich 不会 AI 数据非法的编写模型指示模型的产生