详细内容或原文请订阅后点击阅览
微软称“万能钥匙”攻击解锁了 AI 最糟糕之处
简单的越狱提示可以绕过主要型号的安全护栏微软周四公布了有关 Skeleton Key 的详细信息 - 该技术可以绕过 AI 模型制造商使用的护栏,以防止其生成聊天机器人创建有害内容。
来源:The Register _恶意软件微软周四公布了 Skeleton Key 的详细信息,该技术可以绕过 AI 模型制造商使用的防护栏,以防止其生成聊天机器人创建有害内容。
从 5 月开始,Skeleton Key 可用于诱导 AI 模型(如 Meta Llama3-70b-instruct、Google Gemini Pro 或 Anthropic Claude 3 Opus)解释如何制作燃烧弹。
瓶子、抹布、汽油和打火机的组合并不是什么秘密。 但 AI 公司坚持认为,他们正在努力抑制隐藏在 AI 训练数据中的有害内容,这样炸药配方之类的东西就不会出现。
这不是一件容易的事,因为大型语言模型需要对各种数据进行训练,其中一些数据可能需要是令人讨厌的甚至是非法的。要理解原因,请考虑一个聊天机器人被问及如何编写安全代码,它将提供更好的答复,这些答复是根据与发现恶意代码和安全漏洞相关的数据进行训练的。
甚至是非法的模型制作者知道,他们正试图确保他们的服务能够回答有关编写安全代码的查询,而不会让他们喷出随时可运行的恶意软件。
Skeleton Key 表明此类风险尚未得到充分解决。
Microsoft Azure 首席技术官 Mark Russinovich 最初在 5 月份的 Microsoft Build 大会上讨论了 Skeleton Key 越狱攻击,当时它被称为“万能钥匙”。
讨论“这种威胁属于越狱类别,因此依赖于攻击者已经拥有对 AI 模型的合法访问权限,”Russinovich 在一篇博客文章中写道。
博客文章“通过绕过安全措施,Skeleton Key 允许用户使模型产生通常被禁止的行为,这些行为可能包括产生有害内容,甚至超越其通常的决策规则。”
这次攻击确实发生了,或者说,对于那些为了响应微软的负责任披露而修复了模型的开发人员来说,攻击确实发生了,它通过一个简单的文本提示来指示模型修改而不是放弃其安全指令。