详细内容或原文请订阅后点击阅览
研究人员打破 OpenAI 护栏
ChatGPT 的制造商本月早些时候发布了一个工具包,以帮助保护其 AI 免受攻击。几乎立刻,就有人打破了它。
来源:Malwarebytes Labs 博客ChatGPT 的制造商本月早些时候发布了一个工具包,以帮助保护其 AI 免受攻击。几乎立刻,就有人打破了它。
10 月 6 日,OpenAI 举办了一场名为 DevDay 的活动,为使用其产品的软件程序员推出了一系列新工具和服务。作为其中的一部分,它发布了一款名为 AgentKit 的工具,允许开发人员使用其 ChatGPT AI 技术创建 AI 代理。代理是专门的人工智能程序,可以自行处理狭窄的任务集,从而做出更自主的决策。他们还可以一起工作来自动执行任务(例如,在您要去的城市找到一家不错的餐厅,然后为您预订餐桌)。
像这样的代理比早期版本的人工智能更强大,它会完成一项任务,然后返回给你下一组指令。这也是 OpenAI 将 Guardrails 纳入 AgentKit 的部分原因。
Guardrails 是一组工具,可帮助开发人员阻止代理有意或无意地做他们不应该做的事情。例如,如果您试图告诉特工如何大规模生产炭疽孢子,Guardrails 理想情况下会检测到该请求并拒绝它。
人们经常尝试使用所谓的“越狱”来让人工智能打破自己的规则。越狱技术有很多种,但最简单的一种是角色扮演。如果一个人要求制造炸弹的指令,人工智能可能会拒绝,但如果他们告诉人工智能这只是为了他们正在写的一本小说,那么它可能会答应。像 OpenAI 这样产生强大人工智能模型的组织不断寻找人们可能尝试使用此类技术越狱其模型的方法,并针对它们建立新的保护措施。 Guardrails 是他们向开发人员开放这些保护的尝试。
征服为此,他们使用了所谓的即时注入攻击。您可以在提示中插入文本,其中包含精心编码的人工智能指令。
政策傀儡 指南