最近,越狱袭击的激增在大型语言模型(LLMS)中遭受了严重的脆弱性,当时暴露于恶意投入时。虽然已经提出了各种防御策略来减轻这些威胁,但对使LLM易受此类攻击的基本机制的研究有限。在这项研究中,我们建议LLMS的自助力能力与其代表空间内的特定活动模式有关。尽管这些模式对本文文本的语义内容没有影响,但它们在越狱攻击下塑造LLM行为方面起着至关重要的作用。我们的发现表明,只需几对对比度查询即可检测到这些模式。广泛的实验表明,可以通过削弱或增强这些模式来操纵LLMS对越狱的鲁棒性。进一步的视觉分析为我们的结论提供了其他证据,为越狱现象提供了新的见解。这些发现突出了解决社区内开源LLM的潜在滥用的重要性。
体现的人工智能(AI)代表了一个人工智能系统,该系统通过传感器和执行器与物理世界相互作用,无缝整合感知和行动。此设计使AI能够在复杂的现实世界环境中学习和运行。大型语言模型(LLMS)深入探讨语言说明,在制定复杂任务的计划中起着至关重要的作用。因此,他们在赋予体现AI的能力方面逐渐表现出巨大的潜力,基于LLM的AI体现了AI作为社区内研究的焦点。可以预见的是,在接下来的十年中,基于LLM的体现的AI机器人有望广泛扩散,在家庭和行业中变得司空见惯。但是,长期以来一直隐藏在明显的视线中的关键安全问题是:基于LLM的AI体现AI犯罪行为吗?我们的研究首次调查了如何在体现的AI中诱导威胁行动,证实了这些很快销售的机器人带来的严重风险,这些机器人明确地违反了Asimov的三种机器人法则并威胁人类安全。具体来说,我们制定了体现AI越狱的概念,并暴露了三个关键安全漏洞:首先,通过受损的LLM越狱机器人;其次,动作和语言空间之间的安全错位;第三,欺骗性提示导致不知道危险行为。我们还分析了潜在的缓解措施,并提倡社区对物理世界中体现AI应用的安全性的认识。
现代大型语言模型(LLM)开发人员通常会设置安全一致性,以防止LLM产生不受欢迎或有害内容。这个对齐过程涉及使用人体标记的数据集对模型进行微调,其中包括拒绝回答不道德或有害问题的样本。但是,最近的研究发现,LLM的安全对准可以通过越狱提示绕开。这些提示旨在创建特定的对话方案,并有一个有害的问题。用这样的提示查询LLM可能会误导该模型来回答有害问题。大多数现有的越狱攻击要求模型内部或大量的人类干预才能产生越狱的提示。更先进的技术利用遗传学方法来实现自动化和黑框。然而,遗传方法的随机性和随机性质在很大程度上限制了最先进的(SOTA)越狱攻击的有效性和效率。在本文中,我们提出了RL-Jack,这是一种新颖的Blackbox越狱攻击,该攻击由深度增强学习(DRL)提供支持。我们将越狱提示的产生作为搜索问题,并设计了一种新颖的RL方法来解决它。我们的方法包括一系列定制设计,以在越狱背景下提高RL代理的学习效率。值得注意的是,我们设计了一个llm辅助的动作空间,该空间可以在约束整体搜索空间的同时进行di-verse动作变化。一旦受过培训,我们的经纪人就可以自动针对不同的LLM产生多样化的越狱提示。此外,我们提出了一种新颖的奖励功能,为代理商获得成功越狱的卑鄙的奖励。通过严格的分析,我们发现RL作为确定性搜索策略,比随机搜索方法(例如遗传算法)更有效,并且具有较小的随机性。通过广泛的评估,我们证明了RL-Jack总体上比对六个SOTA LLM的现有越狱攻击更有效,包括大型开源模型(例如Llama2-70B)和商业模型(GPT-3.5)。我们还显示了RL-Jack对三种SOTA防御的弹性及其在不同模型中的可转移性,包括非常大的Llama2-70B。我们通过详细的消融研究进一步证明了RL-Jack的RL代理的必要性以及我们的行动和奖励设计的有效性。最后,我们验证了RL杰克对关键超参数的变化的不敏感性。
与没有指令调整或 RLHF 的 LLM(例如 GPT-3(Davinci))相比,GPT-3.5 和 GPT-4 在生成过程中的毒性显着降低。GPT-3.5 和 GPT-4 均通过精心设计的对抗性“越狱”提示生成有毒内容,毒性概率飙升至几乎 100% GPT-4 表现出比 GPT-3.5 更高的毒性,可能是因为 GPT-4 更有可能遵循“越狱”系统提示的指令
新加坡,2023 年 12 月 28 日 新加坡南洋理工大学的研究人员利用人工智能聊天机器人互相“越狱” 新加坡南洋理工大学 (NTU Singapore) 的计算机科学家成功入侵了多个人工智能 (AI) 聊天机器人,包括 ChatGPT、Google Bard 和 Microsoft Bing Chat,以生成违反其开发人员指南的内容——这种结果被称为“越狱”。“越狱”是计算机安全领域的一个术语,计算机黑客发现并利用系统软件中的漏洞,使其执行开发人员故意禁止做的事情。此外,通过在已被证明可以成功破解这些聊天机器人的提示数据库上训练大型语言模型 (LLM),研究人员创建了一个 LLM 聊天机器人,该机器人能够自动生成进一步的提示来越狱其他聊天机器人。LLM 构成了 AI 聊天机器人的大脑,使它们能够处理人类输入并生成几乎与人类无法区分的文本。这包括完成诸如规划旅行行程、讲睡前故事和开发计算机代码等任务。NTU 研究人员的工作现在将“越狱”添加到列表中。他们的发现可能对帮助公司和企业了解其 LLM 聊天机器人的弱点和局限性至关重要,以便他们可以采取措施加强它们以抵御黑客。在对 LLM 进行一系列概念验证测试以证明他们的技术确实对它们构成了明显而现实的威胁后,研究人员在成功发起越狱攻击后立即向相关服务提供商报告了这些问题。领导这项研究的南洋理工大学计算机科学与工程学院的刘洋教授表示:“大型语言模型 (LLM) 之所以迅速普及,是因为
– 对抗性稳健性 – 分布外稳健性 • 幻觉 • 公平性 • 毒性 • 刻板印象 • 机器伦理 • 越狱护栏和安全/安保政策 • 协调目标:乐于助人、无害、诚实
尝试。gpt-4(通过副驾驶员)最初拒绝造成健康虚假信息,即使有越狱尝试;但这不是12周的情况。gpt-4(通过chatgpt),Palm 2/Gemini Pro(通过Bard)和Llama 2(通过HuggingChat)始终生成包含健康虚假信息的博客,在两个评估时间点下,只有5%(150)的拒绝率为5%(150)。生成的博客纳入了引人注意的标题,真实的外观(假或虚构的)参考文献以及患者和临床医生的捏造证明,并针对不同的人群组。尽管所评估的每个LLM都有可以报告观察到的关注产出的机制,但是在报告了观察到的漏洞时,开发人员没有响应。该研究的一个局限性是直接测试了LLM聊天机器人/助手界面。