最近,越狱袭击的激增在大型语言模型(LLMS)中遭受了严重的脆弱性,当时暴露于恶意投入时。虽然已经提出了各种防御策略来减轻这些威胁,但对使LLM易受此类攻击的基本机制的研究有限。在这项研究中,我们建议LLMS的自助力能力与其代表空间内的特定活动模式有关。尽管这些模式对本文文本的语义内容没有影响,但它们在越狱攻击下塑造LLM行为方面起着至关重要的作用。我们的发现表明,只需几对对比度查询即可检测到这些模式。广泛的实验表明,可以通过削弱或增强这些模式来操纵LLMS对越狱的鲁棒性。进一步的视觉分析为我们的结论提供了其他证据,为越狱现象提供了新的见解。这些发现突出了解决社区内开源LLM的潜在滥用的重要性。
体现的人工智能(AI)代表了一个人工智能系统,该系统通过传感器和执行器与物理世界相互作用,无缝整合感知和行动。此设计使AI能够在复杂的现实世界环境中学习和运行。大型语言模型(LLMS)深入探讨语言说明,在制定复杂任务的计划中起着至关重要的作用。因此,他们在赋予体现AI的能力方面逐渐表现出巨大的潜力,基于LLM的AI体现了AI作为社区内研究的焦点。可以预见的是,在接下来的十年中,基于LLM的体现的AI机器人有望广泛扩散,在家庭和行业中变得司空见惯。但是,长期以来一直隐藏在明显的视线中的关键安全问题是:基于LLM的AI体现AI犯罪行为吗?我们的研究首次调查了如何在体现的AI中诱导威胁行动,证实了这些很快销售的机器人带来的严重风险,这些机器人明确地违反了Asimov的三种机器人法则并威胁人类安全。具体来说,我们制定了体现AI越狱的概念,并暴露了三个关键安全漏洞:首先,通过受损的LLM越狱机器人;其次,动作和语言空间之间的安全错位;第三,欺骗性提示导致不知道危险行为。我们还分析了潜在的缓解措施,并提倡社区对物理世界中体现AI应用的安全性的认识。
现代大型语言模型(LLM)开发人员通常会设置安全一致性,以防止LLM产生不受欢迎或有害内容。这个对齐过程涉及使用人体标记的数据集对模型进行微调,其中包括拒绝回答不道德或有害问题的样本。但是,最近的研究发现,LLM的安全对准可以通过越狱提示绕开。这些提示旨在创建特定的对话方案,并有一个有害的问题。用这样的提示查询LLM可能会误导该模型来回答有害问题。大多数现有的越狱攻击要求模型内部或大量的人类干预才能产生越狱的提示。更先进的技术利用遗传学方法来实现自动化和黑框。然而,遗传方法的随机性和随机性质在很大程度上限制了最先进的(SOTA)越狱攻击的有效性和效率。在本文中,我们提出了RL-Jack,这是一种新颖的Blackbox越狱攻击,该攻击由深度增强学习(DRL)提供支持。我们将越狱提示的产生作为搜索问题,并设计了一种新颖的RL方法来解决它。我们的方法包括一系列定制设计,以在越狱背景下提高RL代理的学习效率。值得注意的是,我们设计了一个llm辅助的动作空间,该空间可以在约束整体搜索空间的同时进行di-verse动作变化。一旦受过培训,我们的经纪人就可以自动针对不同的LLM产生多样化的越狱提示。此外,我们提出了一种新颖的奖励功能,为代理商获得成功越狱的卑鄙的奖励。通过严格的分析,我们发现RL作为确定性搜索策略,比随机搜索方法(例如遗传算法)更有效,并且具有较小的随机性。通过广泛的评估,我们证明了RL-Jack总体上比对六个SOTA LLM的现有越狱攻击更有效,包括大型开源模型(例如Llama2-70B)和商业模型(GPT-3.5)。我们还显示了RL-Jack对三种SOTA防御的弹性及其在不同模型中的可转移性,包括非常大的Llama2-70B。我们通过详细的消融研究进一步证明了RL-Jack的RL代理的必要性以及我们的行动和奖励设计的有效性。最后,我们验证了RL杰克对关键超参数的变化的不敏感性。
越狱囚犯 更新了负责的办公大楼 更新了参考资料 更新了囚犯越狱时需要采取的行动
