rl-jack：强化学习驱动的黑盒越狱攻击LLMS__

rl-jack：强化学习驱动的黑盒越狱攻击LLMS

可下载资源数量

已经购买

下载数量：1

单价	0 2.0
Coupon	100% 0%
Total	0 2.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

rl-jack：强化学习驱动的黑盒越狱攻击LLMS

¥ 2.0

热度

现代大型语言模型（LLM）开发人员通常会设置安全一致性，以防止LLM产生不受欢迎或有害内容。这个对齐过程涉及使用人体标记的数据集对模型进行微调，其中包括拒绝回答不道德或有害问题的样本。但是，最近的研究发现，LLM的安全对准可以通过越狱提示绕开。这些提示旨在创建特定的对话方案，并有一个有害的问题。用这样的提示查询LLM可能会误导该模型来回答有害问题。大多数现有的越狱攻击要求模型内部或大量的人类干预才能产生越狱的提示。更先进的技术利用遗传学方法来实现自动化和黑框。然而，遗传方法的随机性和随机性质在很大程度上限制了最先进的（SOTA）越狱攻击的有效性和效率。在本文中，我们提出了RL-Jack，这是一种新颖的Blackbox越狱攻击，该攻击由深度增强学习（DRL）提供支持。我们将越狱提示的产生作为搜索问题，并设计了一种新颖的RL方法来解决它。我们的方法包括一系列定制设计，以在越狱背景下提高RL代理的学习效率。值得注意的是，我们设计了一个llm辅助的动作空间，该空间可以在约束整体搜索空间的同时进行di-verse动作变化。一旦受过培训，我们的经纪人就可以自动针对不同的LLM产生多样化的越狱提示。此外，我们提出了一种新颖的奖励功能，为代理商获得成功越狱的卑鄙的奖励。通过严格的分析，我们发现RL作为确定性搜索策略，比随机搜索方法（例如遗传算法）更有效，并且具有较小的随机性。通过广泛的评估，我们证明了RL-Jack总体上比对六个SOTA LLM的现有越狱攻击更有效，包括大型开源模型（例如Llama2-70B）和商业模型（GPT-3.5）。我们还显示了RL-Jack对三种SOTA防御的弹性及其在不同模型中的可转移性，包括非常大的Llama2-70B。我们通过详细的消融研究进一步证明了RL-Jack的RL代理的必要性以及我们的行动和奖励设计的有效性。最后，我们验证了RL杰克对关键超参数的变化的不敏感性。

添加pdf代下载 VIP点击下载文件

rl-jack：强化学习驱动的黑盒越狱攻击LLMS

主要关键词

广泛的敏感性包括防御的不同的随机性有效性数据集攻击经纪人大量的先进的变化的 SOTA 空间搜索策略开发人员变化不敏感性一系列设计的遗传算法越狱 RL 最近的不敏感代理的方法有害辅助的空间的多样化较小的代理商 LLM Jack 搜索严格的模型动作空间特定的搜索空间产生一致性标记的有害的提示详细的参数的现有的提高自动化

rl-jack：强化学习驱动的黑盒越狱攻击LLMSPDF文件第1页

rl-jack：强化学习驱动的黑盒越狱攻击LLMSPDF文件第2页

rl-jack：强化学习驱动的黑盒越狱攻击LLMSPDF文件第3页

rl-jack：强化学习驱动的黑盒越狱攻击LLMSPDF文件第4页

rl-jack：强化学习驱动的黑盒越狱攻击LLMSPDF文件第5页

可下载资源数量

已经购买

下载数量：1

rl-jack：强化学习驱动的黑盒越狱攻击LLMS

rl-jack：强化学习驱动的黑盒越狱攻击LLMS

相关文件推荐

强化学习驱动的数字孪生支持供应链决策

基于强化学习

强化学习：Q学习

强化学习（强化学习）

使用强化学习和智能合约智能预防DDOS攻击

AISYN：基于人工智能驱动的强化学习逻辑合成框架

深度强化学习

深度强化学习

通过基于模型的强化学习

AI驱动的学习与...

强化学习：调查

持续强化学习

与安全强化学习

通过对抗攻击和培训进行强大的深入强化学习：调查

深度强化学习

通过基于模型的强化学习

强化学习：DQN

推进强化学习

深度强化学习

强化学习基盘

基于表示的强化学习

使用强化学习

深度强化学习

强化学习简介

控制理论与强化学习

深度强化学习

多代理强化学习

密集的深强化学习

基于模型的强化学习

贝叶斯强化学习

XiaoMi-AI