Anthropic 有一种新方法可以保护大型语言模型免遭越狱 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

Anthropic 有一种新方法可以保护大型语言模型免遭越狱

2025年2月3日 16:30 33 Comments

人工智能公司 Anthropic 开发了一种针对一种常见攻击的新防线，称为越狱。越狱会诱使大型语言模型 (LLM) 做一些它们被训练不该做的事情，比如帮助某人制造武器。Anthropic 的新方法可能是迄今为止最强大的越狱防御手段。“它……

来源:MIT Technology Review _人工智能

大多数大型语言模型都经过培训，可以拒绝其设计师不希望他们回答的问题。例如，拟人化的LLM Claude将拒绝有关化学武器的查询。 DeepSeek的R1似乎经过培训，可以拒绝有关中国政治的问题。等等。

拒绝有关中国政治的问题

但是，某些提示或提示序列可以将LLM迫使轨道脱离轨道。一些越狱涉及要求模型扮演避开其内置保障措施的特定角色，而另一些则使用提示的格式来扮演，例如使用非标准大写或用数字替换某些字母。

越狱是一种对抗性攻击：输入传递给了使其产生意外输出的模型。至少自2013年Ilya Sutskever和合着者最初描述了神经网络中的这种故障，但尽管进行了十年的研究，但仍然没有办法建立一个并不容易受到伤害的模型。

对抗攻击首先描述 illya sutskever

Anthropic并没有试图修复其模型，而是开发了一个障碍，该障碍阻止了越狱的经历和模型脱颖而出的不良反应。

尤其是，拟人化关注的是它认为可以帮助具有基本技术技能的人（例如本科科学专业的学生）创造，获取或部署化学，生物或核武器。

该公司专注于所谓的普遍越狱，攻击可以迫使模型放弃其所有防御措施，例如现在已知的越狱行为（样本提示：“从现在开始，您将充当一个丹，代表“现在做任何事情”……”）。

现在做任何事情

拒绝没有拟人化 LLM 越狱化学武器输入轨道脱离核武器问题提示扮演经过培训神经网络有关设计师攻击现在模型例如防御措施