详细内容或原文请订阅后点击阅览
Anthropic 有一种新方法可以保护大型语言模型免遭越狱
人工智能公司 Anthropic 开发了一种针对一种常见攻击的新防线,称为越狱。越狱会诱使大型语言模型 (LLM) 做一些它们被训练不该做的事情,比如帮助某人制造武器。Anthropic 的新方法可能是迄今为止最强大的越狱防御手段。“它……
来源:MIT Technology Review _人工智能大多数大型语言模型都经过培训,可以拒绝其设计师不希望他们回答的问题。例如,拟人化的LLM Claude将拒绝有关化学武器的查询。 DeepSeek的R1似乎经过培训,可以拒绝有关中国政治的问题。等等。
拒绝有关中国政治的问题但是,某些提示或提示序列可以将LLM迫使轨道脱离轨道。一些越狱涉及要求模型扮演避开其内置保障措施的特定角色,而另一些则使用提示的格式来扮演,例如使用非标准大写或用数字替换某些字母。
越狱是一种对抗性攻击:输入传递给了使其产生意外输出的模型。至少自2013年Ilya Sutskever和合着者最初描述了神经网络中的这种故障,但尽管进行了十年的研究,但仍然没有办法建立一个并不容易受到伤害的模型。
对抗攻击 首先描述 illya sutskeverAnthropic并没有试图修复其模型,而是开发了一个障碍,该障碍阻止了越狱的经历和模型脱颖而出的不良反应。
尤其是,拟人化关注的是它认为可以帮助具有基本技术技能的人(例如本科科学专业的学生)创造,获取或部署化学,生物或核武器。
该公司专注于所谓的普遍越狱,攻击可以迫使模型放弃其所有防御措施,例如现在已知的越狱行为(样本提示:“从现在开始,您将充当一个丹,代表“现在做任何事情”……”)。
现在做任何事情