一个高效、可重用的评估人工智能安全的框架

约翰霍普金斯大学和微软的研究人员开发的可持续方法在大型语言模型中模拟风险,以在上线之前防止伤害

来源:约翰霍普金斯大学

作者:杰米·帕特森

随着新的大型语言模型(LLM)的快速开发和部署,评估其安全性和发现潜在漏洞的现有方法很快就会过时。

为了在影响关键应用程序之前识别安全问题,约翰霍普金斯大学的研究人员开发了一种可更新且可持续的框架来评估法学硕士,该框架将不同类型的攻击简化为高质量、易于更新的安全测试,同时运行所需的人力最少。

他们的工作“Jailbreak Distillation:可再生安全基准”发表在 2025 年自然语言处理经验方法会议的调查结果中。

在 LLM 越狱中,种子查询是初始的,通常是良性的提示,其最终目标可能是引发 LLM 的有害行为,但由于其明显的对抗性而不会成功。相反,它们被用来探索特定 LLM 的安全护栏,并通知攻击算法,该算法将它们转换和细化为更有针对性和复杂的提示,可以成功绕过 LLM 的护栏并实现所需的有害行为。

为了自动化此过程以进行安全测试,研究人员采用了经证明运行良好的现有对抗算法,并将其与最新开发的法学硕士进行了运行,以生成各种攻击提示。

“构建这个池后,我们使用提示选择算法来选择这些生成的攻击提示的有效子集,并开发一个有效的安全基准,”计算机科学系的博士生、该研究的第一作者 Jingyu “Jack”Zhang 解释道,他在 Microsoft 实习期间进行了这项研究。

“由于法学硕士在全球范围内部署,如果其安全性未得到彻底评估和管理,它们将构成重大风险。......可靠的安全基准测试方法至关重要。”

张靖宇“Jack”

第一作者