personateaming:探索引入角色如何改善自动化的AI红色团队

在Neurips 20225的有关可调节的ML(REML)的研讨会上接受了本文。AI治理和安全研究的持续发展呼吁采用红色团队的方法,这些方法可以有效地表现出AI模型带来的潜在潜在风险。这些呼吁中的许多人都强调了红色团队的身份和背景如何塑造他们的红色团队策略,从而可能会发现各种风险。虽然自动红色团队的方法有望通过对模型行为进行大规模探索来补充人类红色团队,但当前的方法不考虑角色……

来源:Apple机器学习研究

本文在2025年Neurips的可调节ML(REML)的研讨会上接受。

AI治理和安全研究的最新发展呼吁采用红色团队的方法,这些方法可以有效地表达AI模型带来的潜在风险。这些呼吁中的许多人都强调了红色团队的身份和背景如何塑造他们的红色团队策略,从而可能会发现各种风险。尽管自动红色团队的方法有望通过对模型行为进行大规模探索来补充人类红色团队,但当前的方法不考虑身份的作用。作为将人们的背景和身份纳入自动红色团队的第一步,我们开发和评估了一种新颖的方法,即人化,该方法在对抗性及时生成过程中引入角色,以探索更广泛的对抗性策略。特别是,我们首先引入了一种基于“红色团队专家”角色或“常规AI用户”角色的提示的方法。然后,我们开发了一种动态的角色生成算法,该算法会自动生成各种角色类型适应于不同的种子提示。此外,我们开发了一组新的指标,以明确测量“突变距离”,以补充对抗提示的现有多样性测量。我们的实验表明,与最先进的自动化的红色团队方法相比,通过角色突变的对抗性提示的攻击成功率有望改善(高达144.1%),同时保持迅速的多样性。我们讨论了不同角色类型和突变方法的优势和局限性,从而阐明了未来探索自动化和人类红色团队方法之间互补性的机会。

    †卡内基·梅隆大学
  • †卡内基·梅隆大学
  • •独立研究人员
  • **在Apple