对模型关键词检索结果

personateaming:探索引入角色如何改善自动化的AI红色团队

PersonaTeaming: Exploring How Introducing Personas Can Improve Automated AI Red-Teaming

在Neurips 20225的有关可调节的ML(REML)的研讨会上接受了本文。AI治理和安全研究的持续发展呼吁采用红色团队的方法,这些方法可以有效地表现出AI模型带来的潜在潜在风险。这些呼吁中的许多人都强调了红色团队的身份和背景如何塑造他们的红色团队策略,从而可能会发现各种风险。虽然自动红色团队的方法有望通过对模型行为进行大规模探索来补充人类红色团队,但当前的方法不考虑角色……