删除的安全适配器可实现有效的护栏和灵活的推理时间对齐

现有用于确保AI安全性的范例,例如护栏模型和对齐训练,通常会损害推理效率或发展灵活性。我们引入了解开的安全适配器(DSA),这是一个新颖的框架,通过将特定于任务优化的基本模型解耦来解决这些挑战。 DSA利用轻巧的适配器来利用基本模型的内部表示形式,从而实现了多种而灵活的安全功能,对推断成本的影响很小。从经验上讲,基于DSA的安全护栏的表现要优于相当优于……

来源:Apple机器学习研究

现有用于确保AI安全性的范例,例如护栏模型和对齐训练,通常会损害推理效率或发展灵活性。我们引入了解开的安全适配器(DSA),这是一个新颖的框架,通过将特定于任务优化的基本模型解耦来解决这些挑战。 DSA利用轻巧的适配器来利用基本模型的内部表示形式,从而实现了多种而灵活的安全功能,对推断成本的影响很小。 Empirically, DSA-based safety guardrails substantially outperform comparably sized standalone models, notably improving hallucination detection (0.88 vs. 0.61 AUC on Summedits) and also excelling at classifying hate speech (0.98 vs. 0.92 on ToxiGen) and unsafe model inputs and responses (0.93 vs. 0.90 on AEGIS2.0 & BeaverTails).此外,基于DSA的安全对准可以动态,推理时间调整对齐强度和性能后的指导和模型安全性之间的精细元素权衡。重要的是,将DSA安全护栏与DSA安全对齐结合起来,有助于上下文依赖性的对齐强度,将强项的安全性提高了93%,同时保持MTBench上98%的性能 - 与标准安全对准点相比,总对齐税的总降低为8个百分点。总体而言,DSA提出了通往更模块化,高效和适应能力的AI安全性和对齐方式的有希望的途径。

图1:DSA体系结构的概述及其与标准安全技术的比较。