SafetyPairs:通过反事实图像生成隔离安全关键图像特征

本文被 ICLR 2026 的可信人工智能原理设计 — 可解释性、稳健性和跨模态安全性研讨会接受。到底是什么导致特定图像不安全?系统地区分良性图像和有问题的图像是一个具有挑战性的问题,因为图像的细微变化(例如侮辱性手势或符号)可能会极大地改变其安全含义。然而,现有的图像安全数据集粗糙且模糊,仅提供广泛的安全标签,而没有隔离导致这些差异的特定特征。我们介绍...

来源:Apple机器学习研究

本文已被 ICLR 2026 的可信 AI 原则设计——跨模态的可解释性、鲁棒性和安全性研讨会接受。

究竟是什么导致特定图像不安全?系统地区分良性图像和有问题的图像是一个具有挑战性的问题,因为图像的细微变化(例如侮辱性手势或符号)可能会极大地改变其安全含义。然而,现有的图像安全数据集粗糙且模糊,仅提供广泛的安全标签,而没有隔离导致这些差异的特定特征。我们引入了 SafetyPairs,这是一个用于生成反事实图像对的可扩展框架,这些图像仅在与给定安全策略相关的特征上有所不同,从而翻转了它们的安全标签。通过利用图像编辑模型,我们对图像进行有针对性的更改,改变其安全标签,同时保持与安全无关的细节不变。使用 SafetyPairs,我们构建了一个新的安全基准,它作为评估数据的强大来源,突出了视觉语言模型区分细微不同图像的能力的弱点。除了评估之外,我们发现我们的管道可以作为一种有效的数据增强策略,可以提高训练轻量级防护模型的样本效率。我们发布了一个基准,其中包含 3,020 多个 SafetyPair 图像,涵盖 9 个安全类别的不同分类法,为研究细粒度图像安全差异提供了第一个系统资源。

  • † 美国佐治亚理工学院
  • ** 在 Apple 期间完成的工作
  • ‡ 同等资深作者