SafetyPairs：通过反事实图像生成隔离安全关键图像特征 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

SafetyPairs：通过反事实图像生成隔离安全关键图像特征

2026年3月24日 00:00 33 Comments

本文被 ICLR 2026 的可信人工智能原理设计 — 可解释性、稳健性和跨模态安全性研讨会接受。到底是什么导致特定图像不安全？系统地区分良性图像和有问题的图像是一个具有挑战性的问题，因为图像的细微变化（例如侮辱性手势或符号）可能会极大地改变其安全含义。然而，现有的图像安全数据集粗糙且模糊，仅提供广泛的安全标签，而没有隔离导致这些差异的特定特征。我们介绍...

来源:Apple机器学习研究

本文已被 ICLR 2026 的可信 AI 原则设计——跨模态的可解释性、鲁棒性和安全性研讨会接受。

究竟是什么导致特定图像不安全？系统地区分良性图像和有问题的图像是一个具有挑战性的问题，因为图像的细微变化（例如侮辱性手势或符号）可能会极大地改变其安全含义。然而，现有的图像安全数据集粗糙且模糊，仅提供广泛的安全标签，而没有隔离导致这些差异的特定特征。我们引入了 SafetyPairs，这是一个用于生成反事实图像对的可扩展框架，这些图像仅在与给定安全策略相关的特征上有所不同，从而翻转了它们的安全标签。通过利用图像编辑模型，我们对图像进行有针对性的更改，改变其安全标签，同时保持与安全无关的细节不变。使用 SafetyPairs，我们构建了一个新的安全基准，它作为评估数据的强大来源，突出了视觉语言模型区分细微不同图像的能力的弱点。除了评估之外，我们发现我们的管道可以作为一种有效的数据增强策略，可以提高训练轻量级防护模型的样本效率。我们发布了一个基准，其中包含 3,020 多个 SafetyPair 图像，涵盖 9 个安全类别的不同分类法，为研究细粒度图像安全差异提供了第一个系统资源。

† 美国佐治亚理工学院

** 在 Apple 期间完成的工作

‡ 同等资深作者

美国系统资源分类法鲁棒性细粒度提高现有的广泛的研讨会有效的针对性数据完成的安全模型的安全性标签相关的数据集差异图像区分作为资深 SafetyPairs 模型改变基准评估细微

SafetyPairs：通过反事实图像生成隔离安全关键图像特征

其他外部链接

Tags

XiaoMi-AI