图像特征关键词检索结果

SafetyPairs:通过反事实图像生成隔离安全关键图像特征

SafetyPairs: Isolating Safety Critical Image Features with Counterfactual Image Generation

本文被 ICLR 2026 的可信人工智能原理设计 — 可解释性、稳健性和跨模态安全性研讨会接受。到底是什么导致特定图像不安全?系统地区分良性图像和有问题的图像是一个具有挑战性的问题,因为图像的细微变化(例如侮辱性手势或符号)可能会极大地改变其安全含义。然而,现有的图像安全数据集粗糙且模糊,仅提供广泛的安全标签,而没有隔离导致这些差异的特定特征。我们介绍...