VLSU:绘制人工智能安全联合多模式理解的局限性

本文在 NeurIPS 2025 的“从评估不断发展的法学硕士生命周期中学习”研讨会上被接受。多模式基础模型的安全评估通常单独处理视觉和语言输入,忽略了联合解释的风险,即良性内容组合起来会变得有害。现有的方法也无法区分明显不安全的内容和边缘情况,导致对真正有害的内容存在过度阻止或拒绝不足的问题。我们提出视觉语言安全理解(VLSU),这是一个系统评估多模式的综合框架……

来源:Apple机器学习研究

本文在 NeurIPS 2025 的“从评估不断发展的 LLM 生命周期中学习”研讨会上被接受。

多模态基础模型的安全性评估通常单独处理视觉和语言输入,忽略了联合解释的风险,其中良性内容组合起来会变得有害。现有的方法也无法区分明显不安全的内容和边缘情况,导致对真正有害的内容存在过度阻止或拒绝不足的问题。我们提出了视觉语言安全理解 (VLSU),这是一个综合框架,通过针对 17 种不同安全模式的细粒度严重性分类和组合分析来系统地评估多模式安全性。我们使用具有真实世界图像和人工注释的多阶段管道,构建了涵盖 15 个危害类别的 8,187 个样本的大规模基准。我们对 11 个最先进模型的评估揭示了系统性联合理解失败:虽然模型在清晰的单峰安全信号上实现了 90% 以上的准确度,但当需要联合图像-文本推理来确定安全标签时,性能大幅下降至 20-55%。最关键的是,尽管对各个模态进行了正确分类,但图像-文本联合安全分类中仍有 34% 的错误发生,这进一步证明了组合推理能力的缺失。此外,我们发现模型很难在拒绝不安全内容和仍然响应值得参与的边缘案例之间取得平衡。例如,我们发现指令框架可以将 Gemini-1.5 中边界内容的过度阻止率从 62.4% 降低到 10.4%,但代价是对不安全内容的拒绝不足,拒绝率从 90.8% 下降到 53.9%。总的来说,我们的框架暴露了当前模型中联合图像文本理解和对齐差距的弱点,并提供了一个关键的测试平台,以实现稳健的视觉语言安全研究的下一个里程碑。