VLSU: Mapping the Limits of Joint Multimodal Understanding for AI Safety
本文在 NeurIPS 2025 的“从评估不断发展的法学硕士生命周期中学习”研讨会上被接受。多模式基础模型的安全评估通常单独处理视觉和语言输入,忽略了联合解释的风险,即良性内容组合起来会变得有害。现有的方法也无法区分明显不安全的内容和边缘情况,导致对真正有害的内容存在过度阻止或拒绝不足的问题。我们提出视觉语言安全理解(VLSU),这是一个系统评估多模式的综合框架……