VLSU: Mapping the Limits of Joint Multimodal Understanding for AI Safety
本文在 NeurIPS 2025 的“从评估不断发展的法学硕士生命周期中学习”研讨会上被接受。多模式基础模型的安全评估通常单独处理视觉和语言输入,忽略了联合解释的风险,即良性内容组合起来会变得有害。现有的方法也无法区分明显不安全的内容和边缘情况,导致对真正有害的内容存在过度阻止或拒绝不足的问题。我们提出视觉语言安全理解(VLSU),这是一个系统评估多模式的综合框架……
Can AI Music Ever Feel Human? The Answer Goes beyond the Sound
对人工智能音乐平台 Suno 最新模型的个人实验与一项新的预印本研究相呼应。大多数听众无法区分人工智能音乐和真实音乐,但情感共鸣仍然需要人类故事