打破视频法学硕士基准:知识、空间感知还是真正的时间理解?

本文在 NeurIPS 2025 的 Evaluating the Evolving LLM Lifecycle Workshop 上被接受。现有的视频理解基准通常将基于知识的问题和纯粹基于图像的问题混为一谈,而不是明确隔离模型的时间推理能力,而这是区分视频理解与其他模态的关键方面。我们发现了两个主要限制,这些限制掩盖了较高的分数是否真正表明对视频中的动态内容有更强的理解:(1)强大的语言先验,模型可以在不观看视频的情况下回答问题;和(2)...

来源:Apple机器学习研究

本文已被 NeurIPS 2025 的评估不断发展的 LLM 生命周期研讨会接受。

现有的视频理解基准通常将基于知识的问题和纯粹基于图像的问题混为一谈,而不是明确隔离模型的时间推理能力,而这是区分视频理解与其他模态的关键方面。我们发现了两个主要限制,这些限制掩盖了较高的分数是否真正表明对视频中的动态内容有更强的理解:(1)强大的语言先验,模型可以在不观看视频的情况下回答问题; (2) 洗牌不变性,即使视频帧暂时洗牌,模型在某些问题上也能保持相似的性能。为了缓解这些问题,我们提出了 VBenchComp,这是一种自动管道,可将问题分类到不同的领域:LLM-Answerable、语义和时间。具体来说,LLM-Answerable问题无需观看视频即可回答;即使视频帧被打乱,语义问题仍然是可以回答的;时间问题需要理解帧的正确时间顺序。其余问题被标记为“其他”。这可以对视频法学硕士的不同能力进行细粒度评估。我们的分析揭示了传统总体分数隐藏的细微模型弱点,并且我们提供了设计未来基准的见解和建议,以更准确地评估视频法学硕士。

    ° 同等贡献* 通讯作者
  • ° 平等贡献
  • * 通讯作者