详细内容或原文请订阅后点击阅览
NarrativeTrack:评估框架之外的视频语言模型
多模态大语言模型 (MLLM) 在视觉语言推理方面取得了令人瞩目的进展,但它们理解视频中暂时展开的叙述的能力仍未得到充分探索。真正的叙事理解需要以谁在做什么、何时何地为基础,在动态视觉和时间上下文中保持连贯的实体表示。我们引入了 NarrativeTrack,这是第一个通过细粒度的以实体为中心的推理来评估 MLLM 中叙事理解的基准。与仅限于短剪辑或粗略场景级语义的现有基准不同......
来源:Apple机器学习研究多模态大语言模型 (MLLM) 在视觉语言推理方面取得了令人瞩目的进展,但它们理解视频中暂时展开的叙述的能力仍未得到充分探索。真正的叙事理解需要以谁在做什么、何时何地为基础,在动态视觉和时间上下文中保持连贯的实体表示。我们引入了 NarrativeTrack,这是第一个通过细粒度的以实体为中心的推理来评估 MLLM 中叙事理解的基准。与仅限于短片或粗略场景级语义的现有基准不同,我们将视频分解为组成实体,并通过组合推理进程(CRP)检查其连续性,这是一个结构化的评估框架,可在三个维度上逐步增加叙事复杂性:实体存在、实体变化和实体模糊性。 CRP 挑战模型从时间持久性发展到上下文演化和细粒度感知推理。完全自动化的以实体为中心的管道支持可扩展地提取基于时间的实体表示,为 CRP 提供了基础。对最先进的 MLLM 的评估表明,模型无法在视觉转换和时间动态中稳健地跟踪实体,通常会在上下文变化下产生幻觉身份。开源通用 MLLM 表现出很强的感知基础,但时间一致性较弱,而视频特定的 MLLM 捕获时间上下文,但会产生实体上下文的幻觉。这些发现揭示了知觉基础和时间推理之间的基本权衡,表明叙事理解只能从它们的整合中产生。 NarrativeTrack 提供了第一个系统框架来诊断和推进 MLLM 中基于时间的叙事理解。
