详细内容或原文请订阅后点击阅览
mm-ego:朝着以自我为中心的多模式LLMS
这项研究旨在全面探索建立以自我为中心视频理解的多模式基础模型。为了实现这一目标,我们在三个方面工作。首先,由于缺乏质量为中心的视频理解的质量检查数据,因此我们将自动生成7m高质量的质量质量样本,用于基于人类通知数据的ego4d的自我中心视频。这是最大的中心QA数据集之一。其次,我们通过629个视频和7,026个问题来贡献一个具有挑战性的QA基准,以评估模型的识别能力和…
来源:Apple机器学习研究这项研究旨在全面探索建立以自我为中心视频理解的多模式基础模型。为了实现这一目标,我们在三个方面工作。首先,由于缺乏质量为中心的视频理解的质量检查数据,因此我们将自动生成7m高质量的质量质量样本,用于基于人类通知数据的ego4d的自我中心视频。这是最大的中心QA数据集之一。其次,我们通过629个视频和7,026个问题为具有挑战性的以Egentric QA为中心的QA基准,以评估模型在不同长度的视频中识别和记住视觉细节的能力。我们引入了一种新的偏见评估方法,以帮助减轻所评估模型中存在的不可避免的语言偏见。第三,我们提出了一种专业的多模式体系结构,其中包含``内存指针提示''机制。该设计包括一个全球瞥见的步骤,以获得对整个视频的总体理解并确定关键的视觉信息,然后使用关键的视觉信息来生成响应。该模型可以更有效地构建视频,并建立了extend extrend extrend extrend-ender-ender-ender-ender nodeg quant,并建立了模型。多模式的LLM在以自我为中心的视频理解上显示出强大的性能
†香港科学技术大学(HKUST)