推进以多模式大语言模型回答以自我为中心的视频

以当前的视频问答(QA)需要模型来处理长途时间推理,第一人称视角以及诸如频繁的摄像机运动之类的专业挑战。本文系统地评估了QAEGO4DV2上的专有和开源多模型模型(MLLMS) - 源自Qaego4d的EgeCentric视频的精制数据集。使用零摄像机和CloseQA设置的零摄像和微调方法评估了四个流行的MLLM(GPT-4O,GEMINI-1.5-PRO,VIDEO-LALAVA-7B和QWEN2-VL-7B-INSTRUCT)。我们将QAEGO4DV2介绍给MitigateAnnotation Noise…

来源:Apple机器学习研究

以当前的视频问答(QA)需要模型来处理长途时间推理,第一人称视角以及诸如频繁的摄像机运动之类的专业挑战。本文系统地评估了QAEGO4DV2上的专有和开源多模型模型(MLLMS) - 源自Qaego4d的EgeCentric视频的精制数据集。使用零摄像机和CloseQA设置的零摄像和微调方法评估了四个流行的MLLM(GPT-4O,GEMINI-1.5-PRO,VIDEO-LALAVA-7B和QWEN2-VL-7B-INSTRUCT)。我们将QAEGO4DV2引入QAEGO4D中的MitigaTeannotation噪声,从而更可靠地比较。我们的结果表明,微调的Video-Lalava-7b和Qwen2-VL-7B-Instruct实现了新的最先进的性能,超过了先前的基准测试,高达2.6%的Rouge/Meteor(对于OpenQA)和 + +13%的精度(对于CloseQA)。我们还提供了彻底的错误分析,表明该模型在空间推理和细粒对象识别方面的难度 - 未来改进的关键领域。