Advancing Egocentric Video Question Answering with Multimodal Large Language Models
以当前的视频问答(QA)需要模型来处理长途时间推理,第一人称视角以及诸如频繁的摄像机运动之类的专业挑战。本文系统地评估了QAEGO4DV2上的专有和开源多模型模型(MLLMS) - 源自Qaego4d的EgeCentric视频的精制数据集。使用零摄像机和CloseQA设置的零摄像和微调方法评估了四个流行的MLLM(GPT-4O,GEMINI-1.5-PRO,VIDEO-LALAVA-7B和QWEN2-VL-7B-INSTRUCT)。我们将QAEGO4DV2介绍给MitigateAnnotation Noise…