CloseQA领域信息情报检索---XiaoMi-AI

2025年6月27日 08:14

推进以多模式大语言模型回答以自我为中心的视频

Advancing Egocentric Video Question Answering with Multimodal Large Language Models

以当前的视频问答（QA）需要模型来处理长途时间推理，第一人称视角以及诸如频繁的摄像机运动之类的专业挑战。本文系统地评估了QAEGO4DV2上的专有和开源多模型模型（MLLMS） - 源自Qaego4d的EgeCentric视频的精制数据集。使用零摄像机和CloseQA设置的零摄像和微调方法评估了四个流行的MLLM（GPT-4O，GEMINI-1.5-PRO，VIDEO-LALAVA-7B和QWEN2-VL-7B-INSTRUCT）。我们将QAEGO4DV2介绍给MitigateAnnotation Noise…

CloseQA关键词检索结果

推进以多模式大语言模型回答以自我为中心的视频