Loading...
机构名称:
¥ 1.0

随着大型语言模型(LLM)的成功,将视觉模型融入了LLM,以建立视觉语言基础模型最近引起了人们的兴趣。但是,现有的基于LLM的大型多模式模型(例如,视频播放,视频聊天)只能摄入有限数量的框架以进行简短的视频理解。在这项研究中,我们主要专注于设计一个有效有效的模型,以进行长期视频理解。我们建议以在线方式处理视频并将过去的视频信息存储在存储库中,而不是像大多数现有作品一样尝试同时进行更多框架。这使我们的模型可以参考历史视频内容以进行长期分析,而不会超过LLM的上下文长度约束或GPU内存限制。我们的内存库可以以现成的方式被缝制到当前的多模式LLMS中。我们在各种视频理解任务上进行了广泛的实验,例如长期介绍,视频问题答案和视频字幕,我们的模型可以在多个数据集中实现最新的性能。

ma-lmm:长期视频理解的内存大型多模型

ma-lmm:长期视频理解的内存大型多模型PDF文件第1页

ma-lmm:长期视频理解的内存大型多模型PDF文件第2页

ma-lmm:长期视频理解的内存大型多模型PDF文件第3页

ma-lmm:长期视频理解的内存大型多模型PDF文件第4页

ma-lmm:长期视频理解的内存大型多模型PDF文件第5页

相关文件推荐

2021 年
¥1.0