视频图像关键词检索结果

slowfast-llava-1.5:一个代币高效的视频大型语言模型,用于长期视频理解

SlowFast-LLaVA-1.5: A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding

我们介绍了一个慢速fast-llava-1.5(缩写为sf-llava-1.5),这是一个视频大型语言模型(LLMS)的家族,提供具有令牌有效的解决方案,以进行长形式的视频理解。我们将两流的慢速机制纳入流线型训练管道中,并在仅策划的仅公开数据集的数据混合物中执行联合视频图像培训。我们的主要重点是高效的模型量表(1B和3B),表明即使是相对较小的视频LLM也可以在视频理解上实现最新的性能,满足对…