slowfast-llava-1.5:一个代币高效的视频大型语言模型,用于长期视频理解

我们介绍了一个慢速fast-llava-1.5(缩写为sf-llava-1.5),这是一个视频大型语言模型(LLMS)的家族,提供具有令牌有效的解决方案,以进行长形式的视频理解。我们将两流的慢速机制纳入流线型训练管道中,并在仅策划的仅公开数据集的数据混合物中执行联合视频图像培训。我们的主要重点是高效的模型量表(1B和3B),表明即使是相对较小的视频LLM也可以在视频理解上实现最新的性能,满足对…

来源:Apple机器学习研究

我们介绍了一个慢速fast-llava-1.5(缩写为sf-llava-1.5),这是一个视频大型语言模型(LLMS)的家族,提供具有令牌有效的解决方案,以进行长形式的视频理解。我们将两流的慢速机制纳入流线型训练管道中,并在仅策划的仅公开数据集的数据混合物中执行联合视频图像培训。我们的主要重点是高效的模型量表(1B和3B),表明即使是相对较小的视频LLM也可以在视频理解上实现最先进的性能,满足对移动友好型模型的需求。实验结果表明,SF-LALAVA-1.5在各种视频和图像任务上都取得了卓越的性能,并且在所有型号尺寸(从1B到7b之间)具有强大的结果。值得注意的是,SF-llava-1.5实现了最先进的视频理解(例如LongVideObench和MLVU),并在各种视频基准的小尺度上脱颖而出。