slowfast-llava-1.5：一个代币高效的视频大型语言模型，用于长期视频理解 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

slowfast-llava-1.5：一个代币高效的视频大型语言模型，用于长期视频理解

2025年8月22日 00:00 33 Comments

来源:Apple机器学习研究

我们介绍了一个慢速fast-llava-1.5（缩写为sf-llava-1.5），这是一个视频大型语言模型（LLMS）的家族，提供具有令牌有效的解决方案，以进行长形式的视频理解。我们将两流的慢速机制纳入流线型训练管道中，并在仅策划的仅公开数据集的数据混合物中执行联合视频图像培训。我们的主要重点是高效的模型量表（1B和3B），表明即使是相对较小的视频LLM也可以在视频理解上实现最先进的性能，满足对移动友好型模型的需求。实验结果表明，SF-LALAVA-1.5在各种视频和图像任务上都取得了卓越的性能，并且在所有型号尺寸（从1B到7b之间）具有强大的结果。值得注意的是，SF-llava-1.5实现了最先进的视频理解（例如LongVideObench和MLVU），并在各种视频基准的小尺度上脱颖而出。

数据集较小的理解具有联合基准的先进的提供流线型模型性能视频图像有效的混合物实验结果 1.5 SF 模型的需求视频强大的取得执行 llava 1B 慢速

slowfast-llava-1.5：一个代币高效的视频大型语言模型，用于长期视频理解

其他外部链接

Tags

XiaoMi-AI