视频图像领域信息情报检索---XiaoMi-AI

2025年8月22日 00:00

slowfast-llava-1.5：一个代币高效的视频大型语言模型，用于长期视频理解

SlowFast-LLaVA-1.5: A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding

我们介绍了一个慢速fast-llava-1.5（缩写为sf-llava-1.5），这是一个视频大型语言模型（LLMS）的家族，提供具有令牌有效的解决方案，以进行长形式的视频理解。我们将两流的慢速机制纳入流线型训练管道中，并在仅策划的仅公开数据集的数据混合物中执行联合视频图像培训。我们的主要重点是高效的模型量表（1B和3B），表明即使是相对较小的视频LLM也可以在视频理解上实现最新的性能，满足对…

视频图像关键词检索结果

slowfast-llava-1.5：一个代币高效的视频大型语言模型，用于长期视频理解