获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
SlowFast-LLaVA-1.5: A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding
我们介绍了一个慢速fast-llava-1.5(缩写为sf-llava-1.5),这是一个视频大型语言模型(LLMS)的家族,提供具有令牌有效的解决方案,以进行长形式的视频理解。我们将两流的慢速机制纳入流线型训练管道中,并在仅策划的仅公开数据集的数据混合物中执行联合视频图像培训。我们的主要重点是高效的模型量表(1B和3B),表明即使是相对较小的视频LLM也可以在视频理解上实现最新的性能,满足对…