详细内容或原文请订阅后点击阅览
StreamBridge:将您的离线视频大型语言模型变成主动的流媒体
我们提出了StreamBridge,这是一个简单而有效的框架,无缝地将离线视频插件转换为具有流能力的模型。它解决了将现有模型调整为在线方案的两个基本挑战:(1)有限的实时理解能力有限,以及(2)缺乏主动的响应机制。具体而言,StreamBridge结合了(1)一个内存缓冲区,并结合了一个圆形截止的压缩策略,支持长篇小说多转变的交互,以及(2)一个可以毫不费力地集成到现有的…
来源:Apple机器学习研究我们提出了StreamBridge,这是一个简单而有效的框架,无缝地将离线视频插件转换为具有流能力的模型。它解决了将现有模型调整为在线方案的两个基本挑战:(1)有限的实时理解能力有限,以及(2)缺乏主动的响应机制。具体而言,StreamBridge结合了(1)一个与圆形截止的压缩策略相结合的内存缓冲区,支持长篇小说多转变的交互,以及(2)可以毫不费力地集成到现有的视频-LLM中的脱钩,轻巧的激活模型,从而实现连续的主动响应。为了进一步支持Streambridge,我们构建了一个针对流媒体视频理解的大规模数据集,该数据集具有交织的视频文本序列和不同的说明格式。广泛的实验表明,Streambridge显着提高了各种任务中离线视频插件的流媒体了解,甚至超过了诸如GPT-4O和Gemini 1.5 Pro之类的专有模型。同时,它可以在标准视频理解基准测试中实现竞争性或卓越的性能。
†Fudan University‡‡苹果实习期间完成的工作