VSAS-Bench:视觉流辅助模型的实时评估

流式视觉语言模型 (VLM) 在给定指令提示和在线输入帧流的情况下不断生成响应。这是实时视觉助手的核心机制。现有的 VLM 框架主要评估离线环境中的模型。相比之下,流式 VLM 的性能取决于纯视频理解之外的其他指标,包括主动性(反映模型响应的及时性)和一致性(反映模型响应随时间的稳健性)。为了解决这个限制,我们提出了 VSAS-Bench,一个新的......

来源:Apple机器学习研究

流式视觉语言模型 (VLM) 在给定指令提示和在线输入帧流的情况下不断生成响应。这是实时视觉助手的核心机制。现有的 VLM 框架主要评估离线环境中的模型。相比之下,流式 VLM 的性能取决于纯视频理解之外的其他指标,包括主动性(反映模型响应的及时性)和一致性(反映模型响应随时间的稳健性)。为了解决这一限制,我们提出了 VSAS-Bench,这是视觉流媒体助手的新框架和基准。与之前主要在视频输入上采用单轮问答的基准测试相比,VSAS-Bench 具有时间密集的注释,在不同的输入域和任务类型中拥有超过 18,000 个注释。我们引入标准化的同步和异步评估协议,以及隔离和测量流式 VLM 不同功能的指标。使用这个框架,我们对最近的视频和流媒体 VLM 进行了大规模评估,分析了内存缓冲区长度、内存访问策略和输入分辨率等关键设计因素下的准确性与延迟权衡,得出了一些实用的见解。最后,我们凭经验证明传统的 VLM 无需额外训练即可适应流媒体设置,并证明这些适应模型优于最新的流媒体 VLM。例如,Qwen3-VL-4B 在异步协议下比我们基准测试中最好的流媒体 VLM Dispider 领先 3%。