VSAS-Bench：视觉流辅助模型的实时评估 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

VSAS-Bench：视觉流辅助模型的实时评估

2026年5月22日 00:00 33 Comments

流式视觉语言模型 (VLM) 在给定指令提示和在线输入帧流的情况下不断生成响应。这是实时视觉助手的核心机制。现有的 VLM 框架主要评估离线环境中的模型。相比之下，流式 VLM 的性能取决于纯视频理解之外的其他指标，包括主动性（反映模型响应的及时性）和一致性（反映模型响应随时间的稳健性）。为了解决这个限制，我们提出了 VSAS-Bench，一个新的......

来源:Apple机器学习研究

流式视觉语言模型 (VLM) 在给定指令提示和在线输入帧流的情况下不断生成响应。这是实时视觉助手的核心机制。现有的 VLM 框架主要评估离线环境中的模型。相比之下，流式 VLM 的性能取决于纯视频理解之外的其他指标，包括主动性（反映模型响应的及时性）和一致性（反映模型响应随时间的稳健性）。为了解决这一限制，我们提出了 VSAS-Bench，这是视觉流媒体助手的新框架和基准。与之前主要在视频输入上采用单轮问答的基准测试相比，VSAS-Bench 具有时间密集的注释，在不同的输入域和任务类型中拥有超过 18,000 个注释。我们引入标准化的同步和异步评估协议，以及隔离和测量流式 VLM 不同功能的指标。使用这个框架，我们对最近的视频和流媒体 VLM 进行了大规模评估，分析了内存缓冲区长度、内存访问策略和输入分辨率等关键设计因素下的准确性与延迟权衡，得出了一些实用的见解。最后，我们凭经验证明传统的 VLM 无需额外训练即可适应流媒体设置，并证明这些适应模型优于最新的流媒体 VLM。例如，Qwen3-VL-4B 在异步协议下比我们基准测试中最好的流媒体 VLM Dispider 领先 3%。

视频输入时间的任务类型不同的模型响应核心机模型标准化的输入主动性流式一致性最新的缓冲区传统的稳健性框架 Bench 测试视觉最好的 VSAS 适应内存标准化流媒体 VLM 评估实用的功能的异步准确性额外训练响应的分辨率大规模最近的基准密集的现有的

VSAS-Bench：视觉流辅助模型的实时评估

其他外部链接

Tags

XiaoMi-AI