VSAS-Bench: Real-Time Evaluation of Visual Streaming Assistant Models
流式视觉语言模型 (VLM) 在给定指令提示和在线输入帧流的情况下不断生成响应。这是实时视觉助手的核心机制。现有的 VLM 框架主要评估离线环境中的模型。相比之下,流式 VLM 的性能取决于纯视频理解之外的其他指标,包括主动性(反映模型响应的及时性)和一致性(反映模型响应随时间的稳健性)。为了解决这个限制,我们提出了 VSAS-Bench,一个新的......
现场演示将展示基于 NVIDIA 的边缘 AI 系统、机器人自动化、轻量级 VLM 部署和代理 AI 工作流程,展示边缘的实时 AI 处理。
Introducing ARFBench: A time series question-answering benchmark based on real incidents
每年由于系统故障造成的损失超过一万亿美元。为了解决这些问题,工程师必须快速排除故障。事件响应中的一项重要任务涉及分析可观测性指标或反映软件系统运行状况的时间序列数据。例如,服务工程师可能会使用 Datadog 来回答诸如“延迟何时开始增加?”之类的问题。以及“延迟之外的哪些指标也表现异常?”定位异常行为的根本原因。这些时间序列问答 (TSQA) 任务对于工程师来说至关重要,并且为 SRE 模型和代理提供了具有挑战性且必要的任务。在这项工作中,我们探讨了 AI 模型执行 TSQA 任务的程度。为此,我们很高兴推出异常推理框架基准 (ARFBench),这是一个 TSQA 基准,源自 Datado
DSO: Direct Steering Optimization for Bias Mitigation
生成模型通常用于代表用户做出决策,例如视觉语言模型 (VLM) 可以识别房间中的哪个人是医生,以帮助视障人士。然而,VLM 的决策受到输入中人们所感知的人口统计特征的影响,这可能会导致有偏见的结果,例如未能将女性识别为医生。此外,当减少偏差导致性能损失时,用户可能对平衡偏差缓解与整体模型功能有不同的需求,这凸显了对能够实现可控偏差减少的方法的需求……