MLLM领域信息情报检索---XiaoMi-AI

2026年2月24日 00:00

AMUSE：用于代理多说话者理解的视听基准和对齐框架

AMUSE: Audio-Visual Benchmark and Alignment Framework for Agentic Multi-Speaker Understanding

最近的多模态大语言模型 (MLLM)，例如 GPT-4o 和 Qwen3-Omni，表现出很强的感知能力，但在多说话者、以对话为中心的环境中表现不佳，这些环境需要代理推理跟踪谁说话、维持角色以及跨时间的基础事件。这些场景是多模式音频-视频理解的核心，其中模型必须在会话视频助手和会议分析等应用程序中联合推理音频和视频流。我们引入 AMUSE，这是一个围绕本质上代理的任务设计的基准，需要模型分解复杂的......

MLLM关键词检索结果

AMUSE：用于代理多说话者理解的视听基准和对齐框架