详细内容或原文请订阅后点击阅览
AMUSE:用于代理多说话者理解的视听基准和对齐框架
最近的多模态大语言模型 (MLLM),例如 GPT-4o 和 Qwen3-Omni,表现出很强的感知能力,但在多说话者、以对话为中心的环境中表现不佳,这些环境需要代理推理跟踪谁说话、维持角色以及跨时间的基础事件。这些场景是多模式音频-视频理解的核心,其中模型必须在会话视频助手和会议分析等应用程序中联合推理音频和视频流。我们引入 AMUSE,这是一个围绕本质上代理的任务设计的基准,需要模型分解复杂的......
来源:Apple机器学习研究最近的多模态大语言模型 (MLLM),例如 GPT-4o 和 Qwen3-Omni,表现出很强的感知能力,但在多说话者、以对话为中心的环境中表现不佳,这些环境需要代理推理跟踪谁说话、维持角色以及跨时间的基础事件。这些场景是多模式音频-视频理解的核心,其中模型必须在会话视频助手和会议分析等应用程序中联合推理音频和视频流。我们引入了 AMUSE,这是一个围绕本质上代理的任务设计的基准,要求模型将复杂的视听交互分解为规划、基础和反思步骤。它评估了零样本、引导和代理三种模式以及六个任务系列的 MLLM,包括时空说话者基础和多模态对话摘要。在所有模式中,当前模型在非代理和代理评估下都表现出较弱的多说话者推理和不一致的行为。受这些任务固有的代理性质和 LLM 代理的最新进展的启发,我们提出了 RAFT,这是一种数据高效的代理对齐框架,它将奖励优化与内在的多模态自我评估相结合,作为数据和参数有效更新的奖励和选择性参数适应。使用 RAFT,我们的基准准确率相对提高了 39.52%。 AMUSE 和 RAFT 共同提供了一个实用的平台,用于检查多模态模型中的代理推理并提高其能力。
