AMUSE: Audio-Visual Benchmark and Alignment Framework for Agentic Multi-Speaker Understanding
最近的多模态大语言模型 (MLLM),例如 GPT-4o 和 Qwen3-Omni,表现出很强的感知能力,但在多说话者、以对话为中心的环境中表现不佳,这些环境需要代理推理跟踪谁说话、维持角色以及跨时间的基础事件。这些场景是多模式音频-视频理解的核心,其中模型必须在会话视频助手和会议分析等应用程序中联合推理音频和视频流。我们引入 AMUSE,这是一个围绕本质上代理的任务设计的基准,需要模型分解复杂的......
Cambridge university accused of ‘obfuscation’ over arms investment
学者称40亿英镑的投资基金“旨在防止任何麻烦的民主干预” 剑桥大学的学者们指责该大学对其40亿英镑的投资基金及其如何从投资军火制造商中获利连续进行“最大程度的混淆”。该大学的管理机构预计将于周一开会,审议一份有关其与国防部门财务关系的报告,但一些高级职员表示,由于该机构对所涉及的公司不透明,因此无法对投资进行适当的审查。继续阅读...
IEEE Transactions on Neural Networks and Learning Systems, Volume 37, Issue 1, January 2026
1) 隐私保护视频异常检测:调查作者:Yang Liu、Siao Liu、朱晓光、Hao Yang、Jielin Li、JuncenGuo、Liangyu Teng、Dingkang Yang、Yan Wang、Jing LiuPages:2 - 212) SSPPI:从序列和结构角度预测跨模态增强的蛋白质相互作用作者:Xiangpeng Bi, Wenjian Ma、Huasen Jiang、Weigang Lu、Zhiqiang Wei、Shugang 张页数:22 - 363) 整合临床知识图谱和基于梯度的神经系统,通过七点检查表增强黑色素瘤诊断作者:Yuheng Wang、Tianze