使用视频、图像和手部骨骼等高质量结构化数据进行手势分类是计算机视觉中一个经过充分探索的问题。或者,利用低功耗、经济高效的生物信号,例如表面肌电图 (sEMG),可以在可穿戴设备上进行连续手势预测。在这项工作中,我们的目标是通过将其与从结构化、高质量模态获得的嵌入对齐来提高 EMG 表示质量,这些模态提供丰富的语义指导,最终实现零样本手势泛化。具体来说,我们建议 EMBridge,一个...
From Visual Question Answering to multimodal learning: an interview with Aishwarya Agrawal
在 ACM SIGAI 的出版物《AI Matters》最新一期中,Ella Scallan 采访了 Aishwarya Agrawal,了解有关她的研究的更多信息、对人工智能未来最令她兴奋的因素以及对早期职业研究人员的建议。您荣获 2019 年 AAAI / ACM SIGAI 博士荣誉奖 [...]
The Multimodal AI Guide: Vision, Voice, Text, and Beyond
人工智能系统现在可以看到图像、听到语音、处理视频、理解原始形式的信息。
Complex & Intelligent Systems, Volume 12, Issue 2, February 2026
1) I2D-SGG:通过关系内和关系间依赖关系的联合建模来生成场景图作者:Juan Lei,Jiangpeng Tian,Zhiwei He2) 一种用于可控且连贯音乐生成的和弦控制变压器作者:Zhiqiang Gang3) 基于评论和描述的冷启动下神经矩阵分解的深度推荐算法作者:Kechao Li,Nor Ashikin Mohamad Kamal4) Semantic实用程序驱动的面向任务的分裂联邦学习的客户端选择作者:刘泽培,金志刚,吴晓东5)基于协同进化的覆盖任务中的快速多AUV多区域覆盖路径规划器作者:蔡昌,刘雨辰,蔡雷6)一种改进的农业无人机方向感知的轻量灌溉渠分割网络作者:倪建
AMUSE: Audio-Visual Benchmark and Alignment Framework for Agentic Multi-Speaker Understanding
最近的多模态大语言模型 (MLLM),例如 GPT-4o 和 Qwen3-Omni,表现出很强的感知能力,但在多说话者、以对话为中心的环境中表现不佳,这些环境需要代理推理跟踪谁说话、维持角色以及跨时间的基础事件。这些场景是多模式音频-视频理解的核心,其中模型必须在会话视频助手和会议分析等应用程序中联合推理音频和视频流。我们引入 AMUSE,这是一个围绕本质上代理的任务设计的基准,需要模型分解复杂的......
Complex & Intelligent Systems, Volume 12, Issue 1, January 2026
1) STRNet: 用于遥感语义分割的交互式融合双分支协同网络作者: 翟敏君, 陈东华, 郭兴2) 利用空间关系注意和网格解码器增强图像描述作者: 邓鑫, 朱一环, 徐宏华3) 约束多目标优化的自适应任务转换框架辅助进化多任务处理作者: 孙贤鹏, 晓川高,党潜龙4) 迈向安全高效的盾构隧道掘进:基于反事实强化学习的多子系统协同优化作者:卢静,胡敏,周文波5) GDA-RoadSeg:一种改进的具有门控深度注意力特征融合的道路分割网络作者:倪建军,马文普,Simon X. Yang6) 一种用于鲁棒和泛化ABSA的熵正则化反事实框架作者:邓干,杨海通,严友成7)基于Q学习增强粒子群算法的碳绿证