多模领域信息情报检索---XiaoMi-AI

ΑΙhub

2026年2月27日 09:28

AIhub 月度摘要：2026 年 2 月 – 集体决策、多模式学习和治理交互式人工智能的兴起

AIhub monthly digest: February 2026 – collective decision making, multi-modal learning, and governing the rise of interactive AI

欢迎来到我们的每月摘要，在这里您可以了解您可能错过的任何 AIhub 故事、仔细阅读最新新闻、回顾最近的事件等等。本月，我们将探索多智能体系统和集体决策，深入研究神经符号马尔可夫模型，并了解机器人如何通过与物理世界的交互来获得技能。 [...]

ΑΙhub

2026年2月11日 15:16

从视觉问答到多模态学习：艾西瓦娅·阿格拉瓦尔 (Aishwarya Agrawal) 访谈

From Visual Question Answering to multimodal learning: an interview with Aishwarya Agrawal

在 ACM SIGAI 的出版物《AI Matters》最新一期中，Ella Scallan 采访了 Aishwarya Agrawal，了解有关她的研究的更多信息、对人工智能未来最令她兴奋的因素以及对早期职业研究人员的建议。您荣获 2019 年 AAAI / ACM SIGAI 博士荣誉奖 [...]

亚马逊云科技 _机器学习

2026年2月5日 20:35

Amazon Nova 多模式嵌入实用指南

A practical guide to Amazon Nova Multimodal Embeddings

在本文中，您将了解如何为媒体资产搜索系统、产品发现体验和文档检索应用程序配置和使用 Amazon Nova Multimodal Embeddings。

Spritle 博客

2026年1月31日 05:28

多模式人工智能代理的兴起：更智能的系统还是更大的风险？

The Rise of Multimodal AI Agents: Smarter Systems or a Bigger Risk?

多模式人工智能代理的崛起：更智能的系统还是更大的风险？多模式人工智能代理的崛起：更智能的系统还是更大的风险？首先出现在Spritle软件上。

Qudata

2026年3月6日 09:00

探索Qwen3.5家族：从小到大

Exploring Qwen3.5 family: from small to massive

阿里巴巴的 Qwen3.5 通过 MoE 稀疏性和原生视觉语言融合，将多模态智能和高级推理与超高效计算相结合。这个开放重量系列涵盖紧凑型设备型号到大型旗舰版本，为从智能手机到云规模服务器的所有设备带来了高性能人工智能。

SciTech日报

2026年2月26日 18:13

我们所知道的语言的终结？科学家挑战 60 年的语言学研究

The End of Language As We Know It? Scientists Challenge 60 Years of Linguistic Research

一个国际团队建议用语言模型取代霍克特的特征清单，作为动态、多模式和社会进化的系统。六十多年来，查尔斯·霍克特的“设计特征”已被广泛用作定义人类语言与其他交流形式的区别的框架。这些功能长期以来被视为 [...]

计算智能

2026年2月25日 10:49

复杂与智能系统，第 12 卷，第 2 期，2026 年 2 月

Complex & Intelligent Systems, Volume 12, Issue 2, February 2026

1) I2D-SGG：通过关系内和关系间依赖关系的联合建模来生成场景图作者：Juan Lei，Jiangpeng Tian，Zhiwei He2) 一种用于可控且连贯音乐生成的和弦控制变压器作者：Zhiqiang Gang3) 基于评论和描述的冷启动下神经矩阵分解的深度推荐算法作者：Kechao Li，Nor Ashikin Mohamad Kamal4) Semantic实用程序驱动的面向任务的分裂联邦学习的客户端选择作者：刘泽培，金志刚，吴晓东5）基于协同进化的覆盖任务中的快速多AUV多区域覆盖路径规划器作者：蔡昌，刘雨辰，蔡雷6）一种改进的农业无人机方向感知的轻量灌溉渠分割网络作者：倪建

Apple机器学习研究

2026年2月24日 00:00

AMUSE：用于代理多说话者理解的视听基准和对齐框架

AMUSE: Audio-Visual Benchmark and Alignment Framework for Agentic Multi-Speaker Understanding

最近的多模态大语言模型 (MLLM)，例如 GPT-4o 和 Qwen3-Omni，表现出很强的感知能力，但在多说话者、以对话为中心的环境中表现不佳，这些环境需要代理推理跟踪谁说话、维持角色以及跨时间的基础事件。这些场景是多模式音频-视频理解的核心，其中模型必须在会话视频助手和会议分析等应用程序中联合推理音频和视频流。我们引入 AMUSE，这是一个围绕本质上代理的任务设计的基准，需要模型分解复杂的......

计算智能

2026年2月5日 10:57

复杂与智能系统，第 12 卷，第 1 期，2026 年 1 月

Complex & Intelligent Systems, Volume 12, Issue 1, January 2026

1) STRNet: 用于遥感语义分割的交互式融合双分支协同网络作者: 翟敏君, 陈东华, 郭兴2) 利用空间关系注意和网格解码器增强图像描述作者: 邓鑫, 朱一环, 徐宏华3) 约束多目标优化的自适应任务转换框架辅助进化多任务处理作者: 孙贤鹏, 晓川高，党潜龙4) 迈向安全高效的盾构隧道掘进：基于反事实强化学习的多子系统协同优化作者：卢静，胡敏，周文波5) GDA-RoadSeg：一种改进的具有门控深度注意力特征融合的道路分割网络作者：倪建军，马文普，Simon X. Yang6) 一种用于鲁棒和泛化ABSA的熵正则化反事实框架作者：邓干，杨海通，严友成7）基于Q学习增强粒子群算法的碳绿证

多模关键词检索结果