模态关键词检索结果

专访向方:多模态学习与具身智能

Interview with Xiang Fang: Multi-modal learning and embodied intelligence

每年都会选出一小群博士生参加 AAAI/SIGAI 博士联盟。该计划为学生提供了一个机会,在跨学科研讨会上与知名研究人员小组一起讨论和探索他们的研究兴趣和职业目标。在过去的几年里,我们一直在见面 [...]

MANZANO:具有混合视觉分词器的简单且可扩展的统一多模态模型

MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer

能够理解和生成视觉内容的统一多模式大语言模型 (LLM) 拥有巨大的潜力。然而,现有的开源模型通常会受到这些功能之间性能权衡的影响。我们提出了 Manzano,一个简单且可扩展的统一框架,通过将混合图像标记器与精心策划的训练方案相结合,大大减少了这种紧张。单个共享视觉编码器为两个轻量级适配器提供数据,这些适配器在公共…内生成用于图像到文本理解的连续嵌入和用于文本到图像生成的离散标记。

多模态视觉代理的自动提示优化:自动驾驶汽车示例

Automatic Prompt Optimization for Multimodal Vision Agents: A Self-Driving Car Example

使用 Python 中的开源提示优化算法来提高在 OpenAI 的 GPT 5.2 上运行的自动驾驶汽车安全代理的准确性的演练多模态视觉代理的自动提示优化:自动驾驶汽车示例首先出现在 Towards Data Science 上。

IEEE Transactions on Neural Networks and Learning Systems,第 37 卷,第 1 期,2026 年 1 月

IEEE Transactions on Neural Networks and Learning Systems, Volume 37, Issue 1, January 2026

1) 隐私保护视频异常检测:调查作者:Yang Liu、Siao Liu、朱晓光、Hao Yang、Jielin Li、JuncenGuo、Liangyu Teng、Dingkang Yang、Yan Wang、Jing LiuPages:2 - 212) SSPPI:从序列和结构角度预测跨模态增强的蛋白质相互作用作者:Xiangpeng Bi, Wenjian Ma、Huasen Jiang、Weigang Lu、Zhiqiang Wei、Shugang 张页数:22 - 363) 整合临床知识图谱和基于梯度的神经系统,通过七点检查表增强黑色素瘤诊断作者:Yuheng Wang、Tianze

IEEE 模糊系统汇刊,第 34 卷,第 1 期,2026 年 1 月

IEEE Transactions on Fuzzy Systems, Volume 34, Issue 1, January 2026

1) 基于推理与动力学模糊融合的水下滑翔机迎角增强轨迹预测作者:臧汶川,王博涵,张汉斌,宋大雷,郭婷婷页数:1 - 132) 通信链路故障的 NMSV 人在环时变编队控制:规定时间模糊控制器作者:丁腾飞、易子恒、葛明峰页数:14 - 263) 更精确、更快:大型工作空间中机械臂的双尺度遥操作作者:孙鹏宇、李卫华、李军、刘逸群、王建峰、丁亮、周承旭页数:27 - 404) FCGNN:模糊认知图用于少样本学习的概念演化的神经网络作者:Linhua Zou、Dongqing Li、Chengxi Jiang、Yu Wang、Hong Zhao 页数:41 - 525) PAC-X:用于多类恶意软件

DeepMMSearch-R1:在多模式网络搜索中为多模式法学硕士提供支持

DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search

现实应用中的多模态大型语言模型 (MLLM) 需要访问外部知识源,并且必须保持对动态且不断变化的现实世界信息的响应,以便解决信息查找和知识密集型用户查询。现有的方法,例如检索增强生成 (RAG) 方法、搜索代理和配备搜索的 MLLM,通常会遇到僵化的管道、过多的搜索调用和构造不良的搜索查询,从而导致效率低下和结果不佳。为了解决这些限制,我们提出......

NarrativeTrack:评估框架之外的视频语言模型

NarrativeTrack: Evaluating Video Language Models Beyond the Frame

多模态大语言模型 (MLLM) 在视觉语言推理方面取得了令人瞩目的进展,但它们理解视频中暂时展开的叙述的能力仍未得到充分探索。真正的叙事理解需要以谁在做什么、何时何地为基础,在动态视觉和时间上下文中保持连贯的实体表示。我们引入了 NarrativeTrack,这是第一个通过细粒度的以实体为中心的推理来评估 MLLM 中叙事理解的基准。与仅限于短剪辑或粗略场景级语义的现有基准不同......

IEEE Transactions on Cognitive and Developmental Systems,第 17 卷,第 6 期,2025 年 12 月

IEEE Transactions on Cognitive and Developmental Systems, Volume 17, Issue 6, December 2025

1) CLARE:多模态数据实时认知负荷评估作者:Anubhav Bhatti、Prithila Angkan、Behnam Behinaein、Zunayed Mahmud、Dirk Rodenburg、Heather Braund、P. James Mclellan、Aaron Ruberto、Geoffery Harrison、Daryl Wilson、Adam Szulewski、Dan Howes、Ali Etemad、Paul Hungler页数:1337 - 13492) 基于脑电图的统一方法使用连续多元变分模式分解检测儿童多种神经发育障碍作者:Ujjawal Chandela、

您今天可以免费试用 Google 的新 Gemini 3 Flash AI 模型 - 甚至在搜索的 AI 模式下也是如此

You can try Google's new Gemini 3 Flash AI model today for free - it's even in Search's AI Mode

新模型旨在平衡速度与功能,将增强 Gemini 用户已经期待的许多人工智能功能,例如氛围编码和多模态。

具有多模式提示的统一开放世界分割

Unified Open-World Segmentation with Multi-Modal Prompts

近年来,开放世界图像分割技术迅速发展,包括开放词汇分割和上下文分割。尽管如此,现有方法仅限于单一模态提示,缺乏复杂的对象感知提示所需的灵活性和准确性。在这项工作中,我们提出了 COSINE,一个统一的开放世界分割模型,它整合了开放词汇分割和上下文分割。通过将开放词汇任务和上下文分割任务构建为可提示的分割任务,COSINE 支持多种输入模式……

UniGen-1.5:通过强化学习中的奖励统一增强图像生成和编辑

UniGen-1.5: Enhancing Image Generation and Editing through Reward Unification in Reinforcement Learning

我们推出 UniGen-1.5,这是一种用于高级图像理解、生成和编辑的统一多模态大语言模型 (MLLM)。在UniGen的基础上,我们全面增强了模型架构和训练流程,以增强图像理解和生成能力,同时释放强大的图像编辑能力。特别是,我们提出了一种统一的强化学习(RL)策略,通过共享奖励模型共同改进图像生成和图像编辑。为了进一步增强图像编辑性能,我们提出了一个轻型编辑指令对齐阶段......