模态关键词检索结果

专访 Sukanya Mandal:合成智慧城市智能的多模态知识图

Interview with Sukanya Mandal: Synthesizing multi-modal knowledge graphs for smart city intelligence

Sukanya Mandal 和 Noel O’Connor 在 AAAI 秋季研讨会系列上发表的论文《LLMasMMKG:LLM Assisted Synthetic Multi-Modal Knowledge Graph Creation For Smart City Cognitive Digital Twins》中介绍了一种利用大型语言模型来自动构建专为智慧城市认知设计的综合多模态知识图的方法 [...]

Bones Studio 将发布 BONES-SEED - 第一个专为人形机器人构建的多模态运动数据集

Bones Studio to Release BONES-SEED - the First Multimodal Motion Dataset Purpose-Built for Humanoid Robotics

到目前为止,构建人形机器人的研究人员和初创公司面临着严峻的挑战:没有专门为机器人设计的公开可用的大规模带注释运动数据集。在 GTC 2026 上,Bones Studio 正在利用 NVIDIA 技术缩小这一差距。

MixAtlas:多模式 LLM 中期训练的不确定性感知数据混合优化

MixAtlas: Uncertainty-aware Data Mixture Optimization for Multimodal LLM Midtraining

本文在 ICLR 2026 的导航和解决基础模型数据问题研讨会 (NADPFM) 上被接受。原则上的领域重新加权可以大幅提高样本效率和下游泛化能力;然而,多模式预训练的数据混合优化仍未得到充分探索。当前的多模式训练方法仅从数据格式或任务类型等单一角度调整混合物。我们介绍 MixAtlas,这是一个通过系统域分解和更小的代理模型进行计算高效的多模态混合优化的原则框架......

IEEE Transactions on Cognitive and Developmental Systems,第 18 卷,第 2 期,2026 年 4 月

IEEE Transactions on Cognitive and Developmental Systems, Volume 18, Issue 2, April 2026

1) 机器人抓取中一致路径的抓取表示和检测作者:L. Chen, Z. Li, J. Yang, Z. Lu, P. Wu, T. ChenPages: 302 - 3022) CIDDA: Classifier-Driven Implicit Discriminator Domain Adaptation for EEG-Based Emotion Recognition and Depression Severity Grading作者:R. Hu, Z. Yang, J. Shan, N. Su, Y. Tang, H. Yan, X. Lv, D. Fu, H. Zhu, T. Jia

IEEE Transactions on Neural Networks and Learning Systems,第 37 卷,第 4 期,2026 年 4 月

IEEE Transactions on Neural Networks and Learning Systems, Volume 37, Issue 4, April 2026

1) 基于多模态特征和深度学习网络的嗅觉受体与分子相互作用的新方法作者:F. Wang, X. Xie, Y. Xiong, Z. Liu, M. Kong, H. Dong, X. ChenPages: 1506 - 15172) 基于随机锚图聚合的谱嵌入表示作者:J. Zhou, F. Li, C. Gau, W. Ding, W. Pedrycz, G. Lang页面: 1518 - 15323) 基于有向图压缩通信的去中心化在线优化作者: H. Liu, B. Zhang, Z. Yu, D. Yuan, M. Dai页面: 1533 - 15454) 基于高阶累积量的直接高效因果方法

IEEE 模糊系统汇刊,第 34 卷,第 4 期,2026 年 4 月

IEEE Transactions on Fuzzy Systems, Volume 34, Issue 4, April 2026

1) 客座社论:模糊大型模型专题:桥接不确定性和创造力作者:H. Yu、Q. Liu、W. Pedrycz、J. Lu 页数:1039 - 10402) FMA-Net:用于细粒度图像识别的模糊相互注意网络作者:H. Huang、J. -H.李,S.-K。 Oh, Z. Fu, J. H. Yoon, W. Pedrycz 页数:1041 - 10523) 通过大型语言模型对权衡总成本和客户满意度 VRP 中的上下文进行建模作者:H. -W.丁,Z.-S。 Chen, Y. Yang, W. DingPages: 1053 - 10634) 通过模糊隶属聚合审计大型语言模型中的部分数据集使用作

复杂与智能系统,第 12 卷,第 3 期,2026 年 3 月

Complex & Intelligent Systems, Volume 12, Issue 3, March 2026

1) 智能协作:用于机器人细胞动态重新调度的预测神经网络作者:Matthias Bues、Maurizio Faccio、Benjamin Wingert2) 基于仿射非负协作表示的模式分类作者:He-Feng Yin、Xiao-Jun Wu、Zi-Qi Li3) 新生区块链的 51% 攻击漏洞:全面综述作者:Buti Sello、Jianming Yong、陶晓辉4) 资源受限设备上的高效多语言垃圾邮件检测:Gemma 3、Qwen 3 和 Llama 3.2 模型的 QLoRA 微调比较分析作者:Hamza Rauf、Umair Khan、Aurang Zaib5) 一种基于动态辅助任务构

SafetyPairs:通过反事实图像生成隔离安全关键图像特征

SafetyPairs: Isolating Safety Critical Image Features with Counterfactual Image Generation

本文被 ICLR 2026 的可信人工智能原理设计 — 可解释性、稳健性和跨模态安全性研讨会接受。到底是什么导致特定图像不安全?系统地区分良性图像和有问题的图像是一个具有挑战性的问题,因为图像的细微变化(例如侮辱性手势或符号)可能会极大地改变其安全含义。然而,现有的图像安全数据集粗糙且模糊,仅提供广泛的安全标签,而没有隔离导致这些差异的特定特征。我们介绍...

即使是医生也无法辨别这些人工智能 X 射线是假的

Even Doctors Can’t Tell These AI X-Rays Are Fake

人工智能生成的 X 射线现在非常逼真,可以欺骗医生,并可能扰乱整个医疗保健系统。今天(3 月 24 日)在北美放射学会 (RSNA) 杂志《放射学》上发表的一项新研究发现,放射科医生和先进的多模态大语言模型 (LLM) 都很难可靠地区分真实的 X 射线和人造 X 射线。

IEEE Transactions on Neural Networks and Learning Systems,第 37 卷,第 3 期,2026 年 3 月

IEEE Transactions on Neural Networks and Learning Systems, Volume 37, Issue 3, March 2026

1) 耐噪声 CIM-DNN 解释作者:F. -H. Ming, E. Yeu-Jer Lee, Y. Wu, Z. Wang, W. D. LuPages: 1005 - 10172) PromptVAD: Abnormal Prompt via Vision-Language Model作者:S. Li, F. Liu, L. Jiao, Z.hao, J. Wang, L. Sun, L. Li, X. Liu, P. ChenPages: 1018 - 10323)多模态图像配准与模态蒸馏作者:X. Zhou, J. Zhao, L. Chen, G. Vivone, Y. Liu,

AMES:通过后期交互检索进行近似多模式企业搜索

AMES: Approximate Multi-modal Enterprise Search via Late Interaction Retrieval

我们提出了 AMES(近似多模式企业搜索),这是一种与后端无关的统一多模式后期交互检索架构。 AMES 证明,细粒度多模式后期交互检索可以部署在生产级企业搜索引擎中,而无需重新设计架构。使用多向量编码器将文本标记、图像块和视频帧嵌入到共享表示空间中,从而无需特定于模态的检索逻辑即可实现跨模态检索。 AMES 采用两阶段管道:并行令牌级 ANN 搜索,每个…