多模关键词检索结果

MixAtlas:多模式 LLM 中期训练的不确定性感知数据混合优化

MixAtlas: Uncertainty-aware Data Mixture Optimization for Multimodal LLM Midtraining

本文在 ICLR 2026 的导航和解决基础模型数据问题研讨会 (NADPFM) 上被接受。原则上的领域重新加权可以大幅提高样本效率和下游泛化能力;然而,多模式预训练的数据混合优化仍未得到充分探索。当前的多模式训练方法仅从数据格式或任务类型等单一角度调整混合物。我们介绍 MixAtlas,这是一个通过系统域分解和更小的代理模型进行计算高效的多模态混合优化的原则框架......

专访 Sukanya Mandal:合成智慧城市智能的多模态知识图

Interview with Sukanya Mandal: Synthesizing multi-modal knowledge graphs for smart city intelligence

Sukanya Mandal 和 Noel O’Connor 在 AAAI 秋季研讨会系列上发表的论文《LLMasMMKG:LLM Assisted Synthetic Multi-Modal Knowledge Graph Creation For Smart City Cognitive Digital Twins》中介绍了一种利用大型语言模型来自动构建专为智慧城市认知设计的综合多模态知识图的方法 [...]

使用 Amazon Bedrock 多模式模型大规模解锁视频见解

Unlocking video insights at scale with Amazon Bedrock multimodal models

在这篇文章中,我们探讨了 Amazon Bedrock 的多模式基础模型 (FM) 如何通过三种不同的架构方法实现可扩展的视频理解。每种方法都是针对不同的用例和成本性能权衡而设计的。

AMES:通过后期交互检索进行近似多模式企业搜索

AMES: Approximate Multi-modal Enterprise Search via Late Interaction Retrieval

我们提出了 AMES(近似多模式企业搜索),这是一种与后端无关的统一多模式后期交互检索架构。 AMES 证明,细粒度多模式后期交互检索可以部署在生产级企业搜索引擎中,而无需重新设计架构。使用多向量编码器将文本标记、图像块和视频帧嵌入到共享表示空间中,从而无需特定于模态的检索逻辑即可实现跨模态检索。 AMES 采用两阶段管道:并行令牌级 ANN 搜索,每个…

Bones Studio 将发布 BONES-SEED - 第一个专为人形机器人构建的多模态运动数据集

Bones Studio to Release BONES-SEED - the First Multimodal Motion Dataset Purpose-Built for Humanoid Robotics

到目前为止,构建人形机器人的研究人员和初创公司面临着严峻的挑战:没有专门为机器人设计的公开可用的大规模带注释运动数据集。在 GTC 2026 上,Bones Studio 正在利用 NVIDIA 技术缩小这一差距。

IEEE Transactions on Cognitive and Developmental Systems,第 18 卷,第 2 期,2026 年 4 月

IEEE Transactions on Cognitive and Developmental Systems, Volume 18, Issue 2, April 2026

1) 机器人抓取中一致路径的抓取表示和检测作者:L. Chen, Z. Li, J. Yang, Z. Lu, P. Wu, T. ChenPages: 302 - 3022) CIDDA: Classifier-Driven Implicit Discriminator Domain Adaptation for EEG-Based Emotion Recognition and Depression Severity Grading作者:R. Hu, Z. Yang, J. Shan, N. Su, Y. Tang, H. Yan, X. Lv, D. Fu, H. Zhu, T. Jia

Talisman Sabre 25:MRF-D 海军陆战队和水兵结束在北端地区的多国演习

Talisman Sabre 25: MRF-D Marines and Sailors conclude multinational exercise in the Top End

澳大利亚北领地 — 在“护身军刀 25”演习的背景下,这是印太地区最大规模的军事演习,来自 19 个国家的 35,000 多名士兵、海军陆战队轮换部队 - 达尔文 (MRF-D) 25.3 海军陆战队空地特遣部队 (MAGTF) 完成了很少有部队能够做到的事情:在数千公里的模拟环境中进行多模式和移动指挥和控制争议地形、与美国陆军和澳大利亚国防军 (ADF) 同步精确火力,以及与澳大利亚皇家军团 (5/7 RAR) 第 5/7 营的无缝联合机动。从北领地的红土地到昆士兰州的草原,这段旅程是现代战争的试验场。

IEEE Transactions on Neural Networks and Learning Systems,第 37 卷,第 4 期,2026 年 4 月

IEEE Transactions on Neural Networks and Learning Systems, Volume 37, Issue 4, April 2026

1) 基于多模态特征和深度学习网络的嗅觉受体与分子相互作用的新方法作者:F. Wang, X. Xie, Y. Xiong, Z. Liu, M. Kong, H. Dong, X. ChenPages: 1506 - 15172) 基于随机锚图聚合的谱嵌入表示作者:J. Zhou, F. Li, C. Gau, W. Ding, W. Pedrycz, G. Lang页面: 1518 - 15323) 基于有向图压缩通信的去中心化在线优化作者: H. Liu, B. Zhang, Z. Yu, D. Yuan, M. Dai页面: 1533 - 15454) 基于高阶累积量的直接高效因果方法

IEEE 模糊系统汇刊,第 34 卷,第 4 期,2026 年 4 月

IEEE Transactions on Fuzzy Systems, Volume 34, Issue 4, April 2026

1) 客座社论:模糊大型模型专题:桥接不确定性和创造力作者:H. Yu、Q. Liu、W. Pedrycz、J. Lu 页数:1039 - 10402) FMA-Net:用于细粒度图像识别的模糊相互注意网络作者:H. Huang、J. -H.李,S.-K。 Oh, Z. Fu, J. H. Yoon, W. Pedrycz 页数:1041 - 10523) 通过大型语言模型对权衡总成本和客户满意度 VRP 中的上下文进行建模作者:H. -W.丁,Z.-S。 Chen, Y. Yang, W. DingPages: 1053 - 10634) 通过模糊隶属聚合审计大型语言模型中的部分数据集使用作

复杂与智能系统,第 12 卷,第 3 期,2026 年 3 月

Complex & Intelligent Systems, Volume 12, Issue 3, March 2026

1) 智能协作:用于机器人细胞动态重新调度的预测神经网络作者:Matthias Bues、Maurizio Faccio、Benjamin Wingert2) 基于仿射非负协作表示的模式分类作者:He-Feng Yin、Xiao-Jun Wu、Zi-Qi Li3) 新生区块链的 51% 攻击漏洞:全面综述作者:Buti Sello、Jianming Yong、陶晓辉4) 资源受限设备上的高效多语言垃圾邮件检测:Gemma 3、Qwen 3 和 Llama 3.2 模型的 QLoRA 微调比较分析作者:Hamza Rauf、Umair Khan、Aurang Zaib5) 一种基于动态辅助任务构

视频星期五:哔!嘟!走鹃双足机器人打破常规

Video Friday: Beep! Beep! Roadrunner Bipedal Bot Breaks the Mold

Video Friday 是您每周精选的精彩机器人视频,由您在 IEEE Spectrum 机器人领域的朋友收集。我们还发布了未来几个月即将举行的机器人活动的每周日历。请将您的活动发送给我们以供收录。ICRA 2026:2026年6月1-5日,VIENNARSS 2026:2026年7月13-17日,悉尼多机器人系统暑期学校:2026年7月29日至8月4日,布拉格享受今天的视频! “Roadrunner”是一款专为多模式运动而设计的新型双足轮式机器人原型。它重约 15 公斤(33 磅),可以根据环境的需要在并排和直列轮模式以及步进配置之间无缝切换。机器人的腿完全对称,允许其膝盖向前或向后,这可

美国陆军刚刚测试了一种可以从陆地击中移动战舰的 PrSM 导弹

The U.S. Army Just Tested a PrSM Missile That Can Hit Moving Warships From Land

洛克希德·马丁公司于 2026 年 3 月 12 日成功测试了精确打击导弹 (PrSM) Increment 2。这款射程超过 499 公里的武器配备了用于移动海上和陆地目标的先进多模式导引头,已经在史诗狂怒行动中证明了其杀伤力,标志着美国陆军进入了战区规模精确打击的新时代。美国陆军刚刚测试了一种可以从陆地击中移动战舰的 PrSM 导弹首次出现于19FortyFive。

通过探索扩展代理的综合任务生成

Scaling Synthetic Task Generation for Agents via Exploration

用于构建交互式代理的训练后多模式大型语言模型 (MLLM) 在计算机使用、网络导航和机器人等领域具有广阔的前景。扩展此类后期训练的一个关键挑战是缺乏高质量的下游代理任务数据集,这些数据集的任务是多样化的、可行的和可验证的。现有的任务生成方法严重依赖人工注释或用有限的下游环境信息提示 MLLM,这种方法要么成本高昂,要么可扩展性差,因为它生成的任务覆盖范围有限。为了解决这个问题,我们推出了自动播放,一个可扩展的......

即使是医生也无法辨别这些人工智能 X 射线是假的

Even Doctors Can’t Tell These AI X-Rays Are Fake

人工智能生成的 X 射线现在非常逼真,可以欺骗医生,并可能扰乱整个医疗保健系统。今天(3 月 24 日)在北美放射学会 (RSNA) 杂志《放射学》上发表的一项新研究发现,放射科医生和先进的多模态大语言模型 (LLM) 都很难可靠地区分真实的 X 射线和人造 X 射线。

IEEE Transactions on Neural Networks and Learning Systems,第 37 卷,第 3 期,2026 年 3 月

IEEE Transactions on Neural Networks and Learning Systems, Volume 37, Issue 3, March 2026

1) 耐噪声 CIM-DNN 解释作者:F. -H. Ming, E. Yeu-Jer Lee, Y. Wu, Z. Wang, W. D. LuPages: 1005 - 10172) PromptVAD: Abnormal Prompt via Vision-Language Model作者:S. Li, F. Liu, L. Jiao, Z.hao, J. Wang, L. Sun, L. Li, X. Liu, P. ChenPages: 1018 - 10323)多模态图像配准与模态蒸馏作者:X. Zhou, J. Zhao, L. Chen, G. Vivone, Y. Liu,

美国推迟新的人工智能芯片出口规则,出人意料地引发科技出口战

U.S. Holds Off on New AI Chip Export Rules in Surprise Move in Tech Export Wars

奇怪的是,美国政府终止了一项旨在监管全球人工智能芯片出口的提案。这项由美国商务部提出的规定于本周早些时候发布在政府网站上,令硅谷许多人措手不及。众所周知,芯片是人工智能模型的关键组成部分,如果没有它们,许多模型将无法运行。宣布这一消息的原始文件可在此处的联邦规则制定网站上找到,有关撤回的信息首先在这篇关于该政策的新闻文章中报道 [...]