MixAtlas: Uncertainty-aware Data Mixture Optimization for Multimodal LLM Midtraining
本文在 ICLR 2026 的导航和解决基础模型数据问题研讨会 (NADPFM) 上被接受。原则上的领域重新加权可以大幅提高样本效率和下游泛化能力;然而,多模式预训练的数据混合优化仍未得到充分探索。当前的多模式训练方法仅从数据格式或任务类型等单一角度调整混合物。我们介绍 MixAtlas,这是一个通过系统域分解和更小的代理模型进行计算高效的多模态混合优化的原则框架......
Unlocking video insights at scale with Amazon Bedrock multimodal models
在这篇文章中,我们探讨了 Amazon Bedrock 的多模式基础模型 (FM) 如何通过三种不同的架构方法实现可扩展的视频理解。每种方法都是针对不同的用例和成本性能权衡而设计的。
AMES: Approximate Multi-modal Enterprise Search via Late Interaction Retrieval
我们提出了 AMES(近似多模式企业搜索),这是一种与后端无关的统一多模式后期交互检索架构。 AMES 证明,细粒度多模式后期交互检索可以部署在生产级企业搜索引擎中,而无需重新设计架构。使用多向量编码器将文本标记、图像块和视频帧嵌入到共享表示空间中,从而无需特定于模态的检索逻辑即可实现跨模态检索。 AMES 采用两阶段管道:并行令牌级 ANN 搜索,每个…
Talisman Sabre 25: MRF-D Marines and Sailors conclude multinational exercise in the Top End
澳大利亚北领地 — 在“护身军刀 25”演习的背景下,这是印太地区最大规模的军事演习,来自 19 个国家的 35,000 多名士兵、海军陆战队轮换部队 - 达尔文 (MRF-D) 25.3 海军陆战队空地特遣部队 (MAGTF) 完成了很少有部队能够做到的事情:在数千公里的模拟环境中进行多模式和移动指挥和控制争议地形、与美国陆军和澳大利亚国防军 (ADF) 同步精确火力,以及与澳大利亚皇家军团 (5/7 RAR) 第 5/7 营的无缝联合机动。从北领地的红土地到昆士兰州的草原,这段旅程是现代战争的试验场。
Video Friday: Beep! Beep! Roadrunner Bipedal Bot Breaks the Mold
Video Friday 是您每周精选的精彩机器人视频,由您在 IEEE Spectrum 机器人领域的朋友收集。我们还发布了未来几个月即将举行的机器人活动的每周日历。请将您的活动发送给我们以供收录。ICRA 2026:2026年6月1-5日,VIENNARSS 2026:2026年7月13-17日,悉尼多机器人系统暑期学校:2026年7月29日至8月4日,布拉格享受今天的视频! “Roadrunner”是一款专为多模式运动而设计的新型双足轮式机器人原型。它重约 15 公斤(33 磅),可以根据环境的需要在并排和直列轮模式以及步进配置之间无缝切换。机器人的腿完全对称,允许其膝盖向前或向后,这可
The U.S. Army Just Tested a PrSM Missile That Can Hit Moving Warships From Land
洛克希德·马丁公司于 2026 年 3 月 12 日成功测试了精确打击导弹 (PrSM) Increment 2。这款射程超过 499 公里的武器配备了用于移动海上和陆地目标的先进多模式导引头,已经在史诗狂怒行动中证明了其杀伤力,标志着美国陆军进入了战区规模精确打击的新时代。美国陆军刚刚测试了一种可以从陆地击中移动战舰的 PrSM 导弹首次出现于19FortyFive。
Scaling Synthetic Task Generation for Agents via Exploration
用于构建交互式代理的训练后多模式大型语言模型 (MLLM) 在计算机使用、网络导航和机器人等领域具有广阔的前景。扩展此类后期训练的一个关键挑战是缺乏高质量的下游代理任务数据集,这些数据集的任务是多样化的、可行的和可验证的。现有的任务生成方法严重依赖人工注释或用有限的下游环境信息提示 MLLM,这种方法要么成本高昂,要么可扩展性差,因为它生成的任务覆盖范围有限。为了解决这个问题,我们推出了自动播放,一个可扩展的......