模态领域信息情报检索---XiaoMi-AI

俄罗斯文档识别系统开发商Smart Engines总结了2025年工作的技术成果。去年，该公司的专家对神经网络堆栈进行了全面的架构重新设计，并重新思考了关键软件产品，使得文档识别的质量和速度实现了突破。与此同时，该公司借助多模态人工智能“Sherlock 2o”加强了反欺诈方向，并在俄罗斯首次直接在即时通讯工具中实现了计算机视觉功能。

Apple机器学习研究

2026年5月11日 00:00

BalCapRL：基于 RL 的 MLLM 图像描述的平衡框架

BalCapRL: A Balanced Framework for RL-Based MLLM Image Captioning

图像字幕是计算机视觉中最基本的任务之一。由于其开放性，它在多模态大语言模型（MLLM）时代受到了极大的关注。为了追求更加详细和准确的字幕，最近的工作越来越多地转向强化学习（RL）。然而，现有的字幕强化学习方法和评估指标通常强调字幕质量的狭隘概念，从而导致字幕核心维度之间的权衡。例如，以实用为导向的目标可能会鼓励嘈杂、幻觉或过长的字幕……

IEEE Spectrum _机器人

2026年5月4日 17:30

iRobot 创始人希望将机器人家族带入您的家中

iRobot Founder Wants to Put a Robotic Familiar Into Your Home

两年前，Colin Angle 辞去了 iRobot 首席执行官的职务，该公司是他共同创立的公司，也是世界上最成功的家庭机器人公司。 Angle 几乎立刻就成立了一家名为 Familiar Machines & Magic (FM&M) 的秘密新“实体人工智能”公司，该公司很快就吸引了一批才华横溢的机器人专家，其中包括来自迪士尼研究中心的摩根·波普 (Morgan Pope)，这让我们非常好奇。今天，Familiar Machines & Magic 宣布推出其首款机器人，这是一种“物理体现的人工智能系统，旨在以自然和一致的方式感知、适应和与人互动”，新闻稿称。这个机器人不是玩具，也不是专门为

IEEE Spectrum _机器人

2026年5月4日 11:08

DAIMON Robotics 希望赋予机器人手触觉

DAIMON Robotics Wants to Give Robot Hands a Sense of Touch

本文由 DAIMON Robotics 为您带来。今年 4 月，总部位于香港的 DAIMON Robotics 发布了 Daimon-Infinity，它被描述为最大的物理人工智能全模态机器人数据集，具有高分辨率触觉传感功能，涵盖从家庭折叠衣物到工厂装配线制造等广泛任务。该项目得到了中国和全球合作伙伴的共同努力，包括谷歌 DeepMind、西北大学和新加坡国立大学。此举标志着 DAIMON 的一项关键战略举措。DAIMON 是一家成立两年半的公司，以其先进的触觉传感器硬件而闻名，最著名的是一款基于视觉的单色触觉传感器，将超过 110,000 个有效传感单元封装到一个指尖大小的模块中。凭借其高分

模态关键词检索结果