Multimodal evaluators: MLLM-as-a-judge for image-to-text tasks in Strands Evals
如果您正在构建视觉购物、图像或文档理解或图表分析,您需要一种方法来验证模型的响应是否确实基于源图像。纯文本评估器无法告诉您标题是否忠实地描述了图像、提取的发票总额是否与文档匹配、或者屏幕摘要是否[...]
Proxy-Pointer RAG: Multimodal Answers Without Multimodal Embeddings
结构就是你所需要的 Proxy-Pointer RAG: Multimodal Answers Without Multimodal Embeddings 首先出现在 Towards Data Science 上。
什么是多模式人工智能,为什么它对教学设计师很重要?探索多模式模型、真实用例以及如何设计更智能的学习体验。这篇文章首次发表在电子学习行业。
Deploying a Multistage Multimodal Recommender System on Amazon Elastic Kubernetes Service
在 Amazon EKS 上构建和部署多级多模态推荐系统的实用演练,涵盖数据管道、模型训练、布隆过滤器、特征缓存和实时排名。在 Amazon Elastic Kubernetes Service 上部署多级多模态推荐系统一文首先出现在 Towards Data Science 上。
Smart Engines подвела технологические итоги 2025 года
俄罗斯文档识别系统开发商Smart Engines总结了2025年工作的技术成果。去年,该公司的专家对神经网络堆栈进行了全面的架构重新设计,并重新思考了关键软件产品,使得文档识别的质量和速度实现了突破。与此同时,该公司借助多模态人工智能“Sherlock 2o”加强了反欺诈方向,并在俄罗斯首次直接在即时通讯工具中实现了计算机视觉功能。
BalCapRL: A Balanced Framework for RL-Based MLLM Image Captioning
图像字幕是计算机视觉中最基本的任务之一。由于其开放性,它在多模态大语言模型(MLLM)时代受到了极大的关注。为了追求更加详细和准确的字幕,最近的工作越来越多地转向强化学习(RL)。然而,现有的字幕强化学习方法和评估指标通常强调字幕质量的狭隘概念,从而导致字幕核心维度之间的权衡。例如,以实用为导向的目标可能会鼓励嘈杂、幻觉或过长的字幕……
iRobot Founder Wants to Put a Robotic Familiar Into Your Home
两年前,Colin Angle 辞去了 iRobot 首席执行官的职务,该公司是他共同创立的公司,也是世界上最成功的家庭机器人公司。 Angle 几乎立刻就成立了一家名为 Familiar Machines & Magic (FM&M) 的秘密新“实体人工智能”公司,该公司很快就吸引了一批才华横溢的机器人专家,其中包括来自迪士尼研究中心的摩根·波普 (Morgan Pope),这让我们非常好奇。今天,Familiar Machines & Magic 宣布推出其首款机器人,这是一种“物理体现的人工智能系统,旨在以自然和一致的方式感知、适应和与人互动”,新闻稿称。这个机器人不是玩具,也不是专门为
DAIMON Robotics Wants to Give Robot Hands a Sense of Touch
本文由 DAIMON Robotics 为您带来。今年 4 月,总部位于香港的 DAIMON Robotics 发布了 Daimon-Infinity,它被描述为最大的物理人工智能全模态机器人数据集,具有高分辨率触觉传感功能,涵盖从家庭折叠衣物到工厂装配线制造等广泛任务。该项目得到了中国和全球合作伙伴的共同努力,包括谷歌 DeepMind、西北大学和新加坡国立大学。此举标志着 DAIMON 的一项关键战略举措。DAIMON 是一家成立两年半的公司,以其先进的触觉传感器硬件而闻名,最著名的是一款基于视觉的单色触觉传感器,将超过 110,000 个有效传感单元封装到一个指尖大小的模块中。凭借其高分