模态关键词检索结果

多模态评估器:MLLM 作为 Strands Evals 中图像到文本任务的法官

Multimodal evaluators: MLLM-as-a-judge for image-to-text tasks in Strands Evals

如果您正在构建视觉购物、图像或文档理解或图表分析,您需要一种方法来验证模型的响应是否确实基于源图像。纯文本评估器无法告诉您标题是否忠实地描述了图像、提取的发票总额是否与文档匹配、或者屏幕摘要是否[...]

代理指针 RAG:没有多模态嵌入的多模态答案

Proxy-Pointer RAG: Multimodal Answers Without Multimodal Embeddings

结构就是你所需要的 Proxy-Pointer RAG: Multimodal Answers Without Multimodal Embeddings 首先出现在 Towards Data Science 上。

教学设计师的多模态人工智能:它是什么、它如何工作以及它为何改变学习设计

Multimodal AI For Instructional Designers: What It Is, How It Works, And Why It Changes Learning Design

什么是多模式人工智能,为什么它对教学设计师很重要?探索多模式模型、真实用例以及如何设计更智能的学习体验。这篇文章首次发表在电子学习行业。

在 Amazon Elastic Kubernetes Service 上部署多阶段多模式推荐系统

Deploying a Multistage Multimodal Recommender System on Amazon Elastic Kubernetes Service

在 Amazon EKS 上构建和部署多级多模态推荐系统的实用演练,涵盖数据管道、模型训练、布隆过滤器、特征缓存和实时排名。在 Amazon Elastic Kubernetes Service 上部署多级多模态推荐系统一文首先出现在 Towards Data Science 上。

Smart Engines总结2025年技术成果

Smart Engines подвела технологические итоги 2025 года

俄罗斯文档识别系统开发商Smart Engines总结了2025年工作的技术成果。去年,该公司的专家对神经网络堆栈进行了全面的架构重新设计,并重新思考了关键软件产品,使得文档识别的质量和速度实现了突破。与此同时,该公司借助多模态人工智能“Sherlock 2o”加强了反欺诈方向,并在俄罗斯首次直接在即时通讯工具中实现了计算机视觉功能。

BalCapRL:基于 RL 的 MLLM 图像描述的平衡框架

BalCapRL: A Balanced Framework for RL-Based MLLM Image Captioning

图像字幕是计算机视觉中最基本的任务之一。由于其开放性,它在多模态大语言模型(MLLM)时代受到了极大的关注。为了追求更加详细和准确的字幕,最近的工作越来越多地转向强化学习(RL)。然而,现有的字幕强化学习方法和评估指标通常强调字幕质量的狭隘概念,从而导致字幕核心维度之间的权衡。例如,以实用为导向的目标可能会鼓励嘈杂、幻觉或过长的字幕……

iRobot 创始人希望将机器人家族带入您的家中

iRobot Founder Wants to Put a Robotic Familiar Into Your Home

两年前,Colin Angle 辞去了 iRobot 首席执行官的职务,该公司是他共同创立的公司,也是世界上最成功的家庭机器人公司。 Angle 几乎立刻就成立了一家名为 Familiar Machines & Magic (FM&M) 的秘密新“实体人工智能”公司,该公司很快就吸引了一批才华横溢的机器人专家,其中包括来自迪士尼研究中心的摩根·波普 (Morgan Pope),这让我们非常好奇。今天,Familiar Machines & Magic 宣布推出其首款机器人,这是一种“物理体现的人工智能系统,旨在以自然和一致的方式感知、适应和与人互动”,新闻稿称。这个机器人不是玩具,也不是专门为

DAIMON Robotics 希望赋予机器人手触觉

DAIMON Robotics Wants to Give Robot Hands a Sense of Touch

本文由 DAIMON Robotics 为您带来。今年 4 月,总部位于香港的 DAIMON Robotics 发布了 Daimon-Infinity,它被描述为最大的物理人工智能全模态机器人数据集,具有高分辨率触觉传感功能,涵盖从家庭折叠衣物到工厂装配线制造等广泛任务。该项目得到了中国和全球合作伙伴的共同努力,包括谷歌 DeepMind、西北大学和新加坡国立大学。此举标志着 DAIMON 的一项关键战略举措。DAIMON 是一家成立两年半的公司,以其先进的触觉传感器硬件而闻名,最著名的是一款基于视觉的单色触觉传感器,将超过 110,000 个有效传感单元封装到一个指尖大小的模块中。凭借其高分