多模式领域信息情报检索---XiaoMi-AI

2025年3月4日 00:00

MM1.5：多模式LLM微调

MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-Tuning

我们提出了MM1.5，这是一个新的多模式大语言模型（MLLMS），旨在增强文本丰富的图像理解，视觉参考和接地以及多图像推理的能力。在MM1体系结构的基础上，MM1.5采用了以数据为中心的方法来模型培训，系统地探索了整个模型培训生命周期中各种数据混合物的影响。这包括用于连续预训练的高质量OCR数据和合成字幕，以及用于监督微调的优化视觉指导数据混合物。我们的型号范围为1B…

亚马逊云科技 _机器学习

2025年2月26日 17:18

使用其多模式的视频理解模型推理

ByteDance processes billions of daily videos using their multimodal video understanding models on AWS Inferentia2

在Byedance上，我们与Amazon Web Services（AWS）合作部署了多模式大语言模型（LLMS），以在世界各地的多个AWS地区使用AWS推理AWS来理解视频理解。通过使用复杂的ML算法，该平台每天有效地扫描数十亿个视频。在这篇文章中，我们讨论了多模式LLM的使用用于视频理解，解决方案体系结构以及性能优化的技术。

AI新闻

2025年2月26日 13:08

岩浆：多模式AI代理的基本模型

Magma: En grundmodell för multimodala AI-agenter

岩浆是多模式AI代理的第一个基本模型，来自Microsoft Research的创新模型有可能通过实现数字世界和物理世界之间的自然整合来彻底改变我们与AI系统的互动方式。岩浆可以处理虚拟和物理环境中的复杂交互。该模型将理解图片和视频的能力与容量[…]的能力结合在一起，岩浆：多模式AI代理的基本模型首次出现在AI新闻中。

Artificial Lawyer

2025年2月25日 07:39

步行：VLEX - 多模式Vincent AI + More

Walk Through: vLex – Multi-Modal Vincent AI + More

Patlytics是一个由Genai驱动的专利工作流平台，由全球风险公司Next47领导的1400万美元的A轮融合，并带有Google以AI为重点的风险投资基金梯度，...

Apple机器学习研究

2025年2月25日 00:00

mia bench：在评估多模式LLMS

MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs

我们介绍了MIA Bench，这是一种新的基准测试，旨在评估多模式大型语言模型（MLLM），以严格遵守复杂的说明。我们的基准包括一组400个图像推出对，每个基准都旨在挑战模型对分层指令的遵守，以产生满足特定要求的模式的准确响应。各种各样的最先进的MLLM的评估结果显示出绩效的显着差异，突出了改善教学保真度的领域。此外，我们创建了额外的培训数据和…

Artificial Lawyer

2025年2月24日 15:33

VLEX升级具有多模式功能的Vincent AI

vLex Upgrades Vincent AI With Multi-Modal Capabilities

这是一个惊喜….. Baretz+Brunelle（B+B），PR组 - 或至少这就是他们向Al表现出来的方式 - 购买了Lexfusion，是法律的...

Apple机器学习研究

2025年2月20日 00:00

接地在动作中的多模式大语模型

Grounding Multimodal Large Language Models in Actions

多模式大语言模型（MLLM）已证明了包括体现AI在内的许多领域的广泛功能。在这项工作中，我们研究了如何将MLLM最佳地扎根于不同的实施方案及其相关的作用空间，以利用MLLM的多模式世界知识。我们首先通过统一体系结构和动作空间适配器的镜头概括了许多方法。对于连续的动作，我们表明，学识渊博的令牌化可以实现足够的建模精度，从而在下游任务上产生最佳性能。对于离散的动作…

走向数据科学

2025年2月19日 22:01

由Blip-2和Gemini驱动的多模式搜索引擎代理

Multimodal Search Engine Agents Powered by BLIP-2 and Gemini

这篇文章与Rafael Guedes合着。简介传统模型只能处理单一类型的数据，例如文本，图像或表格数据。多模式是AI研究社区中的一个趋势概念，它指的是模型同时从多种类型的数据中学习的能力。这项新技术（并不是真正的新技术，但是[…]由Blip-2和Gemini提供动力的多模式搜索引擎代理首先出现在数据科学上。

Apple机器学习研究

2025年2月19日 00:00

从多模式LLM到通才体现的药物：方法和课程

From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons

我们研究了多模式大语言模型（MLLM）的能力，以解决超出传统语言和视觉任务的不同领域，这些模型通常受到培训。具体而言，我们的重点在于体现的AI，游戏，UI控制和计划等领域。为此，我们引入了将MLLM适应通才体现的代理（GEA）的过程。 GEA是一个单一的统一模型，能够通过多物种作用令牌将自己跨越这些各种领域的自身地接地。 GEA在大量的体现经验数据集中接受了监督学习和…

Shaip 博客

2025年2月18日 06:00

最高的多模式AI应用程序和用例是什么？

What are the Top Multimodal AI Applications and Use Cases?

多模式AI从文本，图片，音频和视频等各种资源等不同资源中汇集了知识，从而能够为给定场景提供更丰富，更透彻的见解。从这个意义上讲，该方法与仅关注一种类型数据的旧模型不同。混合不同的数据流提供了多模式AI和[…]

海军新闻

2025年2月13日 10:32

IAI宣布首次交付新的多模式，多功能机载监视雷达菲律宾为群岛辩护采购潜艇 Thales UK授予了主要合同，以维持皇家海军的舰队通讯 exail在其R7 ROV上集成了Elwave Tetrapusle传感器 c捕捞者 - 海上巡逻的确切空降监视雷达首先看对碰撞遇到的Harry S. Truman的损害丹麦皇家海军选择NSM - 海军罢工导弹 Rok Navy迈出了又一步的一步

IAI Announces First Delivery of New Multi-Mode, Multi-Role Airborne Surveillance Radar

以色列航空航天行业已向战略客户提供了新的C捕捞器多型，多用途机载监视雷达。IAI宣布首次提供新的多模式，多功能机载监视雷达，首先出现在Naval上。消息。

海军新闻

2025年2月13日 09:30

IAI宣布首次交付新的多模式，多功能机载监视雷达

Philippines to Procure Submarines for Archipelagic Defense

马尼拉的目标是在其军事现代化计划的最后阶段为捍卫该国的群岛辩护。菲律宾邮政为群岛辩护采购潜艇的首次出现在海军新闻中。

亚马逊云科技 _机器学习

2025年2月5日 19:06

OfferUp 通过以下方式改进本地结果使用 Amazon Bedrock 和 Amazon OpenSearch Service 上的多模式搜索，相关性召回率提高 54%，相关性召回率提高 27%

OfferUp improved local results by 54% and relevance recall by 27% with multimodal search on Amazon Bedrock and Amazon OpenSearch Service

在本文中，我们展示了 OfferUp 如何使用 Amazon Titan Multimodal Embeddings 和 OpenSearch Service 转变其基础搜索架构，从而显著提高用户参与度、提高搜索质量并为用户提供使用文本和图像进行搜索的能力。OfferUp 选择 Amazon Titan Multimodal Embeddings 和 Amazon OpenSearch Service 是因为它们具有完全托管的功能，能够开发出具有高准确度的强大多模态搜索解决方案，并加快搜索和推荐用例的上市时间。

Fusemachines洞察力

2025年1月24日 11:14

多模式人工智能在媒体搜索和用户体验中的变革性作用

The Transformative Role of Multimodal AI in Media Search and User Experiences

媒体行业正在经历一场深刻的变革，这得益于人工智能的进步。其中，多模态人工智能因其处理和组合多种数据类型（文本、图像、音频和视频）的能力而脱颖而出，从而提供更有意义的见解和结果。阅读更多文章《多模态人工智能在媒体搜索和用户体验中的变革性作用》首先出现在 Fusemachines 上。

RoboticsTomorrow News

2025年1月8日 10:43

Simbe 推出 Tally Spot，成为唯一一家结合移动和固定传感器的多模式商店智能提供商

Simbe Launches Tally Spot, Becoming the Only Multimodal Store Intelligence Provider Combining Mobile and Fixed Sensors

作为 Tally 和 Tally RFID 的扩展，Tally Spot 可让零售商提高对商店高优先级区域的可见性，从而进一步提高卓越运营、产品可用性和防损能力

亚马逊云科技 _机器学习

2024年12月17日 17:58

使用 Amazon Bedrock Data Automation 简化多模式生成 AI

Simplify multimodal generative AI with Amazon Bedrock Data Automation

Amazon Bedrock Data Automation 公开预览版为所有技能组合的开发人员提供了统一的体验，使他们能够轻松地自动从文档、图像、音频和视频中提取、转换和生成相关见解，以构建生成式 AI 驱动的应用程序。在本文中，我们将演示如何在 AWS 管理控制台中使用 Amazon Bedrock Data Automation 和 AWS SDK for Python (Boto3) 进行媒体分析和智能文档处理 (IDP) 工作流。

亚马逊云科技 _机器学习

2024年12月10日 17:34

使用 Amazon Bedrock 上的多模式基础模型与您的幻灯片交谈 - 第 3 部分

Talk to your slide deck using multimodal foundation models on Amazon Bedrock – Part 3

在本系列的第 1 部分和第 2 部分中，我们探讨了使用多模态 FM 功能的方法，例如 Amazon Titan 多模态嵌入、Amazon Titan 文本嵌入和 Anthropic 的 Claude 3 Sonnet。在本文中，我们从准确性和定价的角度比较了这些方法。

亚马逊云科技 _机器学习

2024年11月26日 16:48

使用 Amazon Bedrock 中的多模式提示读取图形、图表、表格和扫描页面

Read graphs, diagrams, tables, and scanned pages using multimodal prompts in Amazon Bedrock

在本文中，我们演示了如何使用 Amazon Bedrock 上的模型从图像、表格和扫描文档中检索信息。我们提供以下示例：1/ 执行对象分类和对象检测任务，2/ 读取和查询图表，以及 3/ 读取流程图和架构图（例如 AWS 架构图）并将其转换为文本。

多模式关键词检索结果