多模关键词检索结果

OfferUp 通过以下方式改进本地结果使用 Amazon Bedrock 和 Amazon OpenSearch Service 上的多模式搜索,相关性召回率提高 54%,相关性召回率提高 27%

OfferUp improved local results by 54% and relevance recall by 27% with multimodal search on Amazon Bedrock and Amazon OpenSearch Service

在本文中,我们展示了 OfferUp 如何使用 Amazon Titan Multimodal Embeddings 和 OpenSearch Service 转变其基础搜索架构,从而显著提高用户参与度、提高搜索质量并为用户提供使用文本和图像进行搜索的能力。OfferUp 选择 Amazon Titan Multimodal Embeddings 和 Amazon OpenSearch Service 是因为它们具有完全托管的功能,能够开发出具有高准确度的强大多模态搜索解决方案,并加快搜索和推荐用例的上市时间。

什么是大型多模态模型 (LMM)?

What are Large Multimodal Models (LMMs)?

大型多模态模型 (LMM) 是人工智能 (AI) 的一场革命。与在单一数据环境(例如文本、图像或音频)中运行的传统 AI 模型不同,LMM 能够同时创建和处理多种模态。因此,可以生成具有情境感知多媒体信息的输出。本文的目的是解开 […]

多模式人工智能在媒体搜索和用户体验中的变革性作用

The Transformative Role of Multimodal AI in Media Search and User Experiences

媒体行业正在经历一场深刻的变革,这得益于人工智能的进步。其中,多模态人工智能因其处理和组合多种数据类型(文本、图像、音频和视频)的能力而脱颖而出,从而提供更有意义的见解和结果。阅读更多文章《多模态人工智能在媒体搜索和用户体验中的变革性作用》首先出现在 Fusemachines 上。

推进多模态人工智能的开源训练框架

An open-source training framework to advance multimodal AI

尝试通过组合各种模态来模拟物理现实:图像显示了通过多种模态镜头看到的几个橙子,每个切片都展示了人们感知和理解这一场景的不同方式。从左到右的模态代表表面法线(颜色代表表面方向)、深度(到 […] 的距离

利用多模态大型语言模型 (MLLM) 彻底改变人工智能

Revolutionizing AI with Multimodal Large Language Models (MLLMs)

假设你有一份 X 光检查报告,你需要了解自己受了什么伤。一种选择是去看医生,理想情况下你应该去看医生,但出于某种原因,如果你不能去看医生,你可以使用多模态大型语言模型 (MLLM),它将处理你的 X 光扫描并准确地告诉你你受了什么伤 […]

Simbe 推出 Tally Spot,成为唯一一家结合移动和固定传感器的多模式商店智能提供商

Simbe Launches Tally Spot, Becoming the Only Multimodal Store Intelligence Provider Combining Mobile and Fixed Sensors

作为 Tally 和 Tally RFID 的扩展,Tally Spot 可让零售商提高对商店高优先级区域的可见性,从而进一步提高卓越运营、产品可用性和防损能力

使用 Amazon Bedrock Data Automation 简化多模式生成 AI

Simplify multimodal generative AI with Amazon Bedrock Data Automation

Amazon Bedrock Data Automation 公开预览版为所有技能组合的开发人员提供了统一的体验,使他们能够轻松地自动从文档、图像、音频和视频中提取、转换和生成相关见解,以构建生成式 AI 驱动的应用程序。在本文中,我们将演示如何在 AWS 管理控制台中使用 Amazon Bedrock Data Automation 和 AWS SDK for Python (Boto3) 进行媒体分析和智能文档处理 (IDP) 工作流。

使用 Hugging Face 实现多模态 RAG

Multimodal RAG Implementation with Hugging Face

了解如何通过使用 Hugging Face Transformers 结合文本和视觉输入来增强 RAG 模型。

使用 Amazon Bedrock 上的多模式基础模型与您的幻灯片交谈 - 第 3 部分

Talk to your slide deck using multimodal foundation models on Amazon Bedrock – Part 3

在本系列的第 1 部分和第 2 部分中,我们探讨了使用多模态 FM 功能的方法,例如 Amazon Titan 多模态嵌入、Amazon Titan 文本嵌入和 Anthropic 的 Claude 3 Sonnet。在本文中,我们从准确性和定价的角度比较了这些方法。

多模态机器学习模型提高准确性

Multimodal Machine Learning Model Increases Accuracy

欺骗你的多模态 LLM 有多容易?对欺骗性提示的实证分析

How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts

多模态大型语言模型 (MLLM) 的显著进步并未使它们免受挑战,特别是在处理提示中的欺骗性信息的情况下,因此在这种情况下会产生幻觉反应。为了定量评估这种脆弱性,我们提出了 MAD-Bench,这是一个精心策划的基准,包含 1000 个测试样本,分为 5 个类别,例如不存在的对象、对象计数和空间关系。我们对流行的 MLLM 进行了全面分析,从 GPT-4v、Reka、Gemini-Pro 到开源模型……

什么是多模型 LLM 策略?:建立一支 AI 就绪型劳动力队伍

What is a Multi Model LLM Strategy?: Build an AI Ready Workforce

随着对大型语言模型 (LLM) 在您的业务中的使用的进一步了解,可以发现许多有效的用法。在这个使用仍存在很大争议的阶段,人们仍在寻找有效的方法来建立您的 AI 就绪劳动力。我们将通过此博客考虑一种方法 […] 什么是多模型 LLM 策略?:建立 AI 就绪劳动力 首次出现在 Weam - AI For Digital Agency 上。

多模态机器学习模型提高了催化剂筛选的准确性

Multimodal machine learning model increases accuracy of catalyst screening

确定特定反应的最佳催化剂材料对于推进储能技术和可持续化学过程至关重要。为了筛选催化剂,科学家必须了解系统的吸附能,机器学习 (ML) 模型,尤其是图神经网络 (GNN),已经成功预测了这一点。

白人、男性和富人:计算机科学需要更多模范多样性

White, male, and rich: Computer science needs more role model diversity

国际研究人员对近 1800 名年龄在 11 到 16 岁之间的英国儿童进行了调查,询问他们所知道的计算机领域知名人物,白人男性亿万富翁企业家助长了刻板印象,这加剧了科技和计算机科学领域的多样性问题。前十名包括比尔·盖茨、艾伦·图灵、史蒂夫·乔布斯、埃隆·马斯克、马克·扎克伯格、杰夫·贝佐斯、艾达·洛夫莱斯、斯蒂芬·霍金(物理学家)、格蕾丝·霍珀和查尔斯·巴贝奇。作者表示,名单上白人男性占主导地位,只有两名女性,没有有色人种,更不用说其中一名是物理学家而不是计算机科学家,这些都说明孩子们缺乏多元化的榜样。他们建议,如果我们想在计算机领域实现更多元的多样性,媒体话语和教育课程就需要改变。

利用周期性实现多模态情绪模式模型的稳健性

Leveraging Periodicity for Robustness with Multi-modal Mood Pattern Models

*平等贡献者来自可穿戴传感器的数据(例如心率、步数)可用于模拟情绪模式。我们使用多模态离散时间序列数据表征特征表示和建模策略,使用具有自然缺失的大型数据集(n=116,819 名参与者)进行情绪模式分类,使用 12 个可穿戴数据流,重点是捕捉数据的周期性趋势。综合考虑性能和鲁棒性,基于周期性的具有梯度提升模型的聚合特征表示优于其他表示和架构……

CrestOptics 和 Tomocube 合作,利用新的多模态成像平台推进 3D 成像

CrestOptics and Tomocube partner to advance 3D imaging with new multimodal imaging platform

CrestOptics S.p.A. 是一家高端显微镜解决方案和先进荧光显微镜系统制造商,Tomocube 是全息断层扫描 (HT) 技术的领导者,今天宣布建立战略合作关系,提供下一代多模态成像平台 HT-X1™ Plus。通过结合两家公司的专业知识,该平台将 CrestOptics 的旋转盘共聚焦技术与 Tomocube 的最新创新技术相结合……

使用 Amazon Bedrock 中的多模式提示读取图形、图表、表格和扫描页面

Read graphs, diagrams, tables, and scanned pages using multimodal prompts in Amazon Bedrock

在本文中,我们演示了如何使用 Amazon Bedrock 上的模型从图像、表格和扫描文档中检索信息。我们提供以下示例:1/ 执行对象分类和对象检测任务,2/ 读取和查询图表,以及 3/ 读取流程图和架构图(例如 AWS 架构图)并将其转换为文本。

大型视觉编码器的多模态自回归预训练

Multimodal Autoregressive Pre-Training of Large Vision Encoders

*平等贡献者大型多模态模型中的主导范式是将大型语言解码器与视觉编码器配对。虽然众所周知如何为多模态任务预训练和调整语言解码器,但不太清楚应该如何预训练视觉编码器。事实上的标准是使用判别目标(例如对比损失)预训练视觉编码器。这会导致预训练和生成自回归下游任务之间的不匹配。同时,继语言领域取得成功之后,自回归图像模型已被证明……