在本文中,我们展示了 OfferUp 如何使用 Amazon Titan Multimodal Embeddings 和 OpenSearch Service 转变其基础搜索架构,从而显著提高用户参与度、提高搜索质量并为用户提供使用文本和图像进行搜索的能力。OfferUp 选择 Amazon Titan Multimodal Embeddings 和 Amazon OpenSearch Service 是因为它们具有完全托管的功能,能够开发出具有高准确度的强大多模态搜索解决方案,并加快搜索和推荐用例的上市时间。
What are Large Multimodal Models (LMMs)?
大型多模态模型 (LMM) 是人工智能 (AI) 的一场革命。与在单一数据环境(例如文本、图像或音频)中运行的传统 AI 模型不同,LMM 能够同时创建和处理多种模态。因此,可以生成具有情境感知多媒体信息的输出。本文的目的是解开 […]
The Transformative Role of Multimodal AI in Media Search and User Experiences
媒体行业正在经历一场深刻的变革,这得益于人工智能的进步。其中,多模态人工智能因其处理和组合多种数据类型(文本、图像、音频和视频)的能力而脱颖而出,从而提供更有意义的见解和结果。阅读更多文章《多模态人工智能在媒体搜索和用户体验中的变革性作用》首先出现在 Fusemachines 上。
An open-source training framework to advance multimodal AI
尝试通过组合各种模态来模拟物理现实:图像显示了通过多种模态镜头看到的几个橙子,每个切片都展示了人们感知和理解这一场景的不同方式。从左到右的模态代表表面法线(颜色代表表面方向)、深度(到 […] 的距离
Revolutionizing AI with Multimodal Large Language Models (MLLMs)
假设你有一份 X 光检查报告,你需要了解自己受了什么伤。一种选择是去看医生,理想情况下你应该去看医生,但出于某种原因,如果你不能去看医生,你可以使用多模态大型语言模型 (MLLM),它将处理你的 X 光扫描并准确地告诉你你受了什么伤 […]
作为 Tally 和 Tally RFID 的扩展,Tally Spot 可让零售商提高对商店高优先级区域的可见性,从而进一步提高卓越运营、产品可用性和防损能力
Simplify multimodal generative AI with Amazon Bedrock Data Automation
Amazon Bedrock Data Automation 公开预览版为所有技能组合的开发人员提供了统一的体验,使他们能够轻松地自动从文档、图像、音频和视频中提取、转换和生成相关见解,以构建生成式 AI 驱动的应用程序。在本文中,我们将演示如何在 AWS 管理控制台中使用 Amazon Bedrock Data Automation 和 AWS SDK for Python (Boto3) 进行媒体分析和智能文档处理 (IDP) 工作流。
Multimodal RAG Implementation with Hugging Face
了解如何通过使用 Hugging Face Transformers 结合文本和视觉输入来增强 RAG 模型。
Talk to your slide deck using multimodal foundation models on Amazon Bedrock – Part 3
在本系列的第 1 部分和第 2 部分中,我们探讨了使用多模态 FM 功能的方法,例如 Amazon Titan 多模态嵌入、Amazon Titan 文本嵌入和 Anthropic 的 Claude 3 Sonnet。在本文中,我们从准确性和定价的角度比较了这些方法。
How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts
多模态大型语言模型 (MLLM) 的显著进步并未使它们免受挑战,特别是在处理提示中的欺骗性信息的情况下,因此在这种情况下会产生幻觉反应。为了定量评估这种脆弱性,我们提出了 MAD-Bench,这是一个精心策划的基准,包含 1000 个测试样本,分为 5 个类别,例如不存在的对象、对象计数和空间关系。我们对流行的 MLLM 进行了全面分析,从 GPT-4v、Reka、Gemini-Pro 到开源模型……
What is a Multi Model LLM Strategy?: Build an AI Ready Workforce
随着对大型语言模型 (LLM) 在您的业务中的使用的进一步了解,可以发现许多有效的用法。在这个使用仍存在很大争议的阶段,人们仍在寻找有效的方法来建立您的 AI 就绪劳动力。我们将通过此博客考虑一种方法 […] 什么是多模型 LLM 策略?:建立 AI 就绪劳动力 首次出现在 Weam - AI For Digital Agency 上。
Multimodal machine learning model increases accuracy of catalyst screening
确定特定反应的最佳催化剂材料对于推进储能技术和可持续化学过程至关重要。为了筛选催化剂,科学家必须了解系统的吸附能,机器学习 (ML) 模型,尤其是图神经网络 (GNN),已经成功预测了这一点。
White, male, and rich: Computer science needs more role model diversity
国际研究人员对近 1800 名年龄在 11 到 16 岁之间的英国儿童进行了调查,询问他们所知道的计算机领域知名人物,白人男性亿万富翁企业家助长了刻板印象,这加剧了科技和计算机科学领域的多样性问题。前十名包括比尔·盖茨、艾伦·图灵、史蒂夫·乔布斯、埃隆·马斯克、马克·扎克伯格、杰夫·贝佐斯、艾达·洛夫莱斯、斯蒂芬·霍金(物理学家)、格蕾丝·霍珀和查尔斯·巴贝奇。作者表示,名单上白人男性占主导地位,只有两名女性,没有有色人种,更不用说其中一名是物理学家而不是计算机科学家,这些都说明孩子们缺乏多元化的榜样。他们建议,如果我们想在计算机领域实现更多元的多样性,媒体话语和教育课程就需要改变。
Leveraging Periodicity for Robustness with Multi-modal Mood Pattern Models
*平等贡献者来自可穿戴传感器的数据(例如心率、步数)可用于模拟情绪模式。我们使用多模态离散时间序列数据表征特征表示和建模策略,使用具有自然缺失的大型数据集(n=116,819 名参与者)进行情绪模式分类,使用 12 个可穿戴数据流,重点是捕捉数据的周期性趋势。综合考虑性能和鲁棒性,基于周期性的具有梯度提升模型的聚合特征表示优于其他表示和架构……
CrestOptics and Tomocube partner to advance 3D imaging with new multimodal imaging platform
CrestOptics S.p.A. 是一家高端显微镜解决方案和先进荧光显微镜系统制造商,Tomocube 是全息断层扫描 (HT) 技术的领导者,今天宣布建立战略合作关系,提供下一代多模态成像平台 HT-X1™ Plus。通过结合两家公司的专业知识,该平台将 CrestOptics 的旋转盘共聚焦技术与 Tomocube 的最新创新技术相结合……
Read graphs, diagrams, tables, and scanned pages using multimodal prompts in Amazon Bedrock
在本文中,我们演示了如何使用 Amazon Bedrock 上的模型从图像、表格和扫描文档中检索信息。我们提供以下示例:1/ 执行对象分类和对象检测任务,2/ 读取和查询图表,以及 3/ 读取流程图和架构图(例如 AWS 架构图)并将其转换为文本。
Multimodal Autoregressive Pre-Training of Large Vision Encoders
*平等贡献者大型多模态模型中的主导范式是将大型语言解码器与视觉编码器配对。虽然众所周知如何为多模态任务预训练和调整语言解码器,但不太清楚应该如何预训练视觉编码器。事实上的标准是使用判别目标(例如对比损失)预训练视觉编码器。这会导致预训练和生成自回归下游任务之间的不匹配。同时,继语言领域取得成功之后,自回归图像模型已被证明……