多模关键词检索结果

使用 Amazon Bedrock 上的多模式基础模型与您的幻灯片交谈 - 第 3 部分

Talk to your slide deck using multimodal foundation models on Amazon Bedrock – Part 3

在本系列的第 1 部分和第 2 部分中,我们探讨了使用多模态 FM 功能的方法,例如 Amazon Titan 多模态嵌入、Amazon Titan 文本嵌入和 Anthropic 的 Claude 3 Sonnet。在本文中,我们从准确性和定价的角度比较了这些方法。

多模态机器学习模型提高准确性

Multimodal Machine Learning Model Increases Accuracy

欺骗你的多模态 LLM 有多容易?对欺骗性提示的实证分析

How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts

多模态大型语言模型 (MLLM) 的显著进步并未使它们免受挑战,特别是在处理提示中的欺骗性信息的情况下,因此在这种情况下会产生幻觉反应。为了定量评估这种脆弱性,我们提出了 MAD-Bench,这是一个精心策划的基准,包含 1000 个测试样本,分为 5 个类别,例如不存在的对象、对象计数和空间关系。我们对流行的 MLLM 进行了全面分析,从 GPT-4v、Reka、Gemini-Pro 到开源模型……

什么是多模型 LLM 策略?:建立一支 AI 就绪型劳动力队伍

What is a Multi Model LLM Strategy?: Build an AI Ready Workforce

随着对大型语言模型 (LLM) 在您的业务中的使用的进一步了解,可以发现许多有效的用法。在这个使用仍存在很大争议的阶段,人们仍在寻找有效的方法来建立您的 AI 就绪劳动力。我们将通过此博客考虑一种方法 […] 什么是多模型 LLM 策略?:建立 AI 就绪劳动力 首次出现在 Weam - AI For Digital Agency 上。

多模态机器学习模型提高了催化剂筛选的准确性

Multimodal machine learning model increases accuracy of catalyst screening

确定特定反应的最佳催化剂材料对于推进储能技术和可持续化学过程至关重要。为了筛选催化剂,科学家必须了解系统的吸附能,机器学习 (ML) 模型,尤其是图神经网络 (GNN),已经成功预测了这一点。

白人、男性和富人:计算机科学需要更多模范多样性

White, male, and rich: Computer science needs more role model diversity

国际研究人员对近 1800 名年龄在 11 到 16 岁之间的英国儿童进行了调查,询问他们所知道的计算机领域知名人物,白人男性亿万富翁企业家助长了刻板印象,这加剧了科技和计算机科学领域的多样性问题。前十名包括比尔·盖茨、艾伦·图灵、史蒂夫·乔布斯、埃隆·马斯克、马克·扎克伯格、杰夫·贝佐斯、艾达·洛夫莱斯、斯蒂芬·霍金(物理学家)、格蕾丝·霍珀和查尔斯·巴贝奇。作者表示,名单上白人男性占主导地位,只有两名女性,没有有色人种,更不用说其中一名是物理学家而不是计算机科学家,这些都说明孩子们缺乏多元化的榜样。他们建议,如果我们想在计算机领域实现更多元的多样性,媒体话语和教育课程就需要改变。

利用周期性实现多模态情绪模式模型的稳健性

Leveraging Periodicity for Robustness with Multi-modal Mood Pattern Models

*平等贡献者来自可穿戴传感器的数据(例如心率、步数)可用于模拟情绪模式。我们使用多模态离散时间序列数据表征特征表示和建模策略,使用具有自然缺失的大型数据集(n=116,819 名参与者)进行情绪模式分类,使用 12 个可穿戴数据流,重点是捕捉数据的周期性趋势。综合考虑性能和鲁棒性,基于周期性的具有梯度提升模型的聚合特征表示优于其他表示和架构……

CrestOptics 和 Tomocube 合作,利用新的多模态成像平台推进 3D 成像

CrestOptics and Tomocube partner to advance 3D imaging with new multimodal imaging platform

CrestOptics S.p.A. 是一家高端显微镜解决方案和先进荧光显微镜系统制造商,Tomocube 是全息断层扫描 (HT) 技术的领导者,今天宣布建立战略合作关系,提供下一代多模态成像平台 HT-X1™ Plus。通过结合两家公司的专业知识,该平台将 CrestOptics 的旋转盘共聚焦技术与 Tomocube 的最新创新技术相结合……

使用 Amazon Bedrock 中的多模式提示读取图形、图表、表格和扫描页面

Read graphs, diagrams, tables, and scanned pages using multimodal prompts in Amazon Bedrock

在本文中,我们演示了如何使用 Amazon Bedrock 上的模型从图像、表格和扫描文档中检索信息。我们提供以下示例:1/ 执行对象分类和对象检测任务,2/ 读取和查询图表,以及 3/ 读取流程图和架构图(例如 AWS 架构图)并将其转换为文本。

大型视觉编码器的多模态自回归预训练

Multimodal Autoregressive Pre-Training of Large Vision Encoders

*平等贡献者大型多模态模型中的主导范式是将大型语言解码器与视觉编码器配对。虽然众所周知如何为多模态任务预训练和调整语言解码器,但不太清楚应该如何预训练视觉编码器。事实上的标准是使用判别目标(例如对比损失)预训练视觉编码器。这会导致预训练和生成自回归下游任务之间的不匹配。同时,继语言领域取得成功之后,自回归图像模型已被证明……

Cohere Embed 多模态嵌入模型现已在 Amazon SageMaker JumpStart 上提供

Cohere Embed multimodal embeddings model is now available on Amazon SageMaker JumpStart

Cohere Embed 多模式嵌入模型现已在 Amazon SageMaker JumpStart 上正式推出。该模型是最新的 Cohere Embed 3 模型,它现在是多模式的,能够从文本和图像生成嵌入,使企业能够从以图像形式存在的大量数据中释放真正的价值。在本文中,我们将通过一些示例讨论这种新模型的优势和功能。

在 Amazon SageMaker JumpStart 上微调用于视觉和文本用例的多模态模型

Fine-tune multimodal models for vision and text use cases on Amazon SageMaker JumpStart

在本文中,我们将展示如何微调文本和视觉模型(例如 Meta Llama 3.2),以便在视觉问答任务中表现更好。Meta Llama 3.2 Vision Instruct 模型在具有挑战性的 DocVQA 视觉问答基准上表现出色。通过利用 Amazon SageMaker JumpStart 的强大功能,我们展示了调整这些生成式 AI 模型以更好地理解和回答有关图像的自然语言问题的过程。

使用 Amazon Bedrock 和 AWS 托管服务中的 Amazon Titan 多模式嵌入构建反向图像搜索引擎

Build a reverse image search engine with Amazon Titan Multimodal Embeddings in Amazon Bedrock and AWS managed services

在本文中,您将学习如何使用 Amazon Rekognition 从图像查询中提取关键对象,并使用 Amazon Bedrock 的 Amazon Titan Multimodal Embeddings 结合 Amazon OpenSearch Serverless Service 构建反向图像搜索引擎。

多模式 AI 的兴起

The rise of multimodal AI

重要性:多模态 AI 的兴起:探索 AI 如何整合文本、图像和音频,实现跨行业创新。

促进跨模态表征以改进生理信号的多模态基础模型

Promoting Cross-Modal Representations to Improve Multimodal Foundation Models for Physiological Signals

许多医疗保健应用本质上是多模态的,涉及多种生理信号。随着这些信号的传感器变得越来越普遍,改进多模态医疗保健数据的机器学习方法至关重要。预训练基础模型是一条有希望的成功途径。然而,在医疗保健领域开发基础模型的方法仍处于早期探索阶段,鉴于生理信号的多样性,目前尚不清楚哪种预训练策略最有效。这部分是由于多模态健康数据面临的挑战:获取许多患者的数据是……

新型全集成多模态分析扫描透射电子显微镜推动材料科学的新研究

New Fully Integrated Multimodal Analytical Scanning Transmission Electron Microscope to Advance Novel Research in Materials Science

科学服务领域的全球领导者赛默飞世尔科技公司 (Thermo Fisher Scientific Inc.) 在最近于丹麦哥本哈根举行的 2024 年欧洲显微镜大会上向满座的与会者展示了一款突破性的透射电子显微镜。作为一种完全集成的多模态分析解决方案,Thermo Scientific™ Iliad™(扫描)透射电子显微镜 (S)TEM 为科学先驱提供了有关最复杂现代材料的化学性质(直至原子级)的更深入见解……

RAG GenAI 系统中的多模态数据:从文本到图像及其他

Multimodal Data in RAG GenAI Systems: From Text to Image and Beyond

在快速发展的人工智能领域,检索增强生成 (RAG) GenAI 通过结合实时数据检索突破了生成模型的界限。 RAG 技术与生成式人工智能 (GenAI) 的融合创建了一个动态、上下文丰富的系统,可增强各个行业的内容生成。最具变革性的进步之一是整合 […]

CtrlSynth:可控图像文本合成,实现数据高效的多模态学习

CtrlSynth: Controllable Image-Text Synthesis for Data-Efficient Multimodal Learning

预训练稳健的视觉或多模态基础模型(例如 CLIP)依赖于大规模数据集,这些数据集可能存在噪声、可能错位且具有长尾分布。先前的研究已显示出通过生成合成样本来扩充数据集的良好结果。但是,它们仅支持特定领域的临时用例(例如,仅支持图像或文本,但不能同时支持两者),并且由于缺乏对合成过程的细粒度控制,数据多样性有限。在本文中,我们设计了一个可控的图像文本合成管道 CtrlSynth,用于数据高效且稳健的……