Introducing multimodal retrieval for Amazon Bedrock Knowledge Bases
在这篇文章中,我们将指导您构建多模式 RAG 应用程序。您将了解多模式知识库的工作原理、如何根据内容类型选择正确的处理策略,以及如何使用控制台和代码示例来配置和实现多模式检索。
Dr. Lahana’s Multimodal Makerspace: A Reality Check for the “Laptops Broke Kids” Narrative
今年,我再次有机会参观曼哈顿下东区的 PS/MS 188 The Island School,在 Lou Lahana 博士的创客空间里度过时光。我们来观察他如何使用技术作为教学工具。我们看到的与我们许多人成长过程中的科技室截然相反。你首先注意到的是它看起来不像计算机实验室。看起来就像一个工作室。是的,有带有 Adobe 软件的笔记本电脑。但它们与木工工具、缝纫机、乐高积木、工艺用品、音响设备、机器人套件、记号笔和成堆的学生项目共享空间。学生并不是从设备开始的。他们从一个想法开始,然后选择对他们想要表达的内容有意义的媒介。一个项目可能涉及拍摄、编码、建筑、绘画、作曲或设计棋盘游戏。通常情况
DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search
现实应用中的多模态大型语言模型 (MLLM) 需要访问外部知识源,并且必须保持对动态且不断变化的现实世界信息的响应,以便解决信息查找和知识密集型用户查询。现有的方法,例如检索增强生成 (RAG) 方法、搜索代理和配备搜索的 MLLM,通常会遇到僵化的管道、过多的搜索调用和构造不良的搜索查询,从而导致效率低下和结果不佳。为了解决这些限制,我们提出......
在这篇文章中,我们通过对亚马逊运营中心内的制造设备进行案例研究,展示了如何在 Amazon Bedrock 上使用基础模型 (FM) 实施预测性维护解决方案。该解决方案具有高度适应性,可以针对其他行业进行定制,包括石油和天然气、物流、制造和医疗保健。
Unified Open-World Segmentation with Multi-Modal Prompts
近年来,开放世界图像分割技术迅速发展,包括开放词汇分割和上下文分割。尽管如此,现有方法仅限于单一模态提示,缺乏复杂的对象感知提示所需的灵活性和准确性。在这项工作中,我们提出了 COSINE,一个统一的开放世界分割模型,它整合了开放词汇分割和上下文分割。通过将开放词汇任务和上下文分割任务构建为可提示的分割任务,COSINE 支持多种输入模式……
Scale creative asset discovery with Amazon Nova Multimodal Embeddings unified vector search
在本文中,我们将介绍如何使用 Amazon Nova 多模式嵌入来检索特定视频片段。我们还回顾了一个现实世界的用例,其中 Nova Multimodal Embeddings 在针对 170 个游戏创意资产的库进行测试时,实现了 96.7% 的召回成功率和 73.3% 的高精度召回率(返回前两个结果中的目标内容)。该模型还展示了强大的跨语言功能,并且跨多种语言的性能下降最小。
作者:Rodrigo Tetsuo Argenton - 自己的作品,CC BY-SA 4.0,https://commons.wikimedia.org/w/index.php?curid=87147373巴西游走蜘蛛咬伤引起的坏死性溃疡患者的整体治疗:联合治疗具有挑战性的治疗案例报告摘要难以愈合的伤口仍然是一个问题对医疗保健专业人员来说是一项重大挑战,特别是在老龄化人口中。尽管大多数慢性伤口与糖尿病或慢性静脉功能不全有关,但也应考虑罕见的病因。其中一个原因是Phoneutria spp 的毒害。 (原产于南美洲,欧洲罕见)。它们的毒液含有强效神经毒素。虽然全身性表现更常见,但也可能发生局部
MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer
能够理解和生成视觉内容的统一多模式大语言模型 (LLM) 拥有巨大的潜力。然而,现有的开源模型通常会受到这些功能之间性能权衡的影响。我们提出了 Manzano,一个简单且可扩展的统一框架,通过将混合图像标记器与精心策划的训练方案相结合,大大减少了这种紧张。单个共享视觉编码器为两个轻量级适配器提供数据,这些适配器在公共…内生成用于图像到文本理解的连续嵌入和用于文本到图像生成的离散标记。
AI Outlook 2026: a strategic forecast
2026年,人工智能将超越聊天机器人,成为现代企业和创意产业的运营层。我们的预测探讨了未来一年的关键转变:从“数字同事”和多模式智能到 MCP 作为可扩展人工智能的支柱。
Scientists Create a “Periodic Table” for Artificial Intelligence
研究人员提出了一个统一的数学框架,有助于解释为什么许多成功的多模式人工智能系统能够发挥作用。人们越来越依赖人工智能来组合和解释不同类型的数据,包括文本、图像、音频和视频。持续减缓多模式人工智能进展的一个障碍是决定哪种算法方法最适合[...]
Programmatically creating an IDP solution with Amazon Bedrock Data Automation
在本文中,我们将探讨如何以编程方式创建使用 Strands SDK、Amazon Bedrock AgentCore、Amazon Bedrock 知识库和 Bedrock Data Automation (BDA) 的 IDP 解决方案。该解决方案通过 Jupyter 笔记本提供,使用户能够上传多模式业务文档并使用 BDA 作为解析器提取见解,以检索相关块并增强对基础模型 (FM) 的提示。
Virgin Atlantic Launches new AI Chatbot ‘Concierge’
为了给客户创造更顺畅的体验,Virgin Altantic 推出了一款名为“Concierge”的新型人工智能聊天机器人助手,可以帮助引导乘客完成预订流程。它是如何运作的? “数字礼宾”软件由 OpenAI 提供支持,采用多模式人工智能,客户可以选择点击、交谈或打字 […]维珍航空推出新的人工智能聊天机器人“礼宾”后,首先出现在旅行雷达 - 航空新闻上。
Unlocking video understanding with TwelveLabs Marengo on Amazon Bedrock
在这篇文章中,我们将展示 Amazon Bedrock 上提供的 TwelveLabs Marengo 嵌入模型如何通过多模式 AI 增强视频理解。我们将使用 Marengo 模型的嵌入以及 Amazon OpenSearch Serverless 作为矢量数据库来构建视频语义搜索和分析解决方案,其语义搜索功能不仅限于简单的元数据匹配,还可以提供智能内容发现。