引入 Amazon Bedrock 知识库的多模式检索

在这篇文章中,我们将指导您构建多模式 RAG 应用程序。您将了解多模式知识库的工作原理、如何根据内容类型选择正确的处理策略,以及如何使用控制台和代码示例来配置和实现多模式检索。

来源:亚马逊云科技 _机器学习

我们很高兴地宣布 Amazon Bedrock 知识库的多模式检索全面可用。除了文本和图像之外,这项新功能还增加了对视频和音频内容的本机支持。借助它,您可以构建检索增强生成 (RAG) 应用程序,该应用程序可以跨文本、图像、音频和视频搜索和检索信息,所有这些都在完全托管的服务中进行。

现代企业以多种格式存储有价值的信息。产品文档包括图表和屏幕截图,培训材料包含教学视频,客户见解是在录制的会议中捕获的。到目前为止,构建能够有效搜索这些内容类型的人工智能 (AI) 应用程序需要复杂的定制基础设施和大量的工程工作。

此前,Bedrock 知识库使用基于文本的嵌入模型进行检索。虽然它支持文本文档和图像,但必须使用基础模型 (FM) 或基岩数据自动化来处理图像以生成文本描述,这是一种文本优先的方法,会丢失视觉上下文并阻止视觉搜索功能。视频和音频需要自定义预处理外部管道。现在,通过多模式嵌入,检索器本身支持单个嵌入模型中的文本、图像、音频和视频。

通过基岩知识库中的多模式检索,您现在可以使用单个统一的工作流程从文本、图像、视频和音频中提取、索引和检索信息。内容使用多模式嵌入进行编码,保留视觉和音频上下文,使您的应用程序能够跨媒体类型查找相关信息。您甚至可以使用图像进行搜索,以查找视觉上相似的内容或找到视频中的特定场景。

了解多模态知识库

我们将在这篇文章中探讨每种方法。

Amazon Nova 多模式嵌入

Amazon Bedrock 数据自动化

使用案例场景:电子商务的可视化产品搜索