详细内容或原文请订阅后点击阅览
使用 Amazon Bedrock 上的多模式基础模型与您的幻灯片交谈 - 第 3 部分
在本系列的第 1 部分和第 2 部分中,我们探讨了使用多模态 FM 功能的方法,例如 Amazon Titan 多模态嵌入、Amazon Titan 文本嵌入和 Anthropic 的 Claude 3 Sonnet。在本文中,我们从准确性和定价的角度比较了这些方法。
来源:亚马逊云科技 _机器学习在本系列中,我们分享了两种方法来深入了解文本、图像和图表等多模态数据。在第 1 部分中,我们介绍了一种“先嵌入,后推断”解决方案,该解决方案使用 Amazon Titan 多模态嵌入基础模型 (FM) 将幻灯片组中的单个幻灯片转换为嵌入。我们将嵌入存储在矢量数据库中,然后使用大型语言和视觉助手 (LLaVA 1.5-7b) 模型根据从矢量数据库中检索到的最相似的幻灯片生成对用户问题的文本响应。第 1 部分使用 AWS 服务,包括 Amazon Bedrock、Amazon SageMaker 和 Amazon OpenSearch Serverless。
第 1 部分 Amazon Titan 多模式嵌入 大型语言和视觉助手 (LLaVA 1.5-7b) Amazon Bedrock Amazon SageMaker Amazon OpenSearch Serverless在第 2 部分中,我们演示了一种不同的方法:“先推断,后嵌入”。我们在 Amazon Bedrock 上使用 Anthropic 的 Claude 3 Sonnet 为幻灯片组中的每个幻灯片生成文本描述。然后使用 Amazon Titan 文本嵌入模型将这些描述转换为文本嵌入并存储在矢量数据库中。然后,我们使用 Anthropic 的 Claude 3 Sonnet 根据从矢量数据库中检索到的最相关文本描述生成用户问题的答案。
第 2 部分 Amazon Bedrock 上的 Anthropic 的 Claude 3 Sonnet Amazon Titan 文本嵌入在本文中,我们使用开源视觉问答数据集 SlideVQA[1] 提供的基本事实评估两种方法的结果。您可以测试这两种方法并评估结果以找到最适合您的数据集的方法。本系列的代码可在 GitHub 存储库中找到。
SlideVQA GitHub 存储库方法比较
Amazon Bedrock 数据保护本帖遵循下图所示的流程。有关架构的更多详细信息,请参阅本系列第 1 部分和第 2 部分中的解决方案概述和设计。
大型语言模型 (LLM) 的响应非常冗长:
已记录 已记录