使用 Amazon Bedrock 中的多模式提示读取图形、图表、表格和扫描页面
在本文中,我们演示了如何使用 Amazon Bedrock 上的模型从图像、表格和扫描文档中检索信息。我们提供以下示例:1/ 执行对象分类和对象检测任务,2/ 读取和查询图表,以及 3/ 读取流程图和架构图(例如 AWS 架构图)并将其转换为文本。
来源:亚马逊云科技 _机器学习大型语言模型 (LLM) 已经从只能读取文本发展到现在能够读取和理解图形、图表、表格和图像。在这篇文章中,我们将讨论如何使用 Amazon Bedrock 中的 LLM 不仅提取文本,而且还理解图像中可用的信息。
Amazon BedrockAmazon Bedrock 是一项完全托管的服务,它通过单个 API 提供来自 AI21 Labs、Anthropic、Cohere、Meta、Mistral AI、Stability AI 和 Amazon 等领先 AI 公司的高性能基础模型 (FM)。它还提供了广泛的功能来构建具有安全性、隐私性和负责任的 AI 的生成式 AI 应用程序。
解决方案概述
在这篇文章中,我们将演示如何使用 Amazon Bedrock 上的模型从图像、表格和扫描文档中检索信息。我们提供以下示例:
- 执行对象分类和对象检测任务阅读和查询图表阅读流程图和架构图(例如 AWS 架构图)并将其转换为文本
我们还探索了 Amazon Bedrock 可以帮助您从图像生成信息的特定用例:
- 识别图像中的动作命名产品并提取元数据以生成标语和说明为房产生成房地产清单从菜肴图像生成食谱
使用 LLM 执行对象分类和对象检测任务
示例我们使用以下提示和 Anthropic 的 Claude 3 Sonnet 对图像进行分类。:
我们从 LLM 获得以下响应:
我们得到以下响应:
{ "class": "ID" }
{
"class": "ID"
}
JSON