使用 Amazon SageMaker Canvas 从 Google Cloud Platform BigQuery 导入数据,实现无代码机器学习

这篇文章介绍了一种从不同的云环境(例如 Google Cloud Platform (GCP) BigQuery)中提取数据的架构方法,无需移动数据。这最大限度地降低了在云环境之间移动数据所涉及的复杂性和开销,使组织能够访问和利用其不同的数据资产进行 ML 项目。我们重点介绍了使用 Amazon Athena Federated Query 从 GCP BigQuery 提取数据、使用 Amazon SageMaker Data Wrangler 执行数据准备,然后使用准备好的数据在无代码 ML 界面 Amazon SageMaker Canvas 中构建 ML 模型的过程。

来源:亚马逊云科技 _机器学习

在以云为中心的现代业务格局中,数据通常散布在众多云和现场系统中。这种分裂可能使组织巩固和分析其机器学习(ML)计划的数据变得复杂。

本文提出了一种架构方法,可以从不同的云环境(例如Google Cloud Platform(GCP)BigQuery)中提取数据,而无需数据移动。这样可以最大程度地减少与云环境之间移动数据相关的复杂性和间接费用,从而使组织能够访问和利用其不同的数据资产用于ML项目。

我们强调了使用Amazon Athena联合查询从GCP BigQuery中提取数据,使用Amazon Sagemaker Data Wrangler进行数据准备的过程,然后使用准备好的数据来构建ML模型,这是一个无代码ML接口。

亚马逊雅典娜联合查询 Amazon Sagemaker Data Wrangler Amazon Sagemaker Canvas

sagemaker帆布允许业务分析师从50多个来源访问和导入数据,使用自然语言和300多个内置转换准备数据,建立和培训高度准确的模型,生成预测并将模型部署到生产中,而无需编码或丰富的ML经验。

解决方案概述

解决方案概述了两个主要步骤:

    从GCP BigQuery设立了亚马逊雅典娜,以从GCP BigQuery制作联合查询,该查询可以直接从GCP BigQuery运行实时查询,直接从Athenaimport将数据从BigQuery使用Athena作为中间
  • 从GCP BigQuery设立了亚马逊雅典娜,以直接从雅典娜的GCP Bigquery运行实时查询
  • 亚马逊雅典娜
  • 将数据从BigQuery从BigQuery导入到Sagemaker画布中
  • 将数据导入到sagemaker画布中后,您可以使用无代码接口来构建ML模型并根据导入的数据生成预测。

    Amazon Sagemaker Studio

    工作流程包括以下步骤: