从配置到编排:使用AWS构建ETL工作流程不再是一场斗争

逐步指南利用AWS服务来实现有效的数据管道自动化,从配置到编排的帖子:使用AWS构建ETL工作流程不再是首先在数据科学方面出现的斗争。

来源:走向数据科学

由于其早期市场,强大的技术和全面的服务产品,以高达32%的份额领导云行业。但是,许多用户发现AWS具有挑战性的导航,这种不满导致更多的公司和组织更喜欢其竞争对手Microsoft Azure和Google Cloud Platform。

尽管其学习曲线更陡峭,直观的界面较少,但由于其可靠性,混合云和最大服务选项,AWS仍然是顶级云服务。更重要的是,选择适当的策略可以显着降低配置复杂性,简化工作流程和提高性能。

在本文中,我将根据我自己的经验介绍一种具有AWS编排的完整ETL管道的有效方法。它还可以为您提供有关AWS生产数据生产的刷新视图,或者如果您第一次将AWS用于某些任务时,则在进行配置时会感到不那么挣扎。

设计有效数据管道的策略

aws拥有最全面的生态系统,其大量服务。要在AWS上构建准备生产的数据仓库,至少需要以下服务:

    iam - 尽管该服务不包括在工作流程的任何部分中,但它是访问所有其他服务的基础。aws s3 - 数据湖Storageaws胶水 - ETL ProcessingAmazon Redshift - 数据warehousecloudwatch - 监视和伐木
  • iam - 尽管该服务未包含在工作流程的任何部分中,但它是访问所有其他服务的基础。
  • AWS S3 - 数据湖存储
  • aws胶 - ETL处理
  • Amazon Redshift - 数据仓库
  • CloudWatch - 监视和记录
  • ,如果您必须安排更复杂的依赖项并在错误处理方面进行高级重试,尽管Redshift可以处理一些基本的CRON作业,但您也需要访问气流。

    初始设置

    这是初始配置的步骤:

  • 在您的IDE中启动虚拟环境
  • aws访问密钥ID:来自您的IAM用户。
  • us-east-1 JSON