详细内容或原文请订阅后点击阅览
我尝试安排我的 ETL 管道。这是我没想到的。
我原本以为是调度问题,结果发现首先是可移植性问题《我尝试调度我的 ETL 管道》一文。这是我没想到的。首先出现在《走向数据科学》上。
来源:走向数据科学,我提到日程安排是我要走向的下一堵墙。
所以我想,我就在这里,朝它走去
但在讨论发生的事情之前,让我为第一次遇到此问题的人提供一些背景信息。
我是一名系统分析师,决定转型为数据工程。我决定通过公开构建和撰写它来学习,而不是仅仅参加课程和收集证书。本系列中的每一篇文章都记录了我实际构建的东西、我所做的决定、失败的事情以及我从中学到的东西。
第一篇文章是我为期 12 个月的自学路线图,其中我列出了如何实现这一转变的计划。第二个是我作为一个完全的初学者使用 GitHub API 从头开始构建我的第一个 ETL 管道。在第三个中,我采用了相同的管道,并通过添加 SQLite 存储、幂等性处理和 Google Drive 持久性(所有这些都在 Google Colab 内)使其更加适合生产。
本文是第四篇。它恰好从上一个结束的地方开始。
我预计会花费大部分时间来选择调度工具并对其进行配置。我没想到的是,在我考虑日程安排之前,我必须处理一些更基本的事情。我的管道无法在 Google Colab 之外运行。在这种情况发生改变之前,世界上没有任何调度程序可以帮助我。
这是真实发生的故事。
第一堵墙:我的管道位于 Colab
在进行调度之前,我想了解自动运行管道实际上需要什么。因此,我第一次正确地查看了我的代码,并牢记了这个问题。
这是加载部分的样子:
conn = sqlite3.connect('/content/drive/MyDrive/github_repos.db')
有趣的是我的代码没有 google.colab 导入。没有 Colab 特定的库。只是我在没有真正考虑的情况下输入的一条硬编码路径。该路径是依赖项,而不是代码。
请求
