我尝试安排我的 ETL 管道。这是我没想到的。 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

我尝试安排我的 ETL 管道。这是我没想到的。

2026年6月19日 15:00 33 Comments

我原本以为是调度问题，结果发现首先是可移植性问题《我尝试调度我的 ETL 管道》一文。这是我没想到的。首先出现在《走向数据科学》上。

来源:走向数据科学

，我提到日程安排是我要走向的下一堵墙。

所以我想，我就在这里，朝它走去

但在讨论发生的事情之前，让我为第一次遇到此问题的人提供一些背景信息。

我是一名系统分析师，决定转型为数据工程。我决定通过公开构建和撰写它来学习，而不是仅仅参加课程和收集证书。本系列中的每一篇文章都记录了我实际构建的东西、我所做的决定、失败的事情以及我从中学到的东西。

第一篇文章是我为期 12 个月的自学路线图，其中我列出了如何实现这一转变的计划。第二个是我作为一个完全的初学者使用 GitHub API 从头开始构建我的第一个 ETL 管道。在第三个中，我采用了相同的管道，并通过添加 SQLite 存储、幂等性处理和 Google Drive 持久性（所有这些都在 Google Colab 内）使其更加适合生产。

本文是第四篇。它恰好从上一个结束的地方开始。

我预计会花费大部分时间来选择调度工具并对其进行配置。我没想到的是，在我考虑日程安排之前，我必须处理一些更基本的事情。我的管道无法在 Google Colab 之外运行。在这种情况发生改变之前，世界上没有任何调度程序可以帮助我。

这是真实发生的故事。

第一堵墙：我的管道位于 Colab

在进行调度之前，我想了解自动运行管道实际上需要什么。因此，我第一次正确地查看了我的代码，并牢记了这个问题。

这是加载部分的样子：

conn = sqlite3.connect('/content/drive/MyDrive/github_repos.db')

有趣的是我的代码没有 google.colab 导入。没有 Colab 特定的库。只是我在没有真正考虑的情况下输入的一条硬编码路径。该路径是依赖项，而不是代码。

请求

熊猫下一步是什么

基本的失败的调度程序相同的实际上代码完全的输入大部分问题路线图考虑的初学者运行正确地构建特定的背景信息之前系统分析事情管道 Google 持久性决定路径调度 Colab 部分的日程安排输入的发生没有