详细内容或原文请订阅后点击阅览
公开学习数据工程一个月:这是我没有写的内容
对公开学习数据工程第一个月的反思,以及真正让我坚持下去的原因。《公开学习数据工程一个月:这是我没有写的内容》一文首先出现在《走向数据科学》上。
来源:走向数据科学在 LinkedIn 上向我从未见过的人询问他认为进入数据工程的最佳途径是什么,以及认证是否值得追求。原来他已经读过我的一篇文章了。因此,他没有给我一个新的答案,而是把我自己的答案还给了我。 “你走在正确的道路上,”他说。 “你正在遵循 12 个月的路线图,坚持下去。不要接受任何人的建议,这可能会让你感到困惑。”
我将该消息读了两遍。因为在那之前的两周,我几乎说服自己放弃了我公开承诺的路线图。
让我备份一下。
距离我发表关于这一旅程的第一篇文章《从数据分析师到数据工程师:我的 12 个月自学路线图》已经过去一个月了。从那以后,我又写了三篇文章,每一篇都详细介绍了我从头开始构建的 ETL 管道。同样的管道使用 SQLite 和幂等性为生产做好了准备。然后使用 GitHub Actions 进行调度,这在成为有关调度的课程之前变成了有关可移植性的课程。
这四篇文章很好地记录了我这个月所做的事情。它们并不能公正地记录这个月的实际感受。所以这个是不同的。没有代码,没有演练。只是那些不适合其他地方的零件。
计划说的是一件事,月份做了另一件事
路线图按顺序列出了事情。首先是 SQL,然后是 Python,然后是 Git,然后是 Spark,然后是 Airflow,最后是 Databricks。整齐的。顺序的。这种计划在概念板上看起来很棒。
我没关注。并不真地。我没有按顺序遍历堆栈,而是构建了一个小管道并不断推动它,直到它以新的方式突破。 SQL 出现了。蟒蛇出现了。吉特出现了。但不是按照我计划的顺序,也不是因为我这样安排的。他们出现是因为管道需要他们。
我曾经认为这意味着我偏离了轨道。现在我认为这只是意味着该计划是一个起点,而不是合同。路线图让我前进。管道决定了我接下来真正需要学习的内容。
