Kedro 指南:您的生产就绪数据科学工具箱

本文介绍并探讨了 Kedro 的主要功能,引导您了解其核心概念,以便在深入研究该框架以解决实际数据科学项目之前更好地理解。

来源:KDnuggets

简介

数据科学项目通常以探索性 Python 笔记本开始,但需要在某个阶段转移到生产环境,如果不仔细规划,这可能会很棘手。

QuantumBlack 的框架 Kedro 是一种开源工具,通过将项目结构、可扩展性和可重复性等概念转化为实践,弥合了实验笔记本和生产就绪解决方案之间的差距。

本文介绍并探讨了 Kedro 的主要功能,引导您了解其核心概念,以便在深入研究该框架以解决实际数据科学项目之前更好地理解。

Kedro 入门

使用 Kedro 的第一步当然是在我们的运行环境中安装它,最好是 IDE — Kedro 无法在笔记本环境中充分利用。打开您最喜欢的 Python IDE,例如 VS Code,然后在集成终端中输入:

接下来,我们使用以下命令创建一个新的 Kedro 项目:

如果该命令运行良好,系统会询问您几个问题,包括项目的名称。我们将其命名为流失预测器。如果该命令不起作用,可能是因为安装了多个 Python 版本而导致冲突。在这种情况下,最干净的解决方案是在 IDE 内的虚拟环境中工作。这些是一些用于创建一个快速解决方法的命令(如果创建 Kedro 项目的上一个命令已经起作用,请忽略它们!):

python3.11 -m venv venv

源 venv/bin/activate

pip 安装 kedro

kedro --版本然后在 IDE 中选择以下要从现在开始使用的 Python 解释器:./venv/bin/python。此时,如果一切正常,您应该在左侧(在 VS Code 的“EXPLORER”面板中)看到 churn-predictor 内的完整项目结构。在终端中,让我们导航到项目的主文件夹:是时候通过我们新创建的项目来了解 Kedro 的核心功能了。探索 Kedro 的核心元素总结干得好!