TPOT:使用 Python 中的遗传算法实现机器学习管道自动化

您只需几行代码,即可使用 TPOT 在 Python 中训练、评估和导出完整的 ML 管道。

来源:KDnuggets

简介

手动构建机器学习模型涉及一长串决策。其中涉及许多步骤,例如清理数据、选择正确的算法以及调整超参数以获得良好的结果。这个试错过程通常需要几个小时甚至几天。然而,有一种方法可以使用基于树的管道优化工具(TPOT)来解决这个问题。

TPOT 是一个 Python 库,它使用遗传算法自动搜索最佳的机器学习管道。它将管道视为自然界中的种群:它尝试多种组合,评估它们的性能,并在多代中“进化”出最好的组合。这种自动化使您能够专注于解决问题,而 TPOT 则负责处理模型选择和优化的技术细节。

TPOT 的工作原理

TPOT 利用遗传编程 (GP)。它是一种受生物学自然选择启发的进化算法。 GP 不是进化有机体,而是进化计算机程序或工作流程来解决问题。在 TPOT 的背景下,正在发展的“程序”是机器学习管道。

TPOT 的工作原理分为四个主要步骤:

  • 生成管道:它从机器学习管道的随机群体开始,包括预处理方法和模型。
  • 评估适应性:每个管道都根据数据进行训练和评估,以衡量性能。
  • 选择与进化:选择性能最好的管道进行“复制”,通过交叉和变异创建新的管道。
  • 迭代迭代:此过程重复多代,直到 TPOT 识别出具有最佳性能的管道。
  • 该过程如下图所示:

    接下来,我们将了解如何在 Python 中设置和使用 TPOT。

    1.安装TPOT

    要安装 TPOT,请运行以下命令:

    2.导入库

    导入必要的库:

    3. 加载和分割数据

    我们将在此示例中使用流行的 Iris 数据集:

    4. 初始化TPOT

    初始化 TPOT 如下:

    输出: