实现变量离散化的 5 种方法

将连续变量转换为离散变量的强大方法概述“实现变量离散化的 5 种方法”一文首先出现在《走向数据科学》上。

来源:走向数据科学

尽管现实数据集中的连续变量提供了详细信息,但它们并不总是建模和解释的最有效形式。这就是变量离散化发挥作用的地方。

了解变量离散化对于数据科学学生构建强大的机器学习基础和人工智能工程师设计可解释系统至关重要。

在我的数据科学之旅的早期,我主要关注调整超参数、尝试不同的算法以及优化性能指标。

当我尝试变量离散化方法时,我注意到某些机器学习模型变得更加稳定和可解释。因此,我决定在本文中解释这些方法。

是变量离散化吗?

有些对于离散变量效果更好。例如,如果我们想在具有连续变量的数据集上训练决策树模型,最好将这些变量转换为离散变量以减少模型训练时间。

变量离散化是通过创建 bin(一组连续区间的集合)将连续变量转换为离散变量的过程。

变量离散化的优点

  • 决策树和朴素贝叶斯模型对于离散变量效果更好。
  • 离散特征易于理解和解释。
  • 离散化可以减少数据中偏差变量和异常值的影响。
  • 总之,离散化简化了数据并允许模型更快地训练。

    变量离散化的缺点

    变量离散化的主要缺点是由于创建箱而导致信息丢失。我们需要找到最小数量的垃圾箱,而不会造成大量信息丢失。算法本身无法找到这个数字。用户需要输入 bin 的数量作为模型超参数。然后,算法将找到与 bin 数量相匹配的分割点。

    有监督和无监督离散化

    变量离散化的类型

  • 等宽离散化
  • 鸢尾花数据集信息