决策树本地处理分类数据

但平均目标编码是他们的涡轮增压器,邮政决策树本地处理分类数据首先出现在数据科学方面。

来源:走向数据科学

机器学习算法无法处理分类变量。但是决策树(DTS)可以。分类树也不需要数值目标。下面是将西里尔字母子集分为元音和辅音的树的插图。它没有使用数字功能 - 但它存在。

许多人还将平均目标编码(MTE)作为一种将分类数据转换为数值形式的聪明方法 - 而不会像单热编码一样夸大特征空间。但是,我还没有看到MTE与TDS上的决策树逻辑之间的这种固有联系。本文通过说明性实验准确地解决了这一差距。特别是:

    我将开始快速回顾决策树如何处理分类功能。我们将看到,这成为具有高基数的功能的计算挑战。我将证明如何自然地出现自然而然地出现的意思目标是解决此问题的方法 - 与标签编码不同,您可以使用我的代码从github中复制我的实验。
  • 我将开始快速回顾决策树如何处理分类特征。
  • 决策树
  • 我们将看到这成为具有较高基数的功能的计算挑战。
  • 我将演示自然而然地出现的卑鄙目标编码是如何解决此问题的方法 - 与标签编码不同。
  • 您可以使用GitHub的代码重现我的实验。
  • github
    这个简单的决策树(决策树桩)没有使用数值功能,但它存在。作者在Chatgpt-4O的帮助下创建的图像
    快速说明:均值目标编码的粉丝通常会对单次编码进行不利的描述 - 但这并不像他们所建议的那么糟糕。实际上,在我们的基准实验中,它通常在我们评估的32种分类编码方法中排名第一。 [1]

    决策树和分类特征的诅咒

    k k = 5 k = 20

    平均目标编码解决效率问题

    k-1

    实验

    数据

    n m n×m

    实验设置

    实验

    结果

    结论

    Scikit-Learn

    参考