详细内容或原文请订阅后点击阅览
决策树本地处理分类数据
但平均目标编码是他们的涡轮增压器,邮政决策树本地处理分类数据首先出现在数据科学方面。
来源:走向数据科学机器学习算法无法处理分类变量。但是决策树(DTS)可以。分类树也不需要数值目标。下面是将西里尔字母子集分为元音和辅音的树的插图。它没有使用数字功能 - 但它存在。
许多人还将平均目标编码(MTE)作为一种将分类数据转换为数值形式的聪明方法 - 而不会像单热编码一样夸大特征空间。但是,我还没有看到MTE与TDS上的决策树逻辑之间的这种固有联系。本文通过说明性实验准确地解决了这一差距。特别是:
- 我将开始快速回顾决策树如何处理分类功能。我们将看到,这成为具有高基数的功能的计算挑战。我将证明如何自然地出现自然而然地出现的意思目标是解决此问题的方法 - 与标签编码不同,您可以使用我的代码从github中复制我的实验。
快速说明:均值目标编码的粉丝通常会对单次编码进行不利的描述 - 但这并不像他们所建议的那么糟糕。实际上,在我们的基准实验中,它通常在我们评估的32种分类编码方法中排名第一。 [1]
决策树和分类特征的诅咒
k ᵏ k = 5 k = 20平均目标编码解决效率问题
k-1实验
数据
n m n×m实验设置
实验
结果
结论
Scikit-Learn