我们使用了 3 种特征选择技术:这个效果最好

让我们看一下三种功能选择技术,看看哪种功能最佳。

来源:KDnuggets
编辑图像

#简介

在任何机器学习项目中,功能选择都可以制造或破坏您的模型。选择最佳特征子集可减少噪声,防止过度拟合,增强可解释性并通常提高准确性。由于变量无关或多余的变量,模型变得肿,很难训练。由于太少,他们可能会缺少关键信号。

为了应对这一挑战,我们在真实数据集上尝试了三种流行的功能选择技术。目的是确定哪种方法将提供最佳的性能,可解释性和效率的平衡。在本文中,我们分享了测试三种功能选择技术的经验,并揭示了哪种最适合我们的数据集。

#为什么功能选择重要

构建机器学习模型,尤其是在高维数据集上时,并非所有功能都同样贡献。一组更瘦,更有用的投入集提供了几个优点:

    减少过度拟合 - 消除无关的变量有助于模型更好地推广到看不见的数据。FASTER培训 - 更少的功能意味着更快的训练和降低计算成本。贝特解释性 - 具有紧凑的预测变量,可以轻松解释什么推动模型决策。
  • 减少过度拟合 - 消除无关的变量有助于模型更好地概括地看不见数据。
  • 减少过拟合
  • 更快的培训 - 更少的功能意味着更快的培训和较低的计算成本。
  • 更快的培训
  • 更好的解释性 - 具有一组紧凑的预测因素,可以更容易解释什么推动模型决策。
  • 更好的解释性

    #数据集

    在此实验中,我们使用了Scikit-Learn的糖尿病数据集。它包含442个患者记录,具有10个基线特征,例如体重指数(BMI),血压,几种血清测量和年龄。目标变量是基线一年后疾病进展的定量度量。

    让我们加载数据集并准备它:

    x y

    #过滤方法

    过滤方法