用于有效特征选择的 5 个有用的 Python 脚本

学习五个简单的 Python 脚本来执行有效的特征选择。每一种都是实用、简约且易于在实际项目中使用的。

来源:KDnuggets

简介

作为一名机器学习从业者,您知道特征选择是一项重要但耗时的工作。您需要确定哪些特征真正有助于模型性能,删除冗余变量,检测多重共线性,过滤掉噪声特征,并找到最佳特征子集。对于每种选择方法,您可以测试不同的阈值、比较结果并跟踪哪些方法有效。

随着功能空间的增长,这变得更具挑战性。对于数百个工程特征,您将需要系统的方法来评估特征重要性、消除冗余并选择最佳子集。

本文介绍了五个 Python 脚本,旨在自动执行最有效的特征选择技术。

您可以在 GitHub 上找到这些脚本。

1. 使用方差阈值过滤常数特征

痛点

具有低方差或零方差的特征几乎不提供用于预测的信息。在所有样本中恒定或几乎恒定的特征无助于区分不同的目标类别。手动识别这些特征意味着计算每列的方差,设置适当的阈值,并处理边缘情况,例如二进制特征或具有不同尺度的特征。

脚本的作用

根据可配置的阈值识别并删除低方差特征。适当处理连续和二元特征,标准化方差计算以在不同尺度上进行公平比较,并提供详细的报告,显示哪些特征被删除以及原因。

工作原理

该脚本计算每个特征的方差,并根据特征类型应用不同的策略。

  • 对于连续特征,它计算标准方差,并且可以选择按特征范围进行标准化以使阈值具有可比性
  • 对于二元特征,它计算少数类的比例,因为二元特征的方差与类不平衡有关。
  • ⏩获取基于方差阈值的特征选择器脚本

    总结