Loading...
机构名称:
¥ 1.0

相反,应使用卡方检验和p值来确保真正的关联,而不是依靠套索和RF方法。5-7因此,它们的结果可能有所不同。机器学习中的特征选择可能无法提供真正的关联,原因有几个原因。一个主要问题是过度插入,其中模型,尤其是复杂的模型,捕获噪声而不是训练数据中的真正基础模式。此外,机器学习算法通常会鉴于特征与目标变量之间的相关性,但是这些相关性可能并不意味着因果关系。这种区别至关重要,因为相关并不意味着一个变量会导致另一个变量。另一个挑战是特征选择方法固有的偏差和差异。这些方法可能对使用的特定数据敏感,从而导致偏见或高变化的恢复,这些偏差并不能很好地推广到新数据。此外,不同的算法具有不同的优势和劣势。例如,拉索可能会收缩一些系数为零,可能缺少重要的重要特征,而RF由于其固有的结构而可能会过度强调某些特征。卡方检验和p值是统计方法,可在目标和特征之间提供真正关联。卡方检验和p值测量特征与目标变量之间关联的统计意义,有助于将真实关联与随机噪声区分开。这些方法基于假设检验,提供了一个框架,以测试观察到的关联是否可能是由于偶然的原因。另外,统计方法可以控制混杂变量,以确保确定的关联不是虚假的。最后,统计测试的结果通常可重现,可以在不同数据集中验证。

卡方和p值与机器学习功能选择

卡方和p值与机器学习功能选择PDF文件第1页