详细内容或原文请订阅后点击阅览
在文本分类中使用特征选择方法
在文本分类中,特征选择是选择训练集术语的特定子集并仅在分类算法中使用它们的过程。特征选择过程发生在分类器训练之前。更新:Datumbox 机器学习框架现在是开源的,可以免费下载。检查 […]
来源:DatumBox - 机器学习、统计和软件开发博客在文本分类中,特征选择是选择训练集术语的特定子集并在分类算法中仅使用它们的过程。特征选择过程发生在分类器训练之前。
更新:Datumbox 机器学习框架现已开源并可免费下载。查看包 com.datumbox.framework.machinelearning.featureselection 以查看 Java 中卡方和相互信息特征选择方法的实现。
更新:Datumbox 机器学习框架现已开源并可免费下载。查看包 com.datumbox.framework.machinelearning.featureselection 以查看 Java 中卡方和相互信息特征选择方法的实现。 下载使用特征选择算法的主要优点是它可以降低数据的维度,加快训练速度,并且可以通过删除噪声特征来提高准确性。因此,特征选择可以帮助我们避免过度拟合。
选择 k 个最佳特征的基本选择算法如下(Manning 等人,2008 年):
Manning 等人,2008 年在接下来的部分中,我们将介绍两种不同的特征选择算法:互信息和卡方。
互信息
最常见的特征选择方法之一是 c 类中术语 t 的互信息(Manning 等人,2008 年)。这衡量了特定术语的存在或不存在对 c 做出正确分类决策的信息贡献量。可以使用以下公式计算互信息:
Manning et al, 2008[1]
在我们的计算中,由于我们使用概率的最大似然估计,我们可以使用以下公式:
[2]
tc t c卡方
卡方 2[3]
2 0上述公式可以重写如下:
[4]
2 Yates 校正 Manning et al (2008)