详细内容或原文请订阅后点击阅览
贪婪 Boruta 算法:在不牺牲召回率的情况下加快特征选择
对 Boruta 算法的修改,可在保持高灵敏度的同时显着减少计算量《贪婪的 Boruta 算法:更快的特征选择而不牺牲召回率》一文首先出现在《走向数据科学》上。
来源:走向数据科学本文是合作成果。特别感谢 Estevão Prado,他的专业知识帮助完善了技术概念和叙述流程。
埃斯特旺·普拉多特征选择仍然是机器学习流程中最关键但计算成本最高的步骤之一。在处理高维数据集时,确定哪些特征真正有助于预测能力可能意味着可解释的高效模型与过度拟合的缓慢模型之间的区别。
在本文中,我介绍了贪婪 Boruta 算法,这是对 Boruta 算法 [1] 的一种修改,在我们的测试中,该算法将计算时间减少了 5-40 倍,同时在数学上证明可以维持或提高召回率。通过理论分析和模拟实验,我演示了确认标准的简单放宽如何在 O(-log α) 迭代中保证收敛,其中 α 是二项式测试的置信度,与普通算法的无界运行时间相比。
O(-log α) αBoruta 算法长期以来因其“全相关”的特征选择方法及其统计框架而深受数据科学家的喜爱。与最小最优方法(例如最小冗余最大相关性 (mRMR) 和递归特征消除 (RFE))不同,Boruta 旨在识别携带有用信息的所有特征。例如,当目标是理解一种现象而不仅仅是做出预测时,这种哲学差异就非常重要。
最小冗余最大相关性然而,Boruta 的彻底性是以高昂的计算成本为代价的。在具有数百或数千个特征的现实应用程序中,算法可能需要非常长的时间才能收敛。这就是贪婪 Boruta 算法发挥作用的地方。
了解普通 Boruta 算法
在检查修改之前,让我们回顾一下普通 Boruta 算法的工作原理。
流程如下:
H₀ H₁ K