使用Python(Scikit-Learn)了解随机森林

随机森林是一种强大的机器学习算法,可用于分类和回归,是可解释的,并且不需要功能缩放。以下是如何应用它的方法。在使用Python(Scikit-Learn)了解随机森林的帖子首先出现在数据科学方面。

来源:走向数据科学

树是一种受欢迎的监督学习算法,其好处包括能够用于回归和分类以及易于解释。但是,决策树并不是表现最多的算法,并且由于训练数据的差异很小,因此很容易过度拟合。这可能会导致完全不同的树。这就是为什么人们经常转向诸如包袋树和随机森林之类的合奏模型的原因。这些由多个在自举数据进行培训的决策树中,并汇总以实现比任何一棵树所能提供的更好的预测性能。本教程包括以下内容:

    什么是什么使随机森林使用Scikit-learncalnculculat和temater在随机森林中的个体决策树
  • 是什么使随机森林与众不同
  • 使用Scikit-Learn培训和调整随机森林
  • 计算和解释特征重要性
  • 可视化随机森林中的单个决策树
  • 与往常一样,本教程中使用的代码在我的github上可用。我的YouTube频道也可以在此教程的视频版本中提供那些喜欢在视觉上关注的人。这样,让我们​​开始吧!
  • github

    视频版本 什么是包装(Bootstrap汇总)

    bootstrap +汇总=包装。迈克尔·加拉尼克(Michael Galarnyk)的图像。

    b
    agg Ting 随机森林可以归类为包装算法(Bootstrap聚集)。包包包括两个步骤:

    b

    带有和不替换博客文章的采样 2.)汇总预测:每个自举数据集用于训练不同的决策树模型。最终预测是通过结合所有单个树的输出来做出的。对于分类,这通常是通过多数投票来完成的。对于回归,预测是平均的。

    方差

    包袋树 max_features 'sqrt' 1 3)。汇总预测:对分类和平均回归投票。

    户外(OOB)得分

    x