机器学习“降临日历”第 20 天:Excel 中的梯度提升线性回归

从随机集成到优化:梯度提升解释机器学习“降临日历”第 20 天:Excel 中的梯度提升线性回归一文首先出现在《走向数据科学》上。

来源:走向数据科学

,我们将学习与投票、装袋和随机森林结合起来。

投票本身只是一种聚合机制。它不会创造多样性,而是结合了已经不同模型的预测。

另一方面,Bagging 通过在训练数据集的多个引导版本上训练相同的基础模型来显式地创建多样性。

随机森林通过额外限制每次分割时考虑的特征集来扩展装袋。

从统计的角度来看,这个想法简单直观:多样性是通过随机性创建的,无需引入任何全新的建模概念。

但集成学习并不止于此。

存在另一类集成方法,它根本不依赖于随机性,而是依赖于优化。梯度提升就属于这个家族。为了真正理解它,我们将从一个故意奇怪的想法开始:

我们将把梯度提升应用于线性回归。

是的,我知道。这可能是您第一次听说应用梯度提升线性回归。

(明天我们将看到梯度提升决策树)。

在本文中,计划如下:

  • 首先,我们将退后一步,重新审视机器学习的三个基本步骤。
  • 然后,我们将介绍Gradient Boosting算法。
  • 接下来,我们将把梯度提升应用到线性回归中。
  • 最后我们来反思一下梯度提升和梯度下降之间的关系。
  • 1. 机器学习三步走

    为了让机器学习更容易学习,我总是将其分为三个清晰的步骤。让我们将此框架应用于梯度提升线性回归。

    因为与 bagging 不同,每一步都会揭示一些有趣的东西。

    1.型号

    模型是一种接受输入特征并产生输出预测的东西。

    在本文中,基本模型将是线性回归。

    1之二。集成方法模型

    这里,梯度提升将用于聚合线性回归模型。

    2.模型拟合

    每个基本模型必须适合训练数据。