详细内容或原文请订阅后点击阅览
机器学习“降临节日历”第 19 天:Excel 中的装袋
从 Excel 中的基本原理理解集成学习机器学习“降临日历”第 19 天:Excel 中的装袋一文首先出现在《迈向数据科学》上。
来源:走向数据科学在 18 天的时间里,我们探索了大部分核心机器学习模型,分为三个主要系列:基于距离和密度的模型、基于树或规则的模型以及基于权重的模型。
到目前为止,每篇文章都专注于一个单独训练的模型。集成学习彻底改变了这种观点。它不是一个独立的模型。相反,它是一种结合这些基本模型来构建新东西的方法。
如下图所示,集成是一个元模型。它位于各个模型之上并汇总它们的预测。
投票:最简单的集成想法
集成学习最简单的形式是投票。
这个想法几乎是微不足道的:训练几个模型,进行预测,然后计算平均值。如果一个模型在一个方向上是错误的,而另一个模型在相反方向上是错误的,那么这些错误应该被抵消。至少,直觉是这样。
从表面上看,这听起来很合理。但在实践中,情况却大不相同。
一旦您尝试对真实模型进行投票,一个事实就会变得显而易见:投票并不是魔法。简单地平均预测并不能保证更好的性能。在许多情况下,这实际上会让事情变得更糟。
原因很简单。当您组合表现截然不同的模型时,您也组合了它们的弱点。如果模型不产生互补误差,则平均会稀释而不是强化有用的结构。
为了清楚地看到这一点,请考虑一个非常简单的示例。采用在同一数据集上训练的决策树和线性回归。决策树捕获局部非线性模式。线性回归捕捉全局线性趋势。当你对他们的预测进行平均时,你并没有获得更好的模型。您获得的折衷方案通常比单独采用每个模型更糟糕。
这说明了一个重要的观点:集成学习需要的不仅仅是平均。这需要一个策略。一种组合模型的方法,实际上可以提高稳定性或泛化性。
