机器学习“降临节日历”第 19 天：Excel 中的装袋 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

机器学习“降临节日历”第 19 天：Excel 中的装袋

2025年12月19日 18:13 33 Comments

从 Excel 中的基本原理理解集成学习机器学习“降临日历”第 19 天：Excel 中的装袋一文首先出现在《迈向数据科学》上。

来源:走向数据科学

在 18 天的时间里，我们探索了大部分核心机器学习模型，分为三个主要系列：基于距离和密度的模型、基于树或规则的模型以及基于权重的模型。

到目前为止，每篇文章都专注于一个单独训练的模型。集成学习彻底改变了这种观点。它不是一个独立的模型。相反，它是一种结合这些基本模型来构建新东西的方法。

如下图所示，集成是一个元模型。它位于各个模型之上并汇总它们的预测。

集成学习最简单的形式是投票。

这个想法几乎是微不足道的：训练几个模型，进行预测，然后计算平均值。如果一个模型在一个方向上是错误的，而另一个模型在相反方向上是错误的，那么这些错误应该被抵消。至少，直觉是这样。

从表面上看，这听起来很合理。但在实践中，情况却大不相同。

一旦您尝试对真实模型进行投票，一个事实就会变得显而易见：投票并不是魔法。简单地平均预测并不能保证更好的性能。在许多情况下，这实际上会让事情变得更糟。

原因很简单。当您组合表现截然不同的模型时，您也组合了它们的弱点。如果模型不产生互补误差，则平均会稀释而不是强化有用的结构。

为了清楚地看到这一点，请考虑一个非常简单的示例。采用在同一数据集上训练的决策树和线性回归。决策树捕获局部非线性模式。线性回归捕捉全局线性趋势。当你对他们的预测进行平均时，你并没有获得更好的模型。您获得的折衷方案通常比单独采用每个模型更糟糕。

这说明了一个重要的观点：集成学习需要的不仅仅是平均。这需要一个策略。一种组合模型的方法，实际上可以提高稳定性或泛化性。

强化反方向重要的大部分提高需要的集成学习模型的错误的元模型方法基本模型背后的距离和稳定性一个决策树平均值非线性不同的线性模式投票组合进行机器学习核心机简单的数据集平均时独立的显而易见训练的模型线性回归有用的实际上预测抵消