1. 简介 集成是通过加权平均或投票将预测组合在一起的模型的集合。过去十年,集成方法一直是重要研究的焦点,人们推出了多种集成方法。众所周知的集成方法包括 bagging [2]、boosting [14]、随机森林 [3]、贝叶斯平均 [9] 和 stacking [17]。人们对集成方法的大部分兴趣源于其出色的实证表现。然而,集成有一个经常被忽视的缺点:许多集成很大而且很慢。这使得集成方法不适用于内存、存储空间或计算能力有限的应用(例如便携式设备或传感器网络),也不适用于需要实时预测的应用。例如,考虑 boosted 决策树、bagged 决策树或随机森林。这些模型通常包含数百或数千个决策树,每个决策树都必须存储并在运行时执行以进行预测。执行单个决策树很快,但执行一千个决策树则不然。