集成的集成:堆叠指南

最好的机器学习模型不是一个模型《Ensembles of Ensembles of Ensembles: A Guide to Stacking》一文首先出现在《Towards Data Science》上。

来源:走向数据科学

,机器学习是集成工程的超级竞争游戏。单圈时间或损失分数的轻微改善所带来的差异可以用车队在竭尽全力做到最好时所带来的数百万美元来衡量。不仅系统的每个组件都需要完美,所有组件的组合方式也需要完美。

最先进的技术

梯度提升模型历来是表格和时间序列预测问题最具竞争力的模型。这些是集成方法,因为它们结合了多个基本估计器的结果,得出比任何单独预测更好的最终答案。但最先进的技术正在开始改变。预训练模型(例如用于表格数据的 TabPFN 和用于时间序列的 Chronos)在某些基准上开始匹配或超过梯度增强模型。在某种程度上,这些也是集成方法,只不过它们不是集成许多预测,而是它们学习的数据的集成。这背后的直觉是广泛适用的,并且可以进一步推广。

现在的情况是,两种完全不同的方法正在争夺 ML 排行榜的头把交椅,紧随其后的是数十种其他各有优缺点的架构。鉴于它们都以不同的方式学习,并且还从不同的数据中学习,因此它们都可以在一个额外的集成中一起使用,该集成保留了大部分优点,同时消除了大部分弱点。如果做得正确,这几乎总是会带来更好的性能和更稳健的模型。

断言和假设

多层堆叠

可以针对时间序列或表格回归/分类问题进行修改的通用方法

第 1 层

第 2 层

  • 简单地对它们进行平均
  • 根据验证性能对每个预测集进行加权并求平均值
  • 第 3 层

    这一切都值得吗?