详细内容或原文请订阅后点击阅览
我在 358 场比赛中对比了 XGBoost 和逻辑回归。无聊的模型赢了。
具体的偏差-方差课程:为什么最小的模型具有最佳的交叉验证拟合,以及如何知道何时伸手去拿大锤子。我在 358 场比赛中对比 XGBoost 与 Logistic 回归的文章。无聊的模型赢了。首先出现在《走向数据科学》上。
来源:走向数据科学分享了一个新的建模问题:找到获胜的模型。如今,这就是梯度提升,而且反应通常是正确的——XGBoost 在一系列令人震惊的问题上赢得了声誉。
因此,当我在同一任务上排列五个分类器并且单线线性模型击败 Kaggle 冠军时,结果是让任何在真实数据上发布模型的人都感到惊讶的结果,而且几乎每个人都还在学习。
五个分类器,相同的任务,相同的功能:预测国际比赛以主胜、平局还是客胜结束。竞争者从简单的逻辑回归一直到随机森林、KNN、小型神经网络和 XGBoost。
最简单的获胜。比它获胜更有趣的是为什么——而为什么是应用机器学习中最有用的想法之一。这是实验、结果和破解它的理论。
设置
这是在构建一套包含 11 个世界杯模型的过程中产生的,我需要一个结果分类器并想知道哪个系列值得信任。每个模型都针对 358 名历史国际球员(2010 年至 2022 年世界杯以及 2020 年和 2024 年欧洲杯)呈现相同的三个特征:球队之间的实力差距、综合实力以及淘汰赛旗帜。目标是三向结果。
我通过 5 倍交叉验证对它们进行评分,主要指标是对数损失,而不是准确性。这个选择在本文中做了很多工作,因此值得预先明确说明。准确率只问排名靠前的班级是否正确。对数损失对整个概率向量进行评分,并严厉惩罚自信的错误:
from sklearn.model_selection import cross_val_predict
