详细内容或原文请订阅后点击阅览
我建立了 11 个模型来预测 2026 年世界杯。他们加冕了四位不同的冠军。
一个模型为您提供了一个答案,并且不知道它在多大程度上取决于隐藏在其中的数十个选择。我建立了 11 个模型来预测 2026 年世界杯的帖子。他们加冕了四位不同的冠军。首先出现在《走向数据科学》上。
来源:走向数据科学世界杯,104 场比赛,有多少球迷就有多少自信的预测。构建一个宣布“X 队获胜,概率 p”的模型很容易 - 只需一个下午的时间即可使用公共数据和泊松分布。陷阱就是相信这个数字。一个模型给你一个单一的答案,并且不知道它在多大程度上取决于隐藏在其中的数十个选择:哪种评级系统、哪种目标分布、哪种学习算法。改变其中任何一个,“答案”就可以移动两位数。
因此,我没有相信一个模型,而是构建了 11 个模型——(几乎)机器学习教科书的每一章都有一个模型——在相同的真实比赛数据上训练或计算它们,通过相同的锦标赛模拟器运行每个模型,并让它们争论。三个评级系统(Elo、Colley、PageRank)、两个目标模型(泊松、负二项式)、五个分类器(逻辑回归、KNN、随机森林、XGBoost、神经网络)以及博彩市场作为基准。同样的 48 个团队,同样的数据,十一种方法。
他们为四个不同的冠军加冕——事实证明,这种分歧,而不是共识,才是一套模型可以给你的最有用的东西。本文介绍如何构建它以及如何阅读它。 (如果您只想要一个清晰的预测,Elo-plus-Poisson 版本就是它自己的短文;在这里我们追求的是比一个数字更诚实的东西。)
数据
一切都适合 358 场真实的国际比赛:2010-2022 年世界杯(256 场比赛)以及 2020 年和 2024 年欧洲锦标赛(102 场)的每场比赛,均来自 openfootball 项目 - 特别是其专用于公共领域的 worldcup.json 和 euro.json 数据集。分类器学习从比赛特征到这些游戏结果的映射;评级系统直接根据结果图计算。 2026 年抽签结果是真实的、已确认的——48 支球队,12 个小组。
