谁将赢得 2026 年足球世界杯?

根据 Elo、泊松和 10,000 次模拟构建预测谁将赢得 2026 年足球世界杯?首先出现在《走向数据科学》上。

来源:走向数据科学

将于 6 月 11 日开赛,共有 48 支球队、104 场比赛以及一如既往的大量热门赛事。我想要一个我可以真正捍卫的预测。不仅仅是一个具有良好结果的酷机器学习模型,而且是一个每个数字都可以追溯到我可以争论的明确假设的模型。

本文从头开始构建该预测。它故意很简单:对每支球队进行评分,将每场比赛转换成进球分布,并模拟整个锦标赛数万次。

这听起来可能非常针对足球,但本文中的几乎所有内容,从方法论到我们解释结果的方式,对于数据科学来说都是通用的。将“团队”替换为销售代表、交付日期、服务器负载或流失群体,同样的三个步骤可以为您提供可靠的预测,而不是点估计。

这里真正可转移的技能是建立一个管道,其中每个数字都可以追溯到您可以争论的假设,而不是黑盒机器学习模型向您隐藏的假设。

在我们的足球案例中,这意味着:没有跟踪数据,没有深度学习,没有什么是你一个下午无法重建的。但不要停止阅读这里!重点不在于复杂程度。这是关于拥有一个透明的管道,迫使您面对黑匣子隐藏的建模选择。我们将分三步构建模型,并询问每一步的假设。

第 1 步:用 Elo 对每个团队进行评分

如果没有数据来预测双方的实力,就无法预测一场比赛。国家队最干净的现成选择是世界足球 Elo 评级,它是 Arpad Elo 国际象棋系统的改编版。

Elo 是一个单一的自校正方程。每支球队都有一个评级 R。在比赛之前,A 队对 B 队的预期得分(按 0-1 评分,其中 1 表示获胜)是评级差异的逻辑函数:

E_A = 1 / (1 + 10^(-(R_A - R_B) / 400))

比赛结束后,您将评分推向实际发生的情况:

R_A' = R_A + K * (S_A - E_A),

第 2 步:将评分差距转化为目标分布