机器学习可以预测世界杯吗?

在 R 中构建 ML 足球预测器机器学习可以预测世界杯吗?首先出现在《走向数据科学》上。

来源:走向数据科学

FIFA 将于 2026 年 6 月 11 日星期四在墨西哥城体育场举行揭幕战,我认为构建我们能够预测比赛结果的最佳 ML 模型将会很有趣。为此,我汇集了多个数据库(49,000 场比赛)以及有关 Elo 评分、比赛结果和杯赛地点的数据。从 FIFA 到波罗的海杯,从 1872 年到 2026 年的比赛,我们将采用概率方法来研究这项运动。

我们将比较几个 ML 模型的性能,包括

  • 多项式回归
  • 多项式岭/弹性网模型
  • LightGBM
  • 我们还将努力了解模型的优点和缺点,以创建一个经过良好校准的模型,该模型可以预测 86% 的主场获胜率。通过权衡模型性能、校准和复杂性,我们将为我们的数据找到最佳模型。

    足球数据

    很多人说足球可以催眠。作为一名球迷,我不同意,但公平地说,这并非没有道理。大多数比赛的进球数少于 5 个,超过 20 个进球即使不是不可能,也是异常现象。相比之下,一名球员在一场NBA比赛中得分超过50分的情况并不罕见。但尽管速度加快,从英格兰到里约热内卢的博特科斯的酒吧仍然爆满。

    批评者不明白的是,低分可以让比赛变得更有趣,因为这使得球队更难获得实质性领先,让球迷们直到最后都处于紧张状态。不幸的是,这也意味着比赛以平局结束的概率接近 22%,这也令人恼火。然而这项运动仍然像以前一样受欢迎。

    事实上,如此多的比赛以平局告终,这实际上成为了稍后的建模问题,但在我们讨论这个问题之前,让我们先回顾一下如何将这些数据放在一起。

    将数据拼接在一起

    通常,改进模型的最佳方法就是获取更多数据。我们将使用international_results.csv、international_team_ ratings.csv 和international_goalscorers.csv

    国际结果.csv

    国际团队评级.csv

    工程功能