备案控制台

开发者社区人工智能文章正文

使用机器学习预测2018年世界杯足球赛

2018-06-29 3850

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 2018年世界杯正进行的如火如荼，日本、塞内加尔相继爆冷战胜了强大的对手，东道主俄罗斯依旧保持开挂状态，碾压拥有萨拉赫的埃及队，豪取两连胜。在足球的世界里，没有强者恒强的定律，这或许也是足球的魅力所在吧。然而对于世界各地的球迷们来说，世界杯的最终归属仍然是最热门的话题。

2018年世界杯正进行的如火如荼，日本、塞内加尔相继爆冷战胜了强大的对手，东道主俄罗斯依旧保持开挂状态，碾压拥有萨拉赫的埃及队，豪取两连胜。在足球的世界里，没有强者恒强的定律，这或许也是足球的魅力所在吧。然而对于世界各地的球迷们来说，世界杯的最终归属仍然是最热门的话题。

如果你不仅仅是一个足球迷而且还是一个技术人员，我想你已经意识到机器学习和人工智能也是目前流行语。让我们结合这两个来预测哪个国家会赢得FIFA世界杯。

免责声明：这不应该用于投注或任何财务决策。如果你选择，我是谁来阻止你（如果你遇到困境，不要忘了我）。

足球比赛中涉及很多因素，因此所有这些因素都无法在机器学习模型中进行探讨。这只是一个黑客试图用一些很酷的数据...

目标

目标是使用机器学习预测谁将赢得2018年世界杯足球赛
预测整场比赛的单项比赛结果。
运行下一场比赛的模拟，例如四分之一决赛，半决赛和决赛。

这些目标提出了一种独特的真实世界机器学习预测问题，并涉及解决各种机器学习任务：数据整合，特征建模和结果预测。

数据

我使用了Kaggle的两个数据集。你可以在这里找到它们。我们将使用自1930年冠军开始以来所有参赛队的历史赛事结果。

限制：国际足联排名是在90年代创建的，因此缺乏大部分数据集。所以让我们坚持历史比赛记录。

环境和工具：jupyter笔记本，numpy，pandas，seaborn，matplotlib和scikit-learn。

我们首先要对两个数据集进行一些探索性分析，做一些特征工程来选择最相关的特征进行预测，做一些数据处理，选择一个机器学习模型，最后将其部署到数据集上。

理论联系实际

首先，导入必要的库并将数据集加载到一个数据帧。

导入库

加载数据集...

通过为两个数据集调用world_cup.head（）和results.head（），确保数据集加载到数据框中，如下所示：

探索性分析

分析两个数据集后，所得数据集包含过去匹配的数据。新的（产生的）数据集对分析和预测未来的匹配很有用。

探索性分析和特征工程：涉及确定哪些特征与机器学习模型相关是任何数据科学项目中最耗时的部分。

现在让我们将目标差异和结果列添加到结果数据集中。

查看新的结果数据帧。

然后我们将处理一部分数据。其中包括只有尼日利亚参加的比赛。这将有助于我们关注哪些国家的特色有趣，并随后扩展到参加世界杯的国家。

第一届世界杯是在1930年举办的。创建一个年份的专栏，选择1930年以后的所有比赛。

我们现在可以想象这些年来尼日利亚最常见的比赛结果。

获得参加世界杯的每个国家的获胜率是一个有用的指标，我们可以用它来预测比赛中每场比赛的最可能结果。

比赛场地无关紧要。

缩小到参加世界杯的球队

为所有参与球队创建一个数据帧。

然后，我们会进一步过滤结果数据帧，以显示从1930年起仅在今年世界杯上的球队以及数据去重。

创建一个名称为year的列把1930年之前的比赛以及不影响比赛结果的因素（例如日期、主场得分、客场得分、联赛、城市、国家、目标差异、比赛年份）过滤掉。

修改“Y”（预测标签）以简化模型的处理。

如果主队获胜，winner_team列将显示“2”，如果是平局则显示“1”，如果客队赢了，则显示“0”。

通过设置虚拟变量，将home_team和_team从分类变量转换为连续输入。

使用pandas，get_dummies（）函数。它用独一无二的（数字“1”和“0”）表示替代分类列，使其可以加载到Scikit学习模型中。

然后，我们将X和Y组分开，并将数据分成70％的训练和30％的测试。

我们将使用逻辑回归，一种分类器算法。这个算法如何工作？它通过使用逻辑函数估计概率来度量分类因变量和一个或多个自变量之间的关系。具体来说就是累计物流配送。

换句话说，逻辑回归试图预测给定可能影响该结果的一组数据点（统计量）的结果（胜利或损失）。

在实践中这种方式的工作原理是，您一次只用一组比赛来提供算法，同时提供上述“数据集”和比赛的实际结果。然后，模型会学习如何以每种数据的形式对比赛结果产生积极、消极影响以及在多大程度上影响比赛结果。

给它足够的（好的）数据，并且你有一个可以用来预测未来结果的模型。

模型与您提供的数据一样好。

让我们来看看我们的最终数据帧：

看起来很棒。我们现在准备将其传递给我们的算法：

我们的模型在训练集上的准确率为57％，在测试集上的准确率为55％。这看起来不太好，但让我们继续前进。

在这一点上，我们将创建一个数据帧，我们将部署我们的模型。

我们将首先加载截至2018年4月的国际足联排名数据集和一个包含从这里获得的比赛小组赛阶段的数据集。国际足联排名较高的球队将被视为比赛的“最爱”，因此，由于世界杯比赛中没有“主场”或“客场”球队，他们将被定位在“home_teams”栏目下。然后，我们根据每个团队的排名位置将团队添加到新的预测数据集中。下一步将创建虚拟变量并部署机器学习模型。

匹配预测

现在你想知道我们会不会得到预测结果？这里有太多的代码和谈话，你什么时候会向我们展示预测？再坚持一会儿，我们几乎在快完成了......

将模型部署到数据集

我们将从把模型部署到小组比赛开始。

这是小组赛的结果。

（结果数据太多，剩余数据可以直接阅读原文查看）

该模型预测三人将在葡萄牙和西班牙之间安然下注，但给予西班牙很高的获胜概率。我用这个网站模拟了小组赛的比赛。

下面是16轮淘汰赛模拟的一轮。

该模型预测在四分之一决赛之间：葡萄牙vs法国，巴西vs英格兰，西班牙vs阿根廷，德国vs比利时。

这里是预测;

半决赛

葡萄牙vs巴西和德国vs阿根廷

预测;

最后是决赛

巴西vs德国

预测;

根据这个模型，巴西很可能赢得这个世界杯。

进一步研究/改进的领域

数据集;为了改进数据集，您可以使用FIFA（游戏而不是组织）来评估每个团队成员的质量。
混淆矩阵对分析模型出错的比赛非常有用。
我们可以合作，也就是说，我们可以尝试将更多模型堆叠在一起以提高准确性。

结论

有很多事情可以做，以改善这项工作。现在看看我们是否幸运。充分披露：我不是资深球迷。所以预测你自己的风险。

本文为翻译作品，原文来自goodaudience，作者Gerald Muriuki。原文地址：https://blog.goodaudience.com/predicting-fifa-world-cup-2018-using-machine-learning-dc07ad8dd576

文章标签：

算法

机器学习/深度学习

C++

Python

关键词：

机器学习平台 PAI世界杯

机器学习平台 PAI预测

机器学习平台 PAI预测世界杯

小丑丁丁

目录

相关文章

艾派森_

|

3月前

|

机器学习/深度学习存储算法

基于Flask+Bootstrap+机器学习的世界杯比赛预测系统

基于Flask+Bootstrap+机器学习的世界杯比赛预测系统

艾派森_

58 0 0

livingbody

|

机器学习/深度学习移动开发 Windows

机器学习奥林匹克-身体健康与幸福之心脏病预测

机器学习奥林匹克-身体健康与幸福之心脏病预测

livingbody

285 0 0

机器学习奥林匹克-身体健康与幸福之心脏病预测

jhcgt

|

机器学习/深度学习数据处理

机器学习——PM2.5预测白话

本项目仅用于参考，提供思路和想法并非标准答案！请谨慎抄袭！

jhcgt

371 0 0

机器学习——PM2.5预测白话

ShowMeAI

|

机器学习/深度学习数据采集人工智能

就离谱！使用机器学习预测2022世界杯：小组赛挺准，但冠亚季军都错了 ⛵

本文使用机器学习建模对 FIFA 2022世界杯结果进行了预测，赛后将其与真实结果进行比较，可以看出：小组赛到1/4决赛的预测准确率很高，半决赛和决赛的预测准确率为0，冠亚季军无一预测准确。

ShowMeAI

121 0 0

就离谱！使用机器学习预测2022世界杯：小组赛挺准，但冠亚季军都错了 ⛵

Deephub

|

机器学习/深度学习算法

Kaggle M5 Forecasting:传统预测方法与机器学习预测方法对比(三)

Kaggle M5 Forecasting:传统预测方法与机器学习预测方法对比(三)

Deephub

183 0 0

Kaggle M5 Forecasting:传统预测方法与机器学习预测方法对比(三)

Deephub

|

机器学习/深度学习 vr&ar

Kaggle M5 Forecasting:传统预测方法与机器学习预测方法对比(二)

Kaggle M5 Forecasting:传统预测方法与机器学习预测方法对比(二)

Deephub

180 0 0

Kaggle M5 Forecasting:传统预测方法与机器学习预测方法对比(二)

Deephub

|

机器学习/深度学习存储

Kaggle M5 Forecasting:传统预测方法与机器学习预测方法对比（一）

Kaggle M5 Forecasting:传统预测方法与机器学习预测方法对比（一）

Deephub

302 0 0

Kaggle M5 Forecasting:传统预测方法与机器学习预测方法对比（一）

Deephub

|

机器学习/深度学习数据可视化安全

机器学习实战：意大利Covid-19病毒感染数学模型及预测

机器学习实战：意大利Covid-19病毒感染数学模型及预测

Deephub

186 0 0

机器学习实战：意大利Covid-19病毒感染数学模型及预测

阿旭算法与机器学习

|

机器学习/深度学习

【阿旭机器学习实战】【13】决策树分类模型实战：泰坦尼克号生存预测

【阿旭机器学习实战】【13】决策树分类模型实战：泰坦尼克号生存预测

阿旭算法与机器学习

205 0 0

【阿旭机器学习实战】【13】决策树分类模型实战：泰坦尼克号生存预测

阿旭算法与机器学习

|

机器学习/深度学习

【阿旭机器学习实战】【14】决策树回归模型实战：对美国波士顿房价进行分析预测

【阿旭机器学习实战】【14】决策树回归模型实战：对美国波士顿房价进行分析预测

阿旭算法与机器学习

250 0 0

热门文章

最新文章

[机器学习] 1、《机器学习系统设计》学后总结

【教程】5分钟在PAI算法市场发布自定义算法

斯坦福机器学习公开课学习笔记(3)—拟合问题以及局部权重回归、逻辑回归

【翻译】Sklearn 与 TensorFlow 机器学习实用指南 —— 第11章训练深层神经网络（中）

机器学习验证全新脑图谱，脑科学及AI超凡一步

R语言数据挖掘1.8.2　统计学与机器学习

09 机器学习调参

我们如何利用AI和机器学习将游戏引入现实生活？

程序员如何开启机器学习之路？我也遇到过这个问题

使用SAP Cloud Platform Leonardo机器学习提取图片的特征向量

深度学习500问——Chapter02：机器学习基础（5）

深度学习500问——Chapter02：机器学习基础（2）

深度学习500问——Chapter02：机器学习基础（1）

【机器学习】样本、特征、标签：构建智能模型的三大基石

【机器学习】包裹式特征选择之基于模型的特征选择法

利用机器学习优化数据中心的能源效率

利用机器学习优化数据中心的能源效率

构建高效机器学习模型的策略与实践

利用机器学习算法改善电商推荐系统的效率

构建高效机器学习模型的策略与实践

相关课程

更多

场景实践 - 基于机器学习进行收入预测分析

场景实践 - 基于阿里云PAI机器学习平台使用时间序列分解模型预测商品销量

高校精品课-复旦大学-机器学习与深度学习

机器学习概览及常见算法

场景实践 - 机器学习PAI实现精细化营销

PAI平台学习路线：机器学习入门到应用

相关电子书

更多

基于Spark的面向十亿级别特征的大规模机器学习

基于Spark的大规模机器学习在微博的应用

弱监督机器学习研究新进展

相关实验场景

更多

如何快速体验通义大模型

如何快速训练大模型

使用函数计算部署通义千问大模型实现AI对话

使用PAI-DSW x EasyPhoto快速完成AIGC人物写真生成

基于阿里云DeepGPU实例，用AI画唯美国风少女

使用计算巢AI应用，轻松定制个人数字形象

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）