搜狐首页 体育 炮灰攻略

手机搜狐

SOHU.COM

AI已经说了:今年世界杯冠军是西班牙

近年来人工智能技术发展迅猛,在统治了图像识别、语音分析、自动驾驶等热门领域之后,也开始挑战世界杯比赛结果预测这门行当了。

在2018年世界杯开幕之际,全球多家权威机构都发布了他们的预测结果。一个很大的亮点是,有不少机构都采用了机器学习的途径来进行预测。

然而更有趣之处在于:不同机构的预测结果竟然完全不同……

1)德国人:西班牙是冠军

具体来说,按照今年抽签的分组结果,从小组赛的阶段开始预测,在所有的三十二支球队中,西班牙最终夺得冠军的胜算最大,约为 17.8%,高于德国的 17.1% 和巴西的 12.3%,如下图。

做出这个预测的是德国多特蒙德工业大学统计学系的助理教授,Anreas Groll 所带领的团队。他们是怎么算出这个结果的呢?

其实他们采用的是一种近几年来在机器学习领域开始受欢迎的统计方法:随机决策森林 (random decision forests),简称随机森林。

Groll 教授介绍,随机森林是一种融合了统计学和机器学习的方法。它常被人拿来和决策树,另一种更为人所熟知的统计方法比较。

至于随机森林,名字已经很直白了:简单来说,随机森林就是一座由很多决策树所聚集而成的森林,然后用所有决策树的结果进行投票,得出一个多数的、近似于平均的结果。

要构建这个森林,首先 Groll 教授团队需要训练决策树,修剪好“枝杈”,不让没用的枝杈影响树的生长。这些枝杈就是参数,大量的经济、体育、地缘参数,比如国家人均 GDP、国际足联排名、国家来自哪个大洲、博彩公司给出的赔率,甚至精细到球员人数、平均年龄、顶级联赛球员比例和教练的工龄等等……

在不断训练的过程中,没用的参数就被排除出去了,就像被剪掉的枝杈。这个过程培育出了一座有很多树,每棵树都不是太枝繁叶茂的森林。团队认为,这样得到的结果应该是比较准确的。最后,这个森林根据模拟出每场比赛的进球数来判定球队输赢。

采用随机森林的方法,还有另外一个效果,那就是在不同阶段,根据不同的结果重新预测和修改结果。前面提到,“西班牙是冠军”的预测是在小组赛还未开始阶段得到的。团队进行了十万次模拟,发现如果德国队和西班牙队都能突围四分之一决赛,之后的预测显示双方胜率基本相等了。

2)高盛:西班牙阿根廷低迷,巴西将夺冠雪耻

世界顶尖的投行高盛 (Goldman Sachs) 的经济学家其实很无聊,所以他们每届世界杯都会出来发布一份《世界杯和经济报告》,顺便预测一下今年夺冠形势。

精选