科学家们用来预测本届世界杯比赛结果的方法叫 “随机森林方法”(Random Forest approach)。】
就像树从主干到最末端的小树枝一遍一遍地一分二一样,如果说最终的比赛结果是树最顶端的一颗小树枝,那么树木的每次分叉就对应着一个关键节点(比赛谁输谁赢),而通过参考一组训练数据,机器学习能估计每个分支的潜在发生概率,以 “预测” 出本届世界杯最终获胜的球队。
大多数 “决策树” 在后期都会因为不可靠因素过多而影响决策模拟结果的准确性,这些决策由于不一致和分散的训练数据(training data)而失真,这种现象叫做 “过度拟合”(overfitting)。
而 “随机森林方法” 则通过多次计算随机分支的结果来尽量让结果准确。
“随机森林方法” 取多次随机决策树的平均值,以此绕过 “过度拟合”。
在这个研究 “到底谁能获胜” 的模型里,有些考量的因素是我们能想到的,比如该球队在国际足联排名、球员平均年龄、球队里有多少名球员在冠军联赛踢球等因素。
除了这些明显对预测结果有帮助的因素,这个模型还包含了一些看似无关紧要的因素,比如国家人口、国内生产总值、甚至包括执教教练的国籍。
该团队模拟了足足 10 万次足球比赛,并根据 2002 年到 2014 年之前所有比赛的成绩(数据可以说是很充分了),使用了三种不同的建模方法。
用这种方式预测出来的本届世界杯冠军是...
西班牙!
根据预测结果,西班牙夺冠的概率是 17.8%。如果说这个概率还不是很 “自信” 的话,这个预测说西班牙能冲进四强的概率则高出不少,足足有 73%!可以说是相当有信心了。
而这个研究对卫冕冠军德国队的预测是:
“能不能闯出小组赛难说,但如果小组赛没被淘汰,德国队进四强的几率高达 58%。”
这让小探想起一周前墨西哥 1-0 击败德国时,不论中外媒体几乎都用了 “爆冷” 这个词,这个结果倒是在一定程度上证明了这项研究有一定的准确性。
好在今天凌晨在德国队 - 瑞典的比赛中,德国战车终于发威 2-1 击败瑞典!这才是德国战车的精神!!!德国球迷的心情终于也阴转晴。
输给墨西哥的德国:
赢了瑞典:
不过按照这种方法计算,中国男足来自一个人口众多的国家(加分)、中国 GDP 也全球第二(加分),但连世界杯的门儿都摸不到... 难道这种模型不适用于中国男足?
当然,或许是中国男足的世界排名太低了,拉了这项预测的后腿。中国男足全球排名低到什么程度了呢?这么说吧,下次你再抱怨网速太慢的时候请牢牢记住,我们的网速世界排名都比国足要高。
话说回来,如果机器学习的预测方法在此次世界杯上被证明很准确的话,恐怕会对赌球行业产生重大影响。数据君奉劝大家一句:享受比赛、爱惜钱包、谨慎赌球。
留言与评论(共有 0 条评论) |