南非世界杯数据分析

发布时间:2011-07-18 00:15:02

我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.

我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。

我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。

我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。

我们参赛选择的题号是(从A/B/C/D中选择一项填写):

我们的参赛报名号为(如果赛区设置报名号的话):

所属学校(请填写完整的全名):

参赛队员 (打印并签名) 1. T843-1 于友明

2. T843-2 季东

3. T843-3 孙银健

指导教师指导教师组负责人 (打印并签名)

日期:

赛区评阅编号(由赛区组委会评阅前进行编号):

南非世界杯数据分析

摘要:本文针对2010年南非世界杯本所有场次比赛的结果,收集相关数据并进行合理的分析和建模,对决定球队胜负关系最重要的技术因素,各大洲的球队在本次世界杯上表现出的实力进行了研究,并指出亚洲球队在哪些方面急需改进。

针对问题一,我们对数据进行了适当的处理,利用sas软件求出单场射门数,单场射正数,单场角球数,单场犯规数,传球成功率,单场抢断数,抢断成功率,单场越位数,单场黄牌,单场红牌,控球率与平均单场积分的相关系数。然后排名找出对球队比赛结果的影响力最大的一个技术统计指标

针对问题二,我们建立了6个技术统计指标的隶属函数,确定各个指标的权重,由此建立一个运气成分评价标准模型,算出各个场次的综合隶属度比值,即可客观的找出有些运气成分比较大场次

针对问题三,我们根据问题二所得到的各个场次每个球队的综合隶属度,统计出每支球队在本次世界杯期间所有场次的综合隶属度和我们按照以下优先级别原则进行降序排序:(1综合隶属度和2场均综合隶属度和

得到各队的综合排名。

针对问题四,我们统计了各大洲(欧洲,美洲,非洲,亚洲,大洋洲)每个球队各项技术指标,并就每项指标对该洲每个队取平均值见附件。通过excel绘图得出各大洲的球队在本次世界杯上表现出的实力一致以及亚洲球队在哪些方面急需改进。我们用MATLAB对各大洲的表现实力进行方差分析,经检验得出各大洲在本次世界杯上所表现的实力没有显著差异。

针对问题五,我们根据DyteClarke提出的进球符合泊松分布的理论推得进球的概率分布情况,然后利用计算机产生随机数模拟比赛情况。

针对问题六,我们规定球队赢一场给三个积分,平一场给一个积分,负一场不给积分算出球队的总积分A,记官网给的网友对每位球员打分的平均分为B,定义球员综合分数为Y=0.5A+0.5B。根据综合分数排名选出入选最佳阵容的球员。

关键词:相关系数 隶属度 方差分析 泊松分布 蒙特卡洛模拟

一、 问题重述

2010年南非世界杯已然落下帷幕,参赛的32支球队可以说是“几家欢喜几家愁”西班牙成了新科状元,荷兰继续着无冕之王,阿根廷让人大失所望,乌拉圭最后虽败犹荣。这一切的成败,除了在有些场次的比赛中存在着一定的运气成分之外,更多的是由球员们在场上的表现来决定的。按照惯例,国际足联和一些官方机构在赛后往往会通过一些门户网站向外公布所有场次的胜负关系及技术统计,如进球数,射门数、传球数、抢断数等。请就本次世界杯所有场次比赛的结果,收集这些数据并进行合理的分析和建模,完成下面问题:

1.你认为决定球队胜负关系最重要的技术因素有哪些?

2.你认为是否有些场次胜负关系的运气成分比较大?如果有,请指出

3.根据32支球队在比赛中的综合表现,给出你认为比较合理的最终排名。

4.你认为来自各大洲的球队在本次世界杯上表现出的实力是否一致?如不一致,你认为亚洲球队在哪些方面急需改进?

5.从小组赛开始,根据各球队历史战绩(可部分参考附件1),请你来模拟一遍世界杯的进程,看看谁将会是最后的冠军。

6.附件2是国际足联给出的本次世界杯数据最佳阵容,保持阵型不变,如果让你根据八强参赛球员的表现来进行评选,你所评出的最佳阵容与前者是否一致?

二、 符号说明

Xi i支球队的平均单场积分(i=1,2.32 分别表示32球队)

Yij i支球队的第j个技术统计指标场均数值(j=1,2,3,4,5,6,7,89,10,11 分别表示单场射门数,单场射正数,单场角球数,单场犯规数,传球成功率,单场抢断数,抢断成功率,单场越位数,单场黄牌,单场红牌和控球率

Ynij i支球队在第n场次比赛中第j个技术统计指标数值(n=1,264

Rj 平均单场积分(即胜负关系)与第j个技术因素的样本相关系数。

Tn b场次比赛的综合隶属度比值

i支球队所有场次的综合隶属度和

三、 模型假设

1.假设足球比赛中的进球数是泊松分布的;

2.假设每场球赛的进球数是一个独立的随机分布

3.假设各场次比赛均在公平公正的情况下进行的

四、 模型的建立与求解

4.1问题一的求解:

4.1.1队胜负关系最重要的技术因素

问题需要寻找决定球队胜负关系最重要的技术因素有哪些。首先,我们从一些门户网站(如:http://goal.2010worldcup.163.com/)得到所有场次的胜负关系及技术统计。我们对数据进行了筛选和处理,以便于数据分析。

4.1.2模型的数据准备

为了便于数据处理,我们用一支球队的平均单场积分反映一支球队的所有场次的胜负关系。一支球队的平均单场积分越高,它的赢球场数越多,从客观上可以很直观的用数字反映一支球队的所有场次的胜负关系。我们认为以下变量是决定球队胜负关系技术因素:单场射门数,单场射正数,单场角球数,单场犯规数,传球成功率,单场抢断数,抢断成功率,单场越位数,单场黄牌,单场红牌和控球率。以上均为一支球队的平均单场数据。由此我们统计了32支球队的平均单场积分和单场射门数,单场射正数,单场角球数,单场犯规数,传球成功率,单场抢断数,抢断成功率,单场越位数,单场黄牌,单场红牌,控球率(见附录1.1)。

4.1.3模型的分析与建立

我们把平均单场积分Xi作为因变量,11个技术因素Yij作为自变量。寻找决定球队胜负关系最重要的技术因素有哪些,需要判断YijXi的各自的影响。我们用相关系数RXYj)来表示XYj之间的相关关系的一个数字特征。

在相关系数RXYj)是未知的情况下,我们可以根据32支球队的技术统计计算XYj的样本相关系数作为相关系数RXYj)的估计值。XYj的样本相关系数的定义如下:

1

因为样本相关系数是相关系数RXYj)的估计值,所以当的绝对值越接近1时,变量YjX之间的线性相关关系越显著。当>0时,称YjX为正相关;当<0时,称YjX为负相关。

4.1.4 模型的求解及结果

利用SAS软件求出的值(程序见附录1.2),并进行排序,结果如下:

1 比赛技术统计数据与比赛结果相关系数一览表

由此可见,相同比赛技术统计指标在比赛中对球队比赛结果的影响力有所不同。统计结果显示:

1)参赛球队比赛13项技术统计指标中与比赛结果相关的技术指标分别依次为:射正球门次数,控球率,传球成功率,射门,角球,抢断成功率数共6项,其它各项技术统计指标对比赛结果影响并不大。

2)球队控球时间的长短对比赛结果有不同程度影响,在射门技术统计中,射门和射正门次数对比赛结果都有影响,但射正门次数对比赛结果影响更大,表明射门的效率更为重要。在定位球的统计中,只有角球技术统计指标与球队比赛结果有相关性。其它各项技术统计指标对比赛结果的影响均不显著。

3)射正球门次数技术统计指标对比赛结果影响力最大。

4.2问题二的求解

4.2.1问题分析

二需要确定哪些场次胜负关系的运气成分比较大。我们不能人为主观的判断某些场次胜负关系的运气成分的大小,所以我们利用模糊数学建立了一个运气成分评价标准。根据问题一得到的结论,我们知道射正球门次数,控球率,传球成功率,射门,角球,抢断成功率共6项技术统计指标对比赛结果影响显著,其它各项技术统计指标对比赛结果的影响均不显著。所以我们只考虑射正球门次数,控球率,传球成功率,射门,角球,单场抢断数共6项技术统计指标对比赛结果的影响。

4.2.2 模型分析与建立

在建立模型之前,我们需要对射门,射正球门次数,角球,控球率,传球成功率,抢断成功率共6项技术统计指标数据进行一定的处理。为便于后面数据处理,在一个场次比赛的两支球队,将赢的球队数据放在输的球队数据上面。根据评价标准建立各指标的隶属函数如下:

射门的隶属函数:

射正球门次数的隶属函数:

角球的隶属函数:

控球率的隶属函数:

传球成功率的隶属函数:

抢断成功率的隶属函数:

根据以上隶属函数,分别求出射门,射正球门次数,角球,控球率,传球成功率,抢断成功率的隶属度。从而得到各个场次每个球队关于射门,射正球门次数,角球,控球率,传球成功率,抢断成功率6项技术统计指标的隶属的综合评价矩阵:

(具体数据见附录2.1

根据问题一我们得到射门,射正球门次数,角球,控球率,传球成功率,抢断成功率对与比赛结果相关系数分别为0.346,0.6149,0.346,0.435,0.346,0.296。我们按照比例给射门,射正球门次数,角球,控球率,传球成功率,抢断成功率分别加权得到评价指标权重矩阵:

定义矩阵B为综合隶属度,计算公式为矩阵R乘以矩阵A

B=RA

具体数据见附录2.1

4.2.3模型的求解:

由以上数据,我们将一个场次比赛的两支球队的综合隶属度分别相除,得到64个场次比赛的综合隶属度比值(具体数据见附录2.1

我们规定,若,则本场比赛的结果在正常范围之内,若,则本场比赛结果的运气成分大一些。Tn的值越小,比赛结果的运气成分越大。

由附录2.1统计的结果,我们找出以下场次胜负关系的运气成分比较大:

2.2 隶属度统计情况

4.3问题三的求解
根据问题二所得到的各个场次每个球队的综合隶属度,我们统计出每支球队在本次世界杯期间所有场次的综合隶属度和

我们按照以下优先级别原则进行降序排序:

1综合隶属度和

2场均综合隶属度和

综合排名表

4.4问题四的求解

针对问题四,我们统计了各大洲(欧洲,美洲,非洲,亚洲,大洋洲)每个球队各项技术指标,并就每项指标对该洲每个队取平均值(见附录)

各洲球队平均技术指标

各洲平均技术指标比较图

各洲平均技术指标比较图

由表可知:各州在每项技术指标上都存在差异。

欧洲,南美洲,中北美洲在射门,射正,次数上多于其他各洲,其中南美洲在射门,射正,角球次数上都居首位。各洲表现的实力明显不一致。

我们用MATLAB对各大洲的表现实力方差分析,检验各大洲在本次世界杯上所表现的实力是否有显著差异(程序见附录4.1),结果如下:

其中图中的x轴上的1,2,3,4,5,6分别表示大洋洲非洲南美洲欧洲亚洲中北美洲及加勒比海

方差分析表如下:

P=0.0646>0.05,说明各大洲在本次世界杯上所表现的实力有一定差异,但这种差异不是很显著。

亚洲球队在射门,射正,角球,抢断次数上明显低于欧洲,美洲;并且亚洲失球次数明显高于其他各州,传球次数也低于欧洲,美洲,非洲。故亚洲应该在进攻技术如射门,射正,角球和防守技术如失球和传球方面加强训练。

4.5问题五的求解

查资料得到:2000年,DyteClarke提出用泊松分布描述足球进球概率的模型,并用国际比赛的数据对模型的参数进行了估计,获得了较好结果。

DyteClarke提出:

(1) 足球比赛中的进球数是泊松分布的;

(2) 1场球赛的进球数是一个独立的随机分布。

在排除球队间根据积分互相做球的前提下,提出如下公式:

其中::为球队i在对球队J比赛中的期望进球数;ab分别为待估参数;RiRj,分别为FIFA公布的两支球队的积分;v为主客场调正系数。易推得:

由于其是指数函数,RiRj对期望影响较大。因此我们将期望函数改为:

其中是参数,需求出,再根据FIFA提供的RiRj的值,就可以按如下公式计算队i对队j的进球概率分布:

,即为球队i对队j比赛中进k个球的概率。

在计算机仿真模拟时,产生一个0—1均匀分布的伪随机数U(0,1),若:,表示进0,1k个球的概率和)就取该场比赛中球队ij的进球数为k。同样得到j队得起数q,比较kq,就可以得到比赛该场比赛结果,若k=q,我们再给对阵双方一个伪随机数,谁的随机数大就定义谁赢

在处理期望进球数时有以下预定:

(1) 对于附录里给定的有历史战绩的球队,Ni表示第i场进球数,n表示给出的历史交战次数)。

(2) 对于附录里没有给历史战绩的球队,(由相关资料可知,α可取经验值1.2)。

(3) 在模拟决赛情况时,同样按(2)中约定,α取经验值1.2

(4) 每次比赛只模拟一次,因此比赛结果有一定随机性。

小组赛模拟时,利用MATLAB rand(48,1)产生480—1的随机数,然后将各随机数与相关比分概率比较并整理可得(具体数据“见附件第五问”)

小组赛模拟情况:

用与小组赛同样的方法模拟决赛(按照足联相关晋级规定),可得

决赛一览图:

4.6问题六的解决

题目要求我们根据八强赛球员的表现给出最佳阵容。我们根据官网给的网友打分对球员的排名选出排名靠前的八强队球员(对于守门员,我们从网友打分前十名中选出是八强队的球员;对于前锋,我们从网友打分前十五名中选出八强队员;对于中场和后卫,我们则从网友打分前二十名队中选出八强队员)。再根据足球队员所属队的总积分和网友打分选出入选最佳阵容的球员。

我们规定足球队员所属队的总积分按球队赢一场给三个积分,平一场给一个积分,负一场不给积分算出,记为A;记网友打分的平均分为B;定义球员的综合分数为Y

我们按A,B权重均为0.5得出综合分数Y=0.5A+0.5B

根据官网各球队的历史战绩,计算出各球队的总积分如下表1

1各球队总积分

按综合分数对各位置所选出的球员进行排名如下

2守门员的选择

3前锋的选择

4中场的选择

5后卫的选择

由排名选出各位置最佳球员为:

守门员:卡西利亚斯

前锋:托雷斯,比利亚

中场:法布雷加斯,阿隆索,德泽乌,施魏因斯泰格

后卫:皮克,普约尔,拉姆,扬森

五、模型优缺点

1.优点

(1)问题一用相关系数法将技术因素对胜负关系的影响程度量化

2)问题二建立模型求出各场次的综合隶属度比值,可较为客观的判断该场次胜负的运气成分。

3)巧妙的引用2000年,DyteClarke提出用泊松分布描述足球进球概率的模型,用计算机合理的模拟出一遍世界杯赛程。

2缺点

(1) 对赛程进行模拟时,只模拟一次,与实际赛程有差异。

(2) 问题六中考虑到了网上网友给球员的打分,网友的打分主观因素较多。

参考文献

[1] 汪晓银 周保平, 数学建模与数学实验, 科学出版社

[2] 金川江 第十八界世界杯足球比赛技术统计指标与比赛结果相关性研究 成都体育学院学报第二十三卷

[3] 汪定伟 基于泊松分布的南非世界杯的赛事仿真 系统仿真技术 20101月第六卷第一期

附录

附录1.1

附录4.1

x=[0.56 2.12 1.76 2.26

1.2 2.75 0.88 1.39

2.57 3.13 1.27 1.07

1.36 1.86 1.66 1.85

1.49 1.13 1.07 1.31

1.31 3.62 4.33 0.8

1.14 1.3 1.41 1.92

3.19 2.87 2.22 1.9

];

x=[x(1),x(2:7),x(8:12),x(13:25),x(26:29),x(30:32)];

g=[ones(1,1),2*ones(1,6),3*ones(1,5),4*ones(1,13),5*ones(1,4),6*ones(1,3)];

p=anova1(x,g)

附录2.1

南非世界杯数据分析

相关推荐