计量地理学 论文

发布时间:2012-11-25 20:44:23

如何有效利用主成分分析进行综合评价

学生姓名: 指导老师:

摘要 由于主成分分析在多元统计分析中的降维作用,使之在社会、经济、医疗、生化等各领域运用越来越广泛,但由于传统主成分分析方法的局限性导致了一些问题的产生。这些问题吸引了许多领域专家的关注,并具有针对性的提出了一些不同的改进方法。本文介绍了主成分分析的基本和性质,并整理了近年来主成分分析在综合评价应用中遇到的普遍问题并整理验证了认同率较强的一些改进方法,以供大家研究学习。

关键词 主成分分析,综合评价,均值化

1引言

1.1研究的背景和意义

随着生产力的不断进步,生产方式由外延式扩张转化为追求经济效益的内涵式发展,以致在生产过程中必须考虑经济效益的各个方面,如生产力水平、技术进步、资源占用等情况,并需要就综合各方面的因素进行综合评价。

评价是根据确定的目的来测定对象系统的属性,并将这种属性变为客观定量的计值或者主观效用行为,整个过程离不开评价者的参与,而综合评价作为评价的一种也需要评价者做出相应反应或指示,而很多综合评价过程易受到评价者的干预,使评价结果产生偏差。

主成分分析能将高维空间的问题转化到低维空间去处理9,使问题变得比较简单、直观,而且这些较少的综合指标之间互不相关,又能提供原有指标的绝大部分信息。而且,伴随主成分分析的过程,将会自动生成各主成分的权重,这就在很大程度上抵制了在评价过程中人为因素的干扰,因此以主成分为基础的综合评价理论能够较好地保证评价结果的客观性,如实地反映实际问题。主成分综合评价提供了科学而客观的评价方法,完善了综合评价理论体系,为管理和决策提供了客观依据,能在很大程度上减少了上述不良现象的产生。

所以在社会经济、管理、自然科学等众多领域的多指标体系中,如节约型社会指标体系、生态环境可持续型指标体系、和谐社会指标体系、投资环境指标体系等,主成分分析法常被应用于综合评价与监控6

综上所述,对综合评价指标体系理论进行研究,既有理论上的必要性,更有实践中的迫切性。

1.2研究的发展史

基于主成分分析的综合评价以主成分分析为理论基础,以综合评价为主线,着眼于作出合理公正的综合评价。以下从综合评价和主成分分析两个方面来讨论主成分综合评价的发展史。

1.2.1综合评价的发展史

综合评价是伴随着人类文明的产生、发展而产生、发展的。其基本思想是将反映研究对象数量特征的多个指标转化为一个综合指标,并据以对各个具体评价对象进行排序比较,从而做出好坏优劣的评价结论。

1888年,艾奇沃斯(Edgeworth)发表了论文《考试中的统计学》,提出了对考生中的不同部分应如何加权。1913年,斯皮而曼(sPe~an)发表了《和与差的相关性》一文,讨论了不同加权的作用。在20世纪30年代,瑟斯通(Thurstone)和利克特(Likert)又对定性记分方法的工作给予了新的推动。20世纪60年代,美国学者查德(L·A·zadaen)模糊集合理论,为模糊综合评价法奠定了基础。20世纪7080年代,是现代科学评价蓬勃兴起的年代。在此期间,产生了多种应用广泛的评价方法,诸如ELECTRE(197119771983)、多维偏好分析的线性规划法(LINMAP1973)、层次分析法(AHP1977)、数据包络分析法(DEA1978)、逼近于理想解的排序法(TOPSIS1981)7

1.2.2主成分分析的发展史

主成分分析,首先是由英国的皮尔生(KarPearson)对非随机变量引入的,而后美国的数理统计学家赫特林(Harold.Hotelling)1933年将此方法推广到随机向量的情形团8。主成分分析的降维思想从一开始就很好地为综合评价提供了有力的理论和技术支持。

20世纪80~90年代,是现代科学评价在我国向纵深发展的年代,人们对包括主成分综合评价在内的评价理论、方法和应用开展了多方面的、卓有成效的研究,主要表现为:常规评价方法在国民经济、生产控制和社会生活中的广泛应用;多种评价方法的组合研究,综合应用及比较;新评价方法的研究和应用;评价方法的深入研究,如:评价属性集的设计、标准化变换、评价模型选择等等。

1.3主成分做综合评价的研究现状

目前国内外关于综合评价的方法很多,在根据各指标间相关关系或各指标值的变异程度来确定权重系数的方法中,主成分分析法是应用尤为广泛。在使用该方法的早期,大多都是按照传统的主成分分析法做综合评价的步骤来计算综合得分来对样品排序,即利用主成分F1F2,…,Fm做线性组合,并以每个主成分Fi的方差贡献率αi作为权重系数来构造一个综合评价函数:

Y =α1F12F2 +m F m

然而,随着传统主成分分析方法在综合评价中的进一步应用,人们发现此方法时经不起实践检验的。在实际应用中,经常发现运用此方法所得结果的解释往往与实际情况不符。举了一个简单的例子,假定高考中考试科目有四门:数学(x1)、语文(x2)、外语(x3)和物理(x4),满分都是相同的150分。考生的四门考试成绩必须综合成一个综合评价函数,一般取为总分。但从统计学的角度来看,可能取为更为合理,这里xi*xi的标准化数值(x1* x2* x3* x4*有相同的均值和标准差)。如果我们使用传统的主成分分析法,根据上述综合评价函数F的得分来对学生进行排名,那就酿成大错了。

就此,一些学者提出了一些改进的方法,其中具有代表性的方法有:Yan(1998)提出,当第一主成分的方差比较大时,即贡献率较大时,用它做综合评价指标。如果觉得用一个主成分解释的方差不够大时,综合反映X1 X 2 ,…,Xp信息的能力不够,而用多个主成分构造综合评价函数又不合适时,可以像因子分析那样对主成分进行旋转。Hou(2006)也提出,当用第一主成分进行综合评价达不到理想结果时,可用分组主成分评价法。即先用因子分析法将p个变量分成k组,然后分别对各组变量进行主成分分析,只取每组的一主成分,求出各组第一主成分的得分Cj(j=1,2,,k)以因子旋转后各因子的放差贡献率为权重建立综合评价函数:。最后根据各评价样本综合得分y来对样品进行排序。但其可行性也受到了一些学者的质疑4。由此可见,主成分综合评价法是一片有待进一步深耕细作的热土。

2关于主成分分析基本知识

2.1主成分分析

设要进行主成分分析的原指标有p个,记作x 1 x2 ,…,x p 。现有n个样品,相应的观测值为x ik i =1,2,,n,k =1,2,…,p

作标准化变换后,将Xk变换为Xk*,即

k =1,2,…,m.

式中,Sk分别是xk的均值及标准差,x k*的均值为0、标准差为1.

主成分分析的原理是:

根据各样品原指标的观测值x ik或标准化变换后的观测值x ik*求出系数

a ik (k=1,2,,p,j=1,2,,mm

建立用标准化变换后的指标x k*表示综合指标Fj的方程,也可建立用原指标Xk表示综合指标Fj的方程

对系数a ik由下列原则决定:

(1)各个综合指标Fj彼此独立或不相关;

(2)各个综合指标Fj所反映的各个样品的总信息等于原来p个指标Xk*所反映的各个样品的总信息,pFj的方差λj之和等于pXk*的方差之和,也就是

且λ1≥λ2 ≥λP

称上述彼此独立或不相关又不损失或损失很少原有信息的各个综合指标。yj为原指标

的主成分.其中,第一综合指标F1的方差最大,吸收原来p个指标的总信息最多,称第一主成分;第二综合指标F2的方差次之,吸收原来p个指标的总信息次之,称为第二主成分;同理,F3 F 4Fp分别称为第三主成分、第四主成分……第p主成分。9

2.2 主成分分析能否旋转

2.2.1 主成分分析与因子分析的联系与区别

相当数量的应用文章对主成分分析与因子分析不加严格区分,因而对分析结果的解释非常模糊。文献【1】认为主成分分析与因子分析两者之间有联系,但也存在着明显的区别。

从联系上看,主成分分析和因子分析都是将多个相关变量(指标)转化为少数几个不相关变量的一种多元统计分析方法。其目的是使在高维空间中研究样本分布规律的问题,通过降维得到简化,并尽量保留原变量的信息量。两者都有消除相关、降维的功能。

主成分分析是通过变量变换把注意力集中到具有最大变差的那些主成分上,而视变量不大的主成分为常数予以舍弃;因子分析是通过因子模型把注意力集中到少数不可观测的公共因子上,而舍弃特殊因子。主成分个数与公共因子个数的选择准则通常是相同的。

主成分分析中主成分向量Y与原指标向量X的表达式为,式中;而因子分析中的因子模型为,其中ε为特殊因子,,时,可采用主成分分析法估计A阵,则

对主成分分析中的主成分与因子分析中的公共因子的含义均需进行明确解释,否则,会遇到应用上的困难。

虽然主成分分析法与因子分析法有着密切的联系,但从应用上更需关注的是它们之间的区别。

1、 主成分分析的实质是P维空间的坐标旋转,并不改变样本数据结构,不能作为模型来描述;因子分析的实质是P维空间到M维空间的一种映射,需构造模型。

2、 主成分的个数与原变量个数相等,而公因子的个数小于原变量的个数。

3、 主成分分析是把主成分表示为原变量的线性组合,因子分析是把原变量表示为公共因子和特殊因子的线性组合。

4、 主成分分析由可观测的变量X直接求的主成分Y,并可逆;因子分析只能通过可观测的原变量去估计不可观测的公共因子F,不能用X表示F

5、 主成分分析中的L阵是唯一的正交阵;因子分析中的A阵不唯一,也不一定是正交阵。

6、 主成分分析主要应用在综合评价和指标筛选上;因子分析除这两个作用以外,还可以应用于对样本或变量的分类。

2.2.2 能否对主成分实施旋转

对于主成分能否进行旋转这一问题,很多研究学者认为,当主成分不能很好解释综合评价结果时,可以像因子分析那样进行正交旋转,从而使主成分得到更好的解释。

关于主成分能否旋转的问题,文献【1】【4】【5】【7】【8】均做了论证,发现这种方法是不可行的。

论证具体如下:

主成分分析的实质是对原始指标变量进行线性变换,即F =XA,其中

显然A为正交矩阵,如果对主成分进行旋转,则有:

其中L是正交矩阵。由于X矩阵不变,其相关矩阵R对应的特征根和单位特征向量也不变,即说明矩阵A具有唯一性。由上式知:如果主成分能旋转则说明矩阵A不是唯一的。

从而我们可以得出:主成分不能进行旋转。

3 主成分分析做综合评价的局限性与改进方法

3.1传统主成分分析做综合评价的一般步骤

(1)将原始数据标准化。将各样品指标值x i式转化成标准化指标Xi*,其中,E(Xi)D(Xi)分别是Xi的均值和方差。Xi的均值是0,方差是1.

(2)求各标准化指标Xi*的两两相关系数rij,并写出相关系数矩阵

其中, (i,j=1,2,,p)

(3)求相关矩阵的特征根λi*(i=1,2,…,p),将其由大到小排序。λ1*≥λ2* ≥λP*0,称为第i个主成分Fi的贡献率;为前m个主成分F1 ,F2,…,Fm的累计贡献率。

由累积方差贡献率确定主成分的个数m(mp),求出λi* (i=1,2,…,m)对应的贡献率、累计贡献率。

(4)求各个主成分Fi与标准化指标Xi*对应的系数关系。

(5)求各例样品在m个主成分的得分y1 ,y2,…,y.m

(6)求各样品综合得分y,并排列名次。

3.2 主成分分析的局限性

3.2.1第一主成分未必能用于综合评价

文献【8】通过论证指出,主成分贡献率的大小反映的是该主成分包含原始数据的信息量的大小,这种信息不一定指的是综合水平,也有可能指的是变量间的差异性。对于有些情况做综合评价,如一个班同学的综合排名,用于综合评价的需是水平因子,但只考虑第一主成分的话,得到的会是一个形状因子,所以在这种情况下,第一主成分贡献率再高,用于综合评价也是不合理的。

3.2.2 主成分分析标准化的不足

文献【2】【3】【7】等文献指出,原始数据保含两部分信息:一部分是个指标变异程度的差异信息;另一部分是个指标间相互影响程度上的相关信息。但在主成分分析过程中,为了消除指标纲量和数量级的影响往往对原始数据进行标准化:

i =12,… nj =1,2,,p

其中j=12,…,p

由此可以看出标准化使各指标的方差全为1,在消除量纲和数量级影响的同时,也消除了各指标变异程度上的差异信息。而从标准化后的数据提取的主成分,即从相关系数矩阵来计算主成分,实际上只包含了各指标间相互影响这一个方面的信息,所以不能准确反映原始数据所包含的全部信息。

3.2.3 “线性”相关度的不足

文献【3】指出,主成分分析只是一种“线性”降维技术,之梦处理线性问题:一方面主成分是原始指标的线性组合,另一方面对原始数据进行标准化处理,是协方差矩阵变成相关系数矩阵,而相关系数矩阵矩阵只能反映指标间的“线性”相关程度。

研究实际问题时,不仅指标见有非线性关系,有时主成分与原始数据之间也呈非线性关系,如果简单地进行先行处理,必然导致评价结果的偏差。

3.3关于主成分分析做综合评价的改进

3.3.1 可用于综合评价的主成分的条件

在用主成分分析做综合评价的改进时,对选择第一主成分还是多个主成分现在任有一定的分歧,就此问题许多学者都做了研究探讨1】【7】【8,过程如下:

当(Xi1Xi2 ,…,Xip>( Xk1 ,Xk2 ,…,Xkp)时,称第i个样本点优于第k个样本点;

当(Xi1Xi2 ,…,Xip)≥( Xk1 ,Xk2 ,…,Xkp)时,称第i个样本点不劣于第k个样本点;若(Xi1Xi2 ,…,Xip)≥( Xk1 ,Xk2 ,…,Xkp)( Xk1 ,Xk2 ,…,Xkp)≥(Xi1Xi2 ,…,Xip)同时成立,称第i个样本点无异于第k个样本点。

定义 若综合评价得分y是有序的,当且仅当

yi yk(其中yi是第i个样本点的综合得分 i =1,2,,n)时,有(Xi1Xi2 ,…,Xip)≥( Xk1 ,Xk2 ,…,Xkp),否则称y是无序的。

y改写成一般形式如下:

上式中tj可取-1,100表示不选择第j个主成分),由上式得:综合评价得分y对应于指标Xi的权数为。由于各指标是正向指标,我们可以得到如下定理。

定理 综合评价得分y是有序的,当且仅当0i=1,2,,p

由上述推导可知,要想第一主成分能有效用于做综合评价,则按第一主成分做综合评价的得分值y必须是有序的,当且仅当aij0j=1,2,,p。即第一主成分的系数均为正值时,第一主成分做综合评价的取值y才是有序的,此时才可以用第一主成分做综合评价,否则不行。

类似地,还可以令ti =1,其它为0的情况,可得到第i主成分有序的充要条件是aij0j=1,2,,p

3.3.2均值法的应用

由于传统主成分分析无量纲化,即标准化处理会导致原始信息的丢失,许多学者就此思考了改进方法,并大多注意到了协方差举证能够完整的反映原始数据的信息;协方差矩阵的主对角线上的元素恰好为个指标的方差,而非主对角线上的元素则包含了各指标间的相关系数的信息。所以对数据的均值化处理1-8是大家普遍认同的一个对主成分分析较好的改进方法。

方法如下:

设有n个被评价的对象,及p个指标,原始数据为,各指标的均值为xi

均值化就是用各指标的原始数据除以相应的均值,即,i =1,2,,nj =1,2,,p

其中j =1,2,,p,得到均值化数据矩阵

Y =Y1 Y 2,…,Yp)的协方差矩阵为U =(uij )p ×p,因为Y中每个向量的均值为1,所以有:

其中sij为原始数据的协方差,i ,j =1,2,L,p.特别地,即均值化数据的协方差矩阵主对角线元素为各指标见变异系数的平方。

设均值化数据各指标的相关系数为,则

其中为原始指标间的相关系数,由上可以得到:均值化不改变各指标间的相关系数,

相关系数矩阵的所有信息都在相应的协方差矩阵中得到了反映。

3.3.3 对原始数据的非线性化

根据主成分分析中“线性”相关度的缺点,文献【2】【3】提出了非线性主成分分析方法的一种——对数中心化,其基本方法是:

1、 对原始数据作中心对数化变换:

2、计算对数中心化的样本协方差矩阵

3、从S出发求主成分

设λ1≥λ2≥… ≥λPSP个特征根,a1,a2 , ,aP是相应的标准化特征向量,则第i个非线性主成分为

从上述分析可知,非线性主成分分析与传统主成分分析相比有两处改进:一是通过对原始数据作对数中心化变换,将主成分表示为原始数据的非线性组合;二是分析的出发点是协方差矩阵,不再是相关系数矩阵。通过这两处的的改进,会明显提高降维效果,用更少的主成分更多的反映原始指标的信息。

4 实例分析

本文采用SPSS15.0为数据分析工具,以某高校学生在校期间的各科学习成绩为样本,运用改进的合理选取主成分的方法对每位学生的三项指标的原始数据进行分析比较。样本如表1所示:

1学生成绩

学生

高数成绩

外语成绩

专业课成绩

1

80

111

103

2

76

78

104

学生

高数成绩

外语成绩

专业课成绩

3

62

140

78

4

110

120

98

5

102

111

67

6

115

84

89

7

67

89

102

8

87

98

110

9

89

95

99

10

91

139

109

11

150

100

117

12

140

125

83

13

123

78

75

14

104

97

109

15

105

90

127

16

74

19

96

17

65

86

79

18

89

80

96

19

91

77

106

20

100

102

110

首先对原始数据进行均值化处理,再用优化指标的协方差矩阵代替相关系数矩阵进行分析,计算结果如表2

2:数据计算表

原始主成分分析

均值化主成分分析

改进主成分分析

特征值

方差贡献率

累计贡献率

特征值

方差贡献率

累计贡献率

特征值

方差贡献率

累计贡献率

1

1.8772

0.3754

0.03754

0.0655

0.4114

0.4114

0.0558

0.3878

0.3878

2

1.2103

0.2421

0.6175

0.0444

0.2789

0.6903

0.0366

0.2543

0.6421

3

0.0986

0.1973

0.8248

0.0068

0.0427

1.0000

0.0079

0.0429

0.8534

结论:

1、从计算结果可以看出,均值化处理可以使第一主成分包含的信息比传统的方法第一主成分承载的信息高,咳哟个较少的主成分提取更多的原始信息。

2、非线性化处理后,计算得出的累计贡献率更有突破,达到了主成分分析简化指标维数的主要目的。

5 结语

针对主成分分析在综合评价中的广泛应用中遇到的计算结论常与事实有所矛盾的问题,结合现行各类文献资料,整理归纳了主成分分析的传统方法在综合评价中的不足、不合理之处整理出了部分实验结果较好的改进方法,同时得出,在运用主成分分析进行综合评价时,应当根据原始数据情况做出及时合理的调整,采用适当的主成分或改进主成分传统分析中的不足之处,借此时主成分分析在综合评价应用中功能得到更大、更合理的发挥。

参考文献:

[1] 白雪梅,赵松山 对主成分分析综合评价方法若干问题的探讨 统计研究1995 第六期

[2] 高艳,于飞 一种用于综合评价的主成分分析改进方法 西安文理学院学报(自然科学版) 20111月第14卷第1 文章编号:1008 5564(2011)01 0105 04

[3] 叶双峰 关于主成分分析做综合评价的改进 数据统计与管理 2001220 文章编号:1002-1566(2001)02-0052-04 

[4] 林海明 对主成分分析法运用中十个问题的解析 理论新探

文章编号:1002-6487(2007)08-0016-03.

[5] 张鹏 基于主成分分析的综合评价研究 南京理工大学硕士论文 20046

[6] 庞智强 主成分分析能客观赋权吗?统计新论 总第79

[7] 余登榜 改进的主成分分析在我国高校数学学科排名中的应用 武汉科技大学 硕士学位论文 201012

[8] 洪素珍 如何有效利用主成分 华中师范大学硕士论文 20085

[9] 张文霖 主成分分析在SPSS中的操作应用 市场研究 理论与方法200512

[10] 张超 陈秉赓 计量地理学基础 第二版 高等教育出版社1991

          

计量地理学 论文

相关推荐