主成分分析计算方法和步骤:
在对某一事物或现象进行实证研究时,为了充分反映被研究对象个体之间的差异,
研究者往往要考虑增加测量指标,这样就会增加研究问题的负载程度。但由于
各指标都是对同一问题的反映,会造成信息的重叠,引起变量之间的共线性,因
此,在多指标的数据分析中,如何压缩指标个数、压缩后的指标能否充分反映
个体之间的差异,成为研究者关心的问题。而主成分分析法可以很好地解决这一
问题。
主成分分析的应用目的可以简单地归结为:数据的压缩、数据的解释。它常被
用来寻找和判断某种事物或现象的综合指标,并且对综合指标所包含的信息给
予适当的解释,从而更加深刻地揭示事物的内在规律.
主成分分析的基本步骤分为:①对原始指标进行标准化,以消除变量在数量极或
量纲上的影响;②根据标准化后的数据矩阵求出相关系数矩阵R;③求出R矩
阵的特征根和特征向量;④确定主成分,结合专业知识对各主成分所蕴含的
信息给予适当的解释;⑤合成主成分,得到综合评价值。
结合数据进行分析
本题分析的是全国各个省市高校绩效评价,利用全国2014年的相关统计数据(见
附录),从相关的指标数据我们无法直接评价我国各省市的高等教育绩效,而通
过表5—6的相关系数矩阵,可以看到许多的变量之间的相关性很高。如:招生
人数与教职工人数之间具有较强的相关性,教育投入经费和招生人数也具有较强
的相关性,教工人数与本科院校数之间的相关系数最高,到达了0。963,而各组成
成分之间的相关性都很高,这也充分说明了主成分分析的必要性。
表5—6相关系数矩阵
本科院校
数招生人数教育经费投入
相关性师生比0.2790.3290。252
重点高校数0。3450.2040。310
教工人数0。9630.9540.896
本科院校数1。0000.9380。881
招生人数0.9381.0000.893
教育经费投
入
0。8810.8931。000
师生比重点高校数教工人数
相关性师生比1。000-0.2180.208
重点高校数—0.2181.0000.433
教工人数0.2080.4331。000
本科院校数0。2790。3450.963
招生人数0.3290。2040.954
教育经费投
入(元)
0。2520。3100.896
表5—7给出的是各主成分的方差贡献率和累计贡献率,我们选取主成分的标准
有两个:第一,特征根大于1,因为,如果特征根小于1,说明该主成分的解释
力度太弱,还比不上直接引入一个原始变量的平均解释力度大;第二,方差贡献
率大于85%,如果这两个标准不能同时符合要求,则往往是因为选择的指标不合
理或者样本容量太小,应继续调整.表5—7还显示,只有前2个特征根大于1,
因此SPSS只提取了前两个主成分,而这两个主成分的方差贡献率达到了87。
081%,因此选取前两个主成分已经能够很好地描述我国高等教育地区现状。
表5-7方差贡献率以及累计贡献率
元
件
起始特征值提取平方和载入
合计
方差的贡
献率%
累加贡献
率%合计
方差的贡献
率%累加贡献率%
13。98366.39066.3903.98366。39066.390
2
1。24120.69187。081
1。
241
20。69187。081
30。5719.50896.589.5719。50896.589
40。1402.33598。925。1402。33598。925
50.0520。86999。794.0520。86999。794
60。0120。206100.000.0120.206100.000
表5—8为输出的主成分系数矩阵,可以说明各主成分在各变量上的载荷。由表
5-8
可以看出,标准化后的第一主成分(简称
1
F
)对所有变量都有载荷,且载荷绝
对值几乎都在0。7以上,因此可以说第一主成分是对人口结构的度量,代表了
一个地区人口结构状况,可以称之为“综合因子”。在综合因子中,平均每户人
口,农业与非农业人口比例,人口的自然增长率比重即人口自然增长各指标具
有较强的作用,人与经济等其他指标所起的作用次之,男女比例也起一定作
用。第二主成分(简称
2
F
)对重点高校数和教工人数具有负载荷,其他变
量具有正载荷,并且除师生比和重点高校数载荷绝对值均小于0.2,有的甚至接
近于0.1.因此,第二个主成分只是汇集了第一主成分遗漏的部分信息,我们称之
为“辅助因子”。
表5-8主成分矩阵
成分
1
F
2
F
师生比0。3170.799
重点高校数0.396—0.759
教工人数
0。984
—0。
095
本科院校数0.9730。005
招生人数0.9640。131
教育经费投
入
0.9390。011
表5-9主成分评分系数矩阵
成分
1
F
2
F
师生比.079。643
重点高校数.099—。612
教工人数。247-.077
本科院校数。244。004
招生人数.242.106
教育经费投
入
.236。009
根据表5-9可以得到各主成分的表达式
1123456
=0.0790.0990.2470.2440.2420.236Fxxxxxx
2123456
0.6430.6120.0770.0040.1060.009Fxxxxxx
把变量分别代入以上表达式,可以得出
1
F
和
2
F
两个主成分得分,但单独一个主
成分不能很好地评价十个地区人口结构的情况,因此需要按照各主成分对应的方
差贡献率为权数计算综合统计F,(12
0.66390.20691
0.87081
FF
F
)
主成分分析法的优点:
1、可消除评价指标之间的相关影响因为主成分分析在对原指标变量进行变
换后形成了彼此相互独立的主成分,而且实践证明指标之间相关程度越高,主
成分分析效果越好.2、可减少指标选择的工作量对于其它评价方法,由于难
以消除评价指标间的相关影响,所以选择指标时要花费不少精力,而主成分分
析由于可以消除这种相关影响,所以在指标选择上相对容易些.3、当评级指标
较多时还可以在保留绝大部分信息的情况下用少数几个综合指标代替原指标进
行分析主成分分析中各主成分是按方差大小依次排列顺序的,在分析问题
时,可以舍弃一部分主成分,只取前后方差较大的几个主成分来代表原变量,
从而减少了计算工作量。4、在综合评价函数中,各主成分的权数为其贡献
率,它反映了该主成分包含原始数据的信息量占全部信息量的比重,这样确定
权数是客观的、合理的,它克服了某些评价方法中认为确定权数的缺陷.5、这
种方法的计算比较规范,便于在计算机上实现,还可以利用专门的软件
主成分分析法的缺点:
1、在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到
一个较高的水平(即变量降维后的信息量须保持在一个较高水平上),其次对这
些被提取的主成分必须都能够给出符合实际背景和意义的解释(否则主成分将空
有信息量而无实际含义)。
2、主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、
确切,这是变量降维过程中不得不付出的代价。因此,提取的主成分个数m通
常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不
过主成分含义不如原始变量清楚的“弊”。
本文发布于:2022-11-13 00:51:39,感谢您对本站的认可!
本文链接:http://www.wtabcd.cn/fanwen/fan/88/7723.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |