主成分分析和因子分析1
SAS/STAT因子分析(Factor)过程
一、Factor过程语句
SAS/STAT(Factor)主要的语句如下:
PROCFactor
iablesBY
iableWEIGHT
iablesPARTIAL
iablePRIORS
iablesVAR
var
var
var
var
var
;
;
;
;
可选择的语句
用于PROCFACTOR语句的任选项:规定数据集(共4项)
1)DATA=SAS-data-t(SAS数据集)——给出输入数据集的名
2)OUT=SAS-data-t(SAS数据集)——创建一个数据集,它包括来自DATA=的数据集中的全
部数据,还包括被称为Factor1,Factor2等变量的因子得分估计。
3)OUTSTAT=SAS-data-t(SAS数据集)——规定一个包含大部分分析结果的输出数据
4)COV要求用协方差阵替代相关系数阵作因子分析。
5)NFACTORS=n规定被保留的因子个数。
6)ROTATE=name规定旋转方法。
ROTATE=E规定正交的均方最大旋转
ROTATE=no规定不旋转
ROTATE=v规定正交的方差最大旋转
7)ALL打印除图形之外的所有可选择的输出.
8)SCORE打印因子得分系数。
二、实例
国家发展的最终目标,是为了全面提高全体国民的生活质量,满足广大国民日益增长的物质和
文化的合理需求。在可持续发展消费的统一理念下,增加社会财富,创自更多的物质文明和精神文
明,保持人类的健康延续和生生不息,在人类与自然协同进化的基础上,维系人类与自然的平衡,
达到完整的代际公平和区际公平(即时间过程的最大合理性与空间分布的最大合理化)。
从1990年开始,联合国开发计划署(UYNP)首次采用“人文发展系数”指标对于国民生活质量
进行测度。人文发展系数利用三类内涵丰富的指标组合,即人的健康状况(使用出生时的人均预期寿
命表达)、人的智力程度(使用组合的教育成就表达)、人的福利水平(使用人均国民收入或人均GDP
表达),并且特别强调三类指标组合的整体表达内涵,去衡量一个国家或地区的社会发展总体状况以
及国民生活质量的总水平。
在这个指标体系中有如下的指标:
X
1
——预期寿命
X
2
——成人识字率
X
3
——综合入学率
X
4
——人均GDP(美圆)
X
5
——预期寿命指数
主成分分析和因子分析2
X
6
——教育成就指数
X
7
——人均GDP指数
dataa;inputdiqu$x1-x7;
cards;数据行省略;
procfactordata=arotate=enfactors=3scoreout=d;
procprintdata=d;run;
三、部分输出
RotatedFactorPattern
FACTOR1FACTOR2FACTOR3
X10.381290.417650.81714
X20.121660.848280.45981
X30.648030.618220.22398
X40.904100.205310.34100
X50.388540.432950.80848
X60.282070.853250.43289
X70.900910.206120.35052
Varianceexplainedbyeachfactor
FACTOR1FACTOR2FACTOR3
2.4397002.2763172.009490
FinalCommunalityEstimates:Total=6.725507
X1X2X3X4X5X6X7
0.9875300.9457960.8523060.9758300.9920500.9949950.976999
ScoringCoefficientsEstimatedbyRegression
StandardizedScoringCoefficients
FACTOR1FACTOR2FACTOR3
X1-0.18875-0.343970.85077
X2-0.241090.60335-0.10234
X30.354620.50232-0.59895
X40.53990-0.17336-0.10355
X5-0.17918-0.316040.81490
X6-0.092300.62258-0.24876
X70.53171-0.18187-0.08507
DIQUX1X2X3X4X5X6X7F1F2F3
beij71.0792.0581.631335.330.770.890.232.032851.31502-0.11002
人均要素因子分析报告。对我国32个省市自治区的要素状况作因子分析。指标体系中有如下指
标:
X1:人口(万人)X2:面积(万平方公里)
X3:GDP(亿元)X4:人均水资源(立方米/人)
X5:人均生物量(吨/人)X6:万人拥有的大学生数(人)
X7:万人拥有科学家、工程师数(人)
第一步:确定因子数。相关系数阵的特征值及其贡献率如下:
EigenvaluesoftheCorrelationMatrix:Total=7Average=1
1234567
Eigenvalue2.96042.23291.09290.54260.14820.01180.0112
主成分分析和因子分析3
Difference0.72751.14000.55030.39440.13640.0006.
Proportion0.42290.3190.15610.07750.02120.00170.0016
Cumulative0.42290.74190.89800.97550.99670.99841.0000
3factorswillberetainedbytheNFACTORcriterion.
由于前三个特征值累积贡献率已达89.80%,且前三个特征值均大于1,所以保留三个公共因子用作
分析是合理的。
第二步:对因子载荷阵实行方差最大旋转
RotatedFactorPattern
FACTOR1FACTOR2FACTOR3
X1-0.21522-0.273970.89092
X20.63973-0.28739-0.28755
X3-0.157910.063340.94855
X40.95898-0.01501-0.07556
X50.97224-0.06778-0.17535
X6-0.114160.98328-0.08300
X7-0.110410.97851-0.07246
第三步:将6个指标按高载荷分成3类,并结合专业知识命名
高载荷指标因子命名
因子1
X2;面积(万平方公里)
X4:人均水资源(立方米/人)
X5:人均生物量(吨/人)
自然资源因子
因子2
X6:万人拥有的大学生数(人)
X7:万人拥有的科学家、工程师数(人)
人力资源因子
因子3X1;人口(万人)
X3:GDP(亿元)
经济发展总量因子
第五步:用回归法计算因子得分系数,并代入各地区的指标值,计算各地区的因子得分。可以看出
东部地区在人力资源因子上的得分较高,而西部地区在自然资源因子上的得分较高。
StandardizedScoringCoefficients
FACTOR1FACTOR2FACTOR3
X10.05764-0.060980.50391
X20.22724-0.09901-0.07713
X30.146350.129570.59715
X40.479200.112280.17062
X50.455830.074190.10129
X60.054160.486290.04099
X70.057900.485620.04822
主成分分析和因子分析4
变量聚类分析
一、简介
在实际工作中,变量聚类的应用也十分重要。在系统分析或评估过程中,为了避免某些重要因
素的遗漏,人们往往在一开始选取指标时,尽可能多地考虑所有的相关因素。而这样做的结果,则
是变量过多,变量间的相关度高,给系统分析与建模带来很大的不便。因此,人们常常希望能研究
变量间的相似关系,按照变量的相关关系把他们聚合为若干类,从而观察和解释影响系统的主要原
因。
VARCLUS过程试图把一组变量分为不重叠的一些类,所以VARCLUS过程可以用来压缩变量,
用信息损失很少的类分量来代替含有很多变量的变量集。例如,一种教育情况的检查可能包括有50
项,VARCLUS分析将这些项分为几类,比如5个类,每类做部分检查,检查类分量的得分。
二、变量聚类的步骤
VARCLUS过程开始把所有变量看为一个类,然后重复下面的步骤:
1、首先挑选一个将被分裂的类
变量聚类分析的想法是,VARCLUS过程首先找出该大类的第一和第二主分量这两个主分量经
过正交坐标变换(即因子分析中常用的Quartimax方法)后,变量被指定归入一个与其相关系数的
平方较高的主分量所在类。如此原有的大类被分裂为二。
2、变量重新归类
两个(或两个以上的)之中的一个类被选中,照第一步的方法再分裂为二。这个被选中的类通
常拥有最大的第二特征根,或者是拥有最小的可被类向量解释的变异数百分比。
2、第一步和第二步不停的交互进行,直至类内变量之间的第二特征根或可被类向量解释的变
异数百分比达到预设定的标准为止。
varclus过程的选项大约可以分为五类:第一类选项是为各资料文件命名;第二类选项控制类的
个数;第三类选项可控制类形成的方法;第四类选项控制有关统计值的打印;第五类选项控制输出
打印。
第一类选项:
DATA=输入的数据资料名称。如果输入的数据是相关系数(CORR)、协方差(COV)、或因
子分数(FACTOR)。则必须在选项DATA后用(TYPE=)指明。如DATA=A(TYPE=CORR)。
OUTDATA=输出的数据资料名称。为输出的资料文件命名。这个资料文件包括平均数,标准
差,相关系数,类的线性组合系数,以及类的结构。
OUTTREE=输出的数据资料名称。为绘制树形图之用。
第二类选项:
MINC=正整数。用该选项来指示最少要几个类。若同时选用了INITILA=RANDOM(或=SEED)
选项,则MINC=的默认值为2。否则SAS假设类的形成从最大的类开始,不断地分裂,直到分裂的
结果达到PROPORTION=或MAXEIGEN=选项所规定的标准为止。
MAXC=正整数。用该选项来指示最多要几个类。
PROCVARCLUS
VARvariables;
SEEDvariables;
PARTIALvariables;
WEIGHTvariable;
FREQvariable;
BYvariables;
主成分分析和因子分析5
PROPORTION=正有理数。此选项规定类主成分所能解释的方差百分比。PROPORTION=0.75和
PERCENT=75的含义完全相同。
MAXEIGEN=正实数。此选项规定类内第二特征的最大可能值。
第三类选项:
COV指示SAS去分析一个协方差矩阵,而非相关系数矩阵。
INITIAL=方法名称。此选项规定初始分类的一种方法,然后在该分类基础上进行聚类分析。
INITIAL=RANDOM要求将各变量随机分配到类中;
INITIAL=SEED以指令SEED中指定的变量当做聚类分析的初始情况。列在SEED语句中的每个
变量成为这一类的唯一变量,而其他变量则不归类。
INITIAL=INPUT此法仅仅使用于五中特殊输入的资料,即TYPE=CORR,TYPE=UCORR,
TYPE=COV,TYPE=UCOV,TYPE=FACTOR时。
INITIAL=GROUP此法也仅仅使用于五中特殊输入的资料,即TYPE=CORR,TYPE=UCORR,
TYPE=COV,TYPE=UCOV,TYPE=FACTOR时。
CENTROID此选项十分重要,许多其他的选项均受此选项的影响。因为此选项导出类的中心
成分(非主成分)。中心成分通常是变量的未加权的平均数。这种方法的分析结果类的中心成分与
类内的变量的相关是最高的。此选项不能与MAXEIGEN合用。
MAXITER=正整数
第四类选项:
SIMPEL(或S)要求打印出每一个变量的平均数和标准差,
CORR(或C)要求打印出变量间的相关系数聚阵。
Dataa;
Inputx1-x7;
Cards;
数据行;
procvarclusdata=amaxc=3summaryouttree=tree;
proctreegraphicshorizontal;run;
人均要素变量聚类分析。对我国32个省市自治区的要素状况作因子分析。指标体系中有如下指
标:
X1:人口(万人)X2:面积(万平方公里)
X3:GDP(亿元)X4:人均水资源(立方米/人)
X5:人均生物量(吨/人)X6:万人拥有的大学生数(人)
X7:万人拥有科学家、工程师数(人)
Clustersummaryfor3clusters
ClusterVariationProportionSecond
ClusterMembersVariationExplainedExplainedEigenvalue
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
1332.3950670.79840.5917
2221.9855790.99280.0144
3221.7996850.89980.2003
Totalvariationexplained=6.180331Proportion=0.8829
R-squaredwith
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
OwnNext1-R**2
ClusterVariableClusterClostRatio
主成分分析和因子分析6
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Cluster1x20.55950.09730.4880
x40.87330.08090.1378
x50.96230.13250.0435
------------------------------------------------------
Cluster2x60.99280.04480.0075
x70.99280.04290.0075
------------------------------------------------------
Cluster3x10.89980.11390.1130
x30.89980.11610.1133
StandardizedScoringCoefficients类分量的标准化得分系数
Cluster123
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
x10.0000000.0000000.527092
x20.3123000.0000000.000000
x30.0000000.0000000.527092
x40.3901840.0000000.000000
x50.4095730.0000000.000000
x60.0000000.5018120.000000
x70.0000000.5018120.000000
ClusterStructure
Cluster123
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
x1-.337480-.2932040.948600
x20.747979-.268015-.311917
x3-.3407760.0032300.948600
x40.934516-.141681-.284465
x50.980956-.173585-.364033
x6-.2115870.996388-.159017
x7-.2070520.996388-.145564
类别成员命名
类1
X2;面积(万平方公里)
X4:人均水资源(立方米/人)
X5:人均生物量(吨/人)
自然资源指标类
类2X6:万人拥有的大学生数(人)
X7:万人拥有的科学家、工程师数(人)
人力资源指标类
类3X1;人口(万人)
X3:GDP(亿元)
经济发展总量指标类
本文发布于:2022-12-29 01:23:21,感谢您对本站的认可!
本文链接:http://www.wtabcd.cn/fanwen/fan/90/50246.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |