factor

更新时间:2022-12-29 01:23:21 阅读: 评论:0


2022年12月29日发(作者:中秋晚会致辞)

主成分分析和因子分析1

SAS/STAT因子分析(Factor)过程

一、Factor过程语句

SAS/STAT(Factor)主要的语句如下:

PROCFactor;}必需语句

iablesBY

iableWEIGHT

iablesPARTIAL

iablePRIORS

iablesVAR

var

var

var

var

var

可选择的语句

用于PROCFACTOR语句的任选项:规定数据集(共4项)

1)DATA=SAS-data-t(SAS数据集)——给出输入数据集的名

2)OUT=SAS-data-t(SAS数据集)——创建一个数据集,它包括来自DATA=的数据集中的全

部数据,还包括被称为Factor1,Factor2等变量的因子得分估计。

3)OUTSTAT=SAS-data-t(SAS数据集)——规定一个包含大部分分析结果的输出数据

4)COV要求用协方差阵替代相关系数阵作因子分析。

5)NFACTORS=n规定被保留的因子个数。

6)ROTATE=name规定旋转方法。

ROTATE=E规定正交的均方最大旋转

ROTATE=no规定不旋转

ROTATE=v规定正交的方差最大旋转

7)ALL打印除图形之外的所有可选择的输出.

8)SCORE打印因子得分系数。

二、实例

国家发展的最终目标,是为了全面提高全体国民的生活质量,满足广大国民日益增长的物质和

文化的合理需求。在可持续发展消费的统一理念下,增加社会财富,创自更多的物质文明和精神文

明,保持人类的健康延续和生生不息,在人类与自然协同进化的基础上,维系人类与自然的平衡,

达到完整的代际公平和区际公平(即时间过程的最大合理性与空间分布的最大合理化)。

从1990年开始,联合国开发计划署(UYNP)首次采用“人文发展系数”指标对于国民生活质量

进行测度。人文发展系数利用三类内涵丰富的指标组合,即人的健康状况(使用出生时的人均预期寿

命表达)、人的智力程度(使用组合的教育成就表达)、人的福利水平(使用人均国民收入或人均GDP

表达),并且特别强调三类指标组合的整体表达内涵,去衡量一个国家或地区的社会发展总体状况以

及国民生活质量的总水平。

在这个指标体系中有如下的指标:

X

1

——预期寿命

X

2

——成人识字率

X

3

——综合入学率

X

4

——人均GDP(美圆)

X

5

——预期寿命指数

主成分分析和因子分析2

X

6

——教育成就指数

X

7

——人均GDP指数

dataa;inputdiqu$x1-x7;

cards;数据行省略;

procfactordata=arotate=enfactors=3scoreout=d;

procprintdata=d;run;

三、部分输出

RotatedFactorPattern

FACTOR1FACTOR2FACTOR3

X10.381290.417650.81714

X20.121660.848280.45981

X30.648030.618220.22398

X40.904100.205310.34100

X50.388540.432950.80848

X60.282070.853250.43289

X70.900910.206120.35052

Varianceexplainedbyeachfactor

FACTOR1FACTOR2FACTOR3

2.4397002.2763172.009490

FinalCommunalityEstimates:Total=6.725507

X1X2X3X4X5X6X7

0.9875300.9457960.8523060.9758300.9920500.9949950.976999

ScoringCoefficientsEstimatedbyRegression

StandardizedScoringCoefficients

FACTOR1FACTOR2FACTOR3

X1-0.18875-0.343970.85077

X2-0.241090.60335-0.10234

X30.354620.50232-0.59895

X40.53990-0.17336-0.10355

X5-0.17918-0.316040.81490

X6-0.092300.62258-0.24876

X70.53171-0.18187-0.08507

DIQUX1X2X3X4X5X6X7F1F2F3

beij71.0792.0581.631335.330.770.890.232.032851.31502-0.11002

人均要素因子分析报告。对我国32个省市自治区的要素状况作因子分析。指标体系中有如下指

标:

X1:人口(万人)X2:面积(万平方公里)

X3:GDP(亿元)X4:人均水资源(立方米/人)

X5:人均生物量(吨/人)X6:万人拥有的大学生数(人)

X7:万人拥有科学家、工程师数(人)

第一步:确定因子数。相关系数阵的特征值及其贡献率如下:

EigenvaluesoftheCorrelationMatrix:Total=7Average=1

1234567

Eigenvalue2.96042.23291.09290.54260.14820.01180.0112

主成分分析和因子分析3

Difference0.72751.14000.55030.39440.13640.0006.

Proportion0.42290.3190.15610.07750.02120.00170.0016

Cumulative0.42290.74190.89800.97550.99670.99841.0000

3factorswillberetainedbytheNFACTORcriterion.

由于前三个特征值累积贡献率已达89.80%,且前三个特征值均大于1,所以保留三个公共因子用作

分析是合理的。

第二步:对因子载荷阵实行方差最大旋转

RotatedFactorPattern

FACTOR1FACTOR2FACTOR3

X1-0.21522-0.273970.89092

X20.63973-0.28739-0.28755

X3-0.157910.063340.94855

X40.95898-0.01501-0.07556

X50.97224-0.06778-0.17535

X6-0.114160.98328-0.08300

X7-0.110410.97851-0.07246

第三步:将6个指标按高载荷分成3类,并结合专业知识命名

高载荷指标因子命名

因子1

X2;面积(万平方公里)

X4:人均水资源(立方米/人)

X5:人均生物量(吨/人)

自然资源因子

因子2

X6:万人拥有的大学生数(人)

X7:万人拥有的科学家、工程师数(人)

人力资源因子

因子3X1;人口(万人)

X3:GDP(亿元)

经济发展总量因子

第五步:用回归法计算因子得分系数,并代入各地区的指标值,计算各地区的因子得分。可以看出

东部地区在人力资源因子上的得分较高,而西部地区在自然资源因子上的得分较高。

StandardizedScoringCoefficients

FACTOR1FACTOR2FACTOR3

X10.05764-0.060980.50391

X20.22724-0.09901-0.07713

X30.146350.129570.59715

X40.479200.112280.17062

X50.455830.074190.10129

X60.054160.486290.04099

X70.057900.485620.04822

主成分分析和因子分析4

变量聚类分析

一、简介

在实际工作中,变量聚类的应用也十分重要。在系统分析或评估过程中,为了避免某些重要因

素的遗漏,人们往往在一开始选取指标时,尽可能多地考虑所有的相关因素。而这样做的结果,则

是变量过多,变量间的相关度高,给系统分析与建模带来很大的不便。因此,人们常常希望能研究

变量间的相似关系,按照变量的相关关系把他们聚合为若干类,从而观察和解释影响系统的主要原

因。

VARCLUS过程试图把一组变量分为不重叠的一些类,所以VARCLUS过程可以用来压缩变量,

用信息损失很少的类分量来代替含有很多变量的变量集。例如,一种教育情况的检查可能包括有50

项,VARCLUS分析将这些项分为几类,比如5个类,每类做部分检查,检查类分量的得分。

二、变量聚类的步骤

VARCLUS过程开始把所有变量看为一个类,然后重复下面的步骤:

1、首先挑选一个将被分裂的类

变量聚类分析的想法是,VARCLUS过程首先找出该大类的第一和第二主分量这两个主分量经

过正交坐标变换(即因子分析中常用的Quartimax方法)后,变量被指定归入一个与其相关系数的

平方较高的主分量所在类。如此原有的大类被分裂为二。

2、变量重新归类

两个(或两个以上的)之中的一个类被选中,照第一步的方法再分裂为二。这个被选中的类通

常拥有最大的第二特征根,或者是拥有最小的可被类向量解释的变异数百分比。

2、第一步和第二步不停的交互进行,直至类内变量之间的第二特征根或可被类向量解释的变

异数百分比达到预设定的标准为止。

varclus过程的选项大约可以分为五类:第一类选项是为各资料文件命名;第二类选项控制类的

个数;第三类选项可控制类形成的方法;第四类选项控制有关统计值的打印;第五类选项控制输出

打印。

第一类选项:

DATA=输入的数据资料名称。如果输入的数据是相关系数(CORR)、协方差(COV)、或因

子分数(FACTOR)。则必须在选项DATA后用(TYPE=)指明。如DATA=A(TYPE=CORR)。

OUTDATA=输出的数据资料名称。为输出的资料文件命名。这个资料文件包括平均数,标准

差,相关系数,类的线性组合系数,以及类的结构。

OUTTREE=输出的数据资料名称。为绘制树形图之用。

第二类选项:

MINC=正整数。用该选项来指示最少要几个类。若同时选用了INITILA=RANDOM(或=SEED)

选项,则MINC=的默认值为2。否则SAS假设类的形成从最大的类开始,不断地分裂,直到分裂的

结果达到PROPORTION=或MAXEIGEN=选项所规定的标准为止。

MAXC=正整数。用该选项来指示最多要几个类。

PROCVARCLUS;必需的语句

VARvariables;

SEEDvariables;

PARTIALvariables;

WEIGHTvariable;

FREQvariable;

BYvariables;

主成分分析和因子分析5

PROPORTION=正有理数。此选项规定类主成分所能解释的方差百分比。PROPORTION=0.75和

PERCENT=75的含义完全相同。

MAXEIGEN=正实数。此选项规定类内第二特征的最大可能值。

第三类选项:

COV指示SAS去分析一个协方差矩阵,而非相关系数矩阵。

INITIAL=方法名称。此选项规定初始分类的一种方法,然后在该分类基础上进行聚类分析。

INITIAL=RANDOM要求将各变量随机分配到类中;

INITIAL=SEED以指令SEED中指定的变量当做聚类分析的初始情况。列在SEED语句中的每个

变量成为这一类的唯一变量,而其他变量则不归类。

INITIAL=INPUT此法仅仅使用于五中特殊输入的资料,即TYPE=CORR,TYPE=UCORR,

TYPE=COV,TYPE=UCOV,TYPE=FACTOR时。

INITIAL=GROUP此法也仅仅使用于五中特殊输入的资料,即TYPE=CORR,TYPE=UCORR,

TYPE=COV,TYPE=UCOV,TYPE=FACTOR时。

CENTROID此选项十分重要,许多其他的选项均受此选项的影响。因为此选项导出类的中心

成分(非主成分)。中心成分通常是变量的未加权的平均数。这种方法的分析结果类的中心成分与

类内的变量的相关是最高的。此选项不能与MAXEIGEN合用。

MAXITER=正整数

第四类选项:

SIMPEL(或S)要求打印出每一个变量的平均数和标准差,

CORR(或C)要求打印出变量间的相关系数聚阵。

Dataa;

Inputx1-x7;

Cards;

数据行;

procvarclusdata=amaxc=3summaryouttree=tree;

proctreegraphicshorizontal;run;

人均要素变量聚类分析。对我国32个省市自治区的要素状况作因子分析。指标体系中有如下指

标:

X1:人口(万人)X2:面积(万平方公里)

X3:GDP(亿元)X4:人均水资源(立方米/人)

X5:人均生物量(吨/人)X6:万人拥有的大学生数(人)

X7:万人拥有科学家、工程师数(人)

Clustersummaryfor3clusters

ClusterVariationProportionSecond

ClusterMembersVariationExplainedExplainedEigenvalue

ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

1332.3950670.79840.5917

2221.9855790.99280.0144

3221.7996850.89980.2003

Totalvariationexplained=6.180331Proportion=0.8829

R-squaredwith

ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

OwnNext1-R**2

ClusterVariableClusterClostRatio

主成分分析和因子分析6

ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

Cluster1x20.55950.09730.4880

x40.87330.08090.1378

x50.96230.13250.0435

------------------------------------------------------

Cluster2x60.99280.04480.0075

x70.99280.04290.0075

------------------------------------------------------

Cluster3x10.89980.11390.1130

x30.89980.11610.1133

StandardizedScoringCoefficients类分量的标准化得分系数

Cluster123

ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

x10.0000000.0000000.527092

x20.3123000.0000000.000000

x30.0000000.0000000.527092

x40.3901840.0000000.000000

x50.4095730.0000000.000000

x60.0000000.5018120.000000

x70.0000000.5018120.000000

ClusterStructure

Cluster123

ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

x1-.337480-.2932040.948600

x20.747979-.268015-.311917

x3-.3407760.0032300.948600

x40.934516-.141681-.284465

x50.980956-.173585-.364033

x6-.2115870.996388-.159017

x7-.2070520.996388-.145564

类别成员命名

类1

X2;面积(万平方公里)

X4:人均水资源(立方米/人)

X5:人均生物量(吨/人)

自然资源指标类

类2X6:万人拥有的大学生数(人)

X7:万人拥有的科学家、工程师数(人)

人力资源指标类

类3X1;人口(万人)

X3:GDP(亿元)

经济发展总量指标类

本文发布于:2022-12-29 01:23:21,感谢您对本站的认可!

本文链接:http://www.wtabcd.cn/fanwen/fan/90/50246.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

上一篇:embody
下一篇:resisting
标签:factor
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图