首页 > 英文翻译

factor

更新时间:2022-12-29 01:23:21 阅读：评论：0

2022年12月29日发(作者：中秋晚会致辞)

主成分分析和因子分析1

SAS/STAT因子分析（Factor）过程

一、Factor过程语句

SAS/STAT（Factor）主要的语句如下：

PROCFactor；}必需语句











iablesBY

iableWEIGHT

iablesPARTIAL

iablePRIORS

iablesVAR

var

；

可选择的语句

用于PROCFACTOR语句的任选项:规定数据集(共4项)

1)DATA＝SAS-data-t(SAS数据集)——给出输入数据集的名

2）OUT＝SAS-data-t(SAS数据集)——创建一个数据集，它包括来自DATA＝的数据集中的全

部数据，还包括被称为Factor1，Factor2等变量的因子得分估计。

3)OUTSTAT＝SAS-data-t(SAS数据集)——规定一个包含大部分分析结果的输出数据

4)COV要求用协方差阵替代相关系数阵作因子分析。

5）NFACTORS=n规定被保留的因子个数。

6）ROTATE=name规定旋转方法。

ROTATE=E规定正交的均方最大旋转

ROTATE=no规定不旋转

ROTATE=v规定正交的方差最大旋转

7)ALL打印除图形之外的所有可选择的输出.

8)SCORE打印因子得分系数。

二、实例

国家发展的最终目标，是为了全面提高全体国民的生活质量，满足广大国民日益增长的物质和

文化的合理需求。在可持续发展消费的统一理念下，增加社会财富，创自更多的物质文明和精神文

明，保持人类的健康延续和生生不息，在人类与自然协同进化的基础上，维系人类与自然的平衡，

达到完整的代际公平和区际公平(即时间过程的最大合理性与空间分布的最大合理化)。

从1990年开始，联合国开发计划署(UYNP)首次采用“人文发展系数”指标对于国民生活质量

进行测度。人文发展系数利用三类内涵丰富的指标组合，即人的健康状况(使用出生时的人均预期寿

命表达)、人的智力程度(使用组合的教育成就表达)、人的福利水平(使用人均国民收入或人均GDP

表达)，并且特别强调三类指标组合的整体表达内涵，去衡量一个国家或地区的社会发展总体状况以

及国民生活质量的总水平。

在这个指标体系中有如下的指标：

——预期寿命

——成人识字率

——综合入学率

——人均GDP（美圆）

——预期寿命指数

主成分分析和因子分析2

——教育成就指数

——人均GDP指数

dataa;inputdiqu$x1-x7;

cards;数据行省略;

procfactordata=arotate=enfactors=3scoreout=d;

procprintdata=d;run;

三、部分输出

RotatedFactorPattern

FACTOR1FACTOR2FACTOR3

X10.381290.417650.81714

X20.121660.848280.45981

X30.648030.618220.22398

X40.904100.205310.34100

X50.388540.432950.80848

X60.282070.853250.43289

X70.900910.206120.35052

Varianceexplainedbyeachfactor

FACTOR1FACTOR2FACTOR3

2.4397002.2763172.009490

FinalCommunalityEstimates:Total=6.725507

X1X2X3X4X5X6X7

0.9875300.9457960.8523060.9758300.9920500.9949950.976999

ScoringCoefficientsEstimatedbyRegression

StandardizedScoringCoefficients

FACTOR1FACTOR2FACTOR3

X1-0.18875-0.343970.85077

X2-0.241090.60335-0.10234

X30.354620.50232-0.59895

X40.53990-0.17336-0.10355

X5-0.17918-0.316040.81490

X6-0.092300.62258-0.24876

X70.53171-0.18187-0.08507

DIQUX1X2X3X4X5X6X7F1F2F3

beij71.0792.0581.631335.330.770.890.232.032851.31502-0.11002

人均要素因子分析报告。对我国32个省市自治区的要素状况作因子分析。指标体系中有如下指

标：

X1：人口（万人）X2：面积（万平方公里）

X3：GDP（亿元）X4：人均水资源（立方米/人）

X5：人均生物量（吨/人）X6：万人拥有的大学生数（人）

X7：万人拥有科学家、工程师数（人）

第一步：确定因子数。相关系数阵的特征值及其贡献率如下：

EigenvaluesoftheCorrelationMatrix:Total=7Average=1

1234567

Eigenvalue2.96042.23291.09290.54260.14820.01180.0112

主成分分析和因子分析3

Difference0.72751.14000.55030.39440.13640.0006.

Proportion0.42290.3190.15610.07750.02120.00170.0016

Cumulative0.42290.74190.89800.97550.99670.99841.0000

3factorswillberetainedbytheNFACTORcriterion.

由于前三个特征值累积贡献率已达89.80%，且前三个特征值均大于1，所以保留三个公共因子用作

分析是合理的。

第二步：对因子载荷阵实行方差最大旋转

RotatedFactorPattern

FACTOR1FACTOR2FACTOR3

X1-0.21522-0.273970.89092

X20.63973-0.28739-0.28755

X3-0.157910.063340.94855

X40.95898-0.01501-0.07556

X50.97224-0.06778-0.17535

X6-0.114160.98328-0.08300

X7-0.110410.97851-0.07246

第三步：将6个指标按高载荷分成3类，并结合专业知识命名

高载荷指标因子命名

因子1

X2；面积（万平方公里）

X4:人均水资源（立方米/人）

X5:人均生物量（吨/人）

自然资源因子

因子2

X6：万人拥有的大学生数（人）

X7：万人拥有的科学家、工程师数（人）

人力资源因子

因子3X1;人口（万人）

X3:GDP(亿元)

经济发展总量因子

第五步：用回归法计算因子得分系数，并代入各地区的指标值，计算各地区的因子得分。可以看出

东部地区在人力资源因子上的得分较高,而西部地区在自然资源因子上的得分较高。

StandardizedScoringCoefficients

FACTOR1FACTOR2FACTOR3

X10.05764-0.060980.50391

X20.22724-0.09901-0.07713

X30.146350.129570.59715

X40.479200.112280.17062

X50.455830.074190.10129

X60.054160.486290.04099

X70.057900.485620.04822

主成分分析和因子分析4

变量聚类分析

一、简介

在实际工作中，变量聚类的应用也十分重要。在系统分析或评估过程中，为了避免某些重要因

素的遗漏，人们往往在一开始选取指标时，尽可能多地考虑所有的相关因素。而这样做的结果，则

是变量过多，变量间的相关度高，给系统分析与建模带来很大的不便。因此，人们常常希望能研究

变量间的相似关系，按照变量的相关关系把他们聚合为若干类，从而观察和解释影响系统的主要原

因。

VARCLUS过程试图把一组变量分为不重叠的一些类，所以VARCLUS过程可以用来压缩变量，

用信息损失很少的类分量来代替含有很多变量的变量集。例如，一种教育情况的检查可能包括有50

项，VARCLUS分析将这些项分为几类，比如5个类，每类做部分检查，检查类分量的得分。

二、变量聚类的步骤

VARCLUS过程开始把所有变量看为一个类,然后重复下面的步骤:

1、首先挑选一个将被分裂的类

变量聚类分析的想法是，VARCLUS过程首先找出该大类的第一和第二主分量这两个主分量经

过正交坐标变换（即因子分析中常用的Quartimax方法）后，变量被指定归入一个与其相关系数的

平方较高的主分量所在类。如此原有的大类被分裂为二。

2、变量重新归类

两个（或两个以上的）之中的一个类被选中，照第一步的方法再分裂为二。这个被选中的类通

常拥有最大的第二特征根，或者是拥有最小的可被类向量解释的变异数百分比。

2、第一步和第二步不停的交互进行，直至类内变量之间的第二特征根或可被类向量解释的变

异数百分比达到预设定的标准为止。

varclus过程的选项大约可以分为五类：第一类选项是为各资料文件命名；第二类选项控制类的

个数；第三类选项可控制类形成的方法；第四类选项控制有关统计值的打印；第五类选项控制输出

打印。

第一类选项：

DATA=输入的数据资料名称。如果输入的数据是相关系数（CORR）、协方差（COV）、或因

子分数（FACTOR）。则必须在选项DATA后用（TYPE=）指明。如DATA=A（TYPE=CORR）。

OUTDATA=输出的数据资料名称。为输出的资料文件命名。这个资料文件包括平均数，标准

差，相关系数，类的线性组合系数，以及类的结构。

OUTTREE=输出的数据资料名称。为绘制树形图之用。

第二类选项：

MINC=正整数。用该选项来指示最少要几个类。若同时选用了INITILA=RANDOM（或=SEED）

选项，则MINC=的默认值为2。否则SAS假设类的形成从最大的类开始，不断地分裂，直到分裂的

结果达到PROPORTION=或MAXEIGEN=选项所规定的标准为止。

MAXC=正整数。用该选项来指示最多要几个类。

PROCVARCLUS;必需的语句

VARvariables;

SEEDvariables;

PARTIALvariables;

WEIGHTvariable;

FREQvariable;

BYvariables;

主成分分析和因子分析5

PROPORTION=正有理数。此选项规定类主成分所能解释的方差百分比。PROPORTION=0.75和

PERCENT=75的含义完全相同。

MAXEIGEN=正实数。此选项规定类内第二特征的最大可能值。

第三类选项：

COV指示SAS去分析一个协方差矩阵，而非相关系数矩阵。

INITIAL=方法名称。此选项规定初始分类的一种方法，然后在该分类基础上进行聚类分析。

INITIAL=RANDOM要求将各变量随机分配到类中；

INITIAL=SEED以指令SEED中指定的变量当做聚类分析的初始情况。列在SEED语句中的每个

变量成为这一类的唯一变量，而其他变量则不归类。

INITIAL=INPUT此法仅仅使用于五中特殊输入的资料，即TYPE=CORR，TYPE=UCORR，

TYPE=COV，TYPE=UCOV，TYPE=FACTOR时。

INITIAL=GROUP此法也仅仅使用于五中特殊输入的资料，即TYPE=CORR，TYPE=UCORR，

TYPE=COV，TYPE=UCOV，TYPE=FACTOR时。

CENTROID此选项十分重要，许多其他的选项均受此选项的影响。因为此选项导出类的中心

成分（非主成分）。中心成分通常是变量的未加权的平均数。这种方法的分析结果类的中心成分与

类内的变量的相关是最高的。此选项不能与MAXEIGEN合用。

MAXITER=正整数

第四类选项：

SIMPEL（或S）要求打印出每一个变量的平均数和标准差，

CORR（或C）要求打印出变量间的相关系数聚阵。

Dataa;

Inputx1-x7;

Cards;

数据行；

procvarclusdata=amaxc=3summaryouttree=tree;

proctreegraphicshorizontal;run;

人均要素变量聚类分析。对我国32个省市自治区的要素状况作因子分析。指标体系中有如下指

标：

X1：人口（万人）X2：面积（万平方公里）

X3：GDP（亿元）X4：人均水资源（立方米/人）

X5：人均生物量（吨/人）X6：万人拥有的大学生数（人）

X7：万人拥有科学家、工程师数（人）

Clustersummaryfor3clusters

ClusterVariationProportionSecond

ClusterMembersVariationExplainedExplainedEigenvalue

ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

1332.3950670.79840.5917

2221.9855790.99280.0144

3221.7996850.89980.2003

Totalvariationexplained=6.180331Proportion=0.8829

R-squaredwith

ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

OwnNext1-R**2

ClusterVariableClusterClostRatio

主成分分析和因子分析6

ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

Cluster1x20.55950.09730.4880

x40.87330.08090.1378

x50.96230.13250.0435

------------------------------------------------------

Cluster2x60.99280.04480.0075

x70.99280.04290.0075

------------------------------------------------------

Cluster3x10.89980.11390.1130

x30.89980.11610.1133

StandardizedScoringCoefficients类分量的标准化得分系数

Cluster123

ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

x10.0000000.0000000.527092

x20.3123000.0000000.000000

x30.0000000.0000000.527092

x40.3901840.0000000.000000

x50.4095730.0000000.000000

x60.0000000.5018120.000000

x70.0000000.5018120.000000

ClusterStructure

Cluster123

ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

x1-.337480-.2932040.948600

x20.747979-.268015-.311917

x3-.3407760.0032300.948600

x40.934516-.141681-.284465

x50.980956-.173585-.364033

x6-.2115870.996388-.159017

x7-.2070520.996388-.145564

类别成员命名

类1

X2；面积（万平方公里）

X4:人均水资源（立方米/人）

X5:人均生物量（吨/人）

自然资源指标类

类2X6：万人拥有的大学生数（人）

X7：万人拥有的科学家、工程师数（人）

人力资源指标类

类3X1;人口（万人）

X3:GDP(亿元)

经济发展总量指标类

本文发布于:2022-12-29 01:23:21，感谢您对本站的认可！

本文链接：http://www.wtabcd.cn/fanwen/fan/90/50246.html

上一篇：embody

下一篇：resisting

标签：factor

留言与评论（共有 0 条评论）