因子分析法
一、基础理论知识
1.概念
因子分析(Factor Analysis):就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。从数学角度来看,主成分分析是一种化繁为简的降维处理技术。
主成分分析(Principal Component Analysis):是因子分析的一个特例,是使用最多的因子提取方法。它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。
两者关系:主成分分析(PCA)和因子分析(FA)是两种把变量维数降低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子分析的一个特例。
主成分分析主要是一种探索性的技术,在分析者进行多元数据分析之前,用它来分析数据,让分析者对数据有一个大致的了解,这是非常有必要的。主成分分析一般很少单独使用:(a)了解数据(screening the data);(b)和cluster analysis(聚类分析)一起使用;(shoeboxc)和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成分对变量的维度进行简化(reduce dimensionality);(d)在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。
(1)因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成各变量的线性组合。
(2)主成分分析的重点在于解释各变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。
(3)主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。
(4)主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不同的因子。
(5)在因子分析中,因子个数需要分析者指定(SPSS根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这种情况也可以使用因子得分做到。所以这种区分不是绝对的。
在算法上,主成分分析和因子分析很类似,不过在因子分析中所采用的协方差矩阵的对角元素不再是变量的方差,而是和变量对应的共同度(变量方差中被各因子所解释的部分)。
可以说,因子分析是主成分分析的推广,也是一种把多个变量化为少数几个综合变量的多
变量分析方法,其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。
因子分析主要用于:(1)减少分析变量个数;(2)通过对变量间相关关系探测,将原始变量进行分类。即将相关性高的变量分为一组,用共性因子代替该组变量。
2.特点
(1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。
(2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。
(3三星堆又有新发现)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。
(4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。显然,在一个低维空间解释系统要比在高维系统容易的多。
3.类型
根据研究对象的不同,把因子分析分为R型和Q型两种。
当研究对象是变量时,属于R全国在职研究生考试型因子分析(相关系数矩阵);当研究对象是样品时,属于Q型因子分析(相似系数矩阵)。
但有的因子分析方法兼有R型和Q型因子分析的一些特点,如因子分析中的对应分析方法,有的学者称之为双重型因子分析,以示与其它两类的区别。
4.分析原理
假定:有n个样本,每个样本共有p个变量,构成一个n×p阶的样本数据矩阵:
当p较大时,在p维空间中考察问题比较麻烦。这就需要进行降维处理,即用较少几个综合指标代替原来指标,而且使这些综合指标既能尽量多地反映原来指标所反映的信息,同时它们之间又是彼此独立的。
线性组合:记为原变量指标,(m≤p)为新变量指标(主成分),则其线性组合为:
是原变量在各主成分上的载荷(即“权重”)。
无论是哪一种因子分析方法,其相应的因子解都不是唯一的,主因子解仅仅是无数因子解中的一个。
与相互无关;是的一切线性组合中方差最大者,是与不相关的的所有线性组合中方差最大者,…。则新变量指标分别称为原变量指标的第一,第二,…主成分。
Z为因子变量或公共因子,可以理解为在高维空间中互相垂直的m个坐标轴。
主成分分析实质就是确定原来变量(j=1,2,„,p)在各主成分(i=1,2,„,m)上的荷载。
从数学上容易知道,当然也可以证明,它们分别是相关系数矩阵的m个较大的特征值所对应的特征向量。
5.分析步骤
5.1确定待分析的原有若干变量是否适合进行因子分析(第一步)
因子分析是从众多的原始变量中重构少数几个具有代表意义的因子变量的过程。其潜在的要求:原有变量之间要具有比较强的相关性。因此,因子分析需要先进行相关分析,计算原始变量之间的相关系数矩阵。如果相关系数矩阵在进行统计检验时,大部分相关系数均小于0.3且未通过检验,则这些原始变量就不太适合进行因子分析。
其中:
进行原始变量的相关分析之前,需要对输入的原始数据进行标准化计算(一般采用标准差标准化方法,标准化后的数据均值为0,方差为庇护是什么意思1年月日英文)。
SPSS在因子分析中还提供了几种判定是否适合因子分析的检验方法。主要有以下3种:
巴特利特球形检验(Bartlett Test of Sphericity) 流行英文名字;
反映象相关矩阵检验(Anti-image correlation matrix);
KMO(Kair-Meyer-Olkin)检验。
解码器是什么
(1)巴特利特球形检验
该检验以变量的相关系数矩阵作为出发点,它的原假设H0为相关系数矩阵是一个单位阵,即相关系数矩阵对角线上的所有元素都为1,而所有非对角线上的元素都为0,也即原始变量两两之间不相关。
巴特利特球形检验的统计量是根据相关系数矩阵的行列式得到。如果该值较大,且其对应的相伴概率值小于用户指定的显著性水平,那么就应拒绝原假设H0,认为相关系数不可能
是单位阵,也即原始变量间存在相关性。
(2)反映象相关矩阵检验
该检验以变量的偏相关系数矩阵作为出发点,将偏相关系数矩阵的每个元素取反,得到反映象相关矩阵。
偏相关系数是在控制了其它变量影响的条件下计算出来的相关系数,如果变量之间存在较多的重叠影响,那么偏相关系数就会较小,这些变量越适合进行因子分析。
(3)KMO(Kair-Meyer-Olkin)检验
该检验的统计量用于比较变量之间的简单相关和偏相关系数。
KMO值介于0-1,越接近1,表明所有变量之间简单相关系数平方和远大于偏相关系数平方和,越适合因子分析。
其中,Kair给出一个KMO检验标准:KMO>0.9,非常适合;0.8<KMO<0.9,适合;0.7<KMO<0.8,一般;0.6<KMO<0.7,不太适合;KMO<0.5,不适合。
5.2构造因子变量
因子分析中有很多确定因子变量的方法,如基于主成分模型的主成分分析和基于因子分析模型的主轴因子法、极大似然法、最小二乘法等。前者应用最为广泛。
主成分分析法(Principal component analysis):
该方法通过坐标变换,将原有变量作线性变化,转换为另外一组不相关的变量(主成分)。求相关系数矩阵的特征根 (,,…,>0)和相应的标准正交的特征向量;根据相关系数矩阵的特征根,即公共因子的方差贡献(等于因子载荷矩阵L中第j列各元素的平方和),计算公共因子的方差贡献率与累积贡献率。
,
主成分分析是在一个多维坐标轴中,将原始变量组成的坐标系进行平移变换,使得新的坐
标原点和数据群点的重心重合。新坐标第一轴与数据变化最大方向对应。通过计算特征根(方差贡献)和方差贡献率与累积方差贡献率等指标,来判断选取公共因子的数量和公共因子(主成分)所能代表的原始变量信息。
销售二八法则公共因子个数的确定准则:(1)根据特征值的大小来确定,一般取大于1的特征值对应的几个公共因子/主成分。(2)根据因子的累积方差贡献率来确定,一般取累计贡献率达85-95%的特征值所对应的第一、第二、…、第m(m≤p)个主成分。也有学者认为累积方差贡献率应在80%以上。
5.3因子变量的命名解释
因子变量的命名解释是因子分析的另一个核心问题。经过主成分分析得到的公共因子/主成分是对原有变量的综合。原有变量是有物理含义的变量,对它们进行线性变换后,得到的新的综合变量的物理含义到底是什么?
在实际的应用分析中,主要通过对载荷矩阵进行分析,得到因子变量和原有变量之间的关系,从而对新的因子变量进行命名。利用因子旋转方法能使因子变量更具有可解释性。
计算主成分载荷,构建载荷矩阵A。
载荷矩阵ldap是什么A中某一行表示原有变量与公共因子(因子变量)的相关关系。载荷矩阵A中某一列表示某一个公共因子(因子变量)能够解释的原有变量的信息量。有时因子载荷矩阵的解释性不太好,通常需要进行因子旋转,使原有因子变量更具有可解释性。因子旋转的主要方法:正交旋转、斜交旋转。
正交旋转和斜交旋转是因子旋转的两类方法。前者由于保持了坐标轴的正交性,因此使用最多。正交旋转的方法很多,其中以方差最大化法最为常用。
方差最大正交旋转(varimax orthogonal rotation)——基本思想:使公共因子的相对负荷
的方差之和最大,且保持原公共因子的正交性和公共方差总和不变。可使每个因子上的具有最大载荷的变量数最小,因此可以简化对因子的解释。
斜交旋转(oblique rotation)——因子斜交旋转后,各因子负荷发生了变化,出现了两极分化。各因子间不再相互独立,而是彼此相关。各因子对各变量的贡献的总和也发生了改变。
tdp