多维尺度分析
多维尺度分析(multidimensional scaling ,MDS )又称ALSCALE(alternative least-square SCALing),还有人称之为多维量表分析;它是将一组个体间的相异数据经过MDS 转换成空间构图,且保留原始数据的相对关系。
1多维尺度分析的目的
假设给你一张中国台湾省地图,要你算出基隆,台北,新竹,台中,台南,嘉义,高雄,花莲,台东,枋寮,苏澳,恒春等地间的距离,你可以用一把刻度尺根据比例测算出一个12x12de 距离矩阵;反之,如果给你一份12个城市间的距离矩阵,要你画出12个城市相对位置的二维台湾地图,且要他们与现实尽量保持一致,那就是一件不容易的工作了,多为尺度分析就为此工作提供了一个有效地分析手段。
2多为尺度分析与因子分析和聚类分析的异同
多为尺度分析和因子分析都是维度缩减技术,但是因子分析一般使用相关系数进行分析,使用的是相似性矩阵;而多为尺度分析采用的是不相似的评分数据或者说相异性数据来进行分析;与因子分析不同,多为尺度分析中维度或因素的含义不是分析的中心,各数据点在空间中的位置才是分析解释的核心内容;
多为尺度分析与聚类分析也有相似之处,两者都可以检验样品或者变量之间的近似性或距离,但聚类分析中样品通常是按质分组的;多维分析不是将分组或聚类作为最终结果,而是以一个多维尺度图作为最终结果,比较直观。
若你的目的是要把一组变量缩减成几个因素来代表,可考虑使用因素分析;若目的是变量缩减后以呈现在空间图上,则可以使用MDS 。如果你是想要却仍相似观测值得组别,请考虑以聚类分析来补充多为尺度分析,聚类分析虽可以确认组别,但无法在空间图中标示出观测。
3.定性的和定量的MDS
MDS 分析测量的尺度不可以是nominal 的,但可以是顺序的ordinal,等距的interval,比率的ratio 。顺序量表只可以用于质的分析,又称为定性多维量表分析;它以个体间距离排序为主;而interval 和ratio 量表称为定量多维量表分析(定量多维尺度分析)。
定性的多维量表分析是目前比较常用的MDS 法,因为他可以使用使用量表要求比较宽的顺序量表,但可以得到量表比较严的数值空间图,也就是说,输入的是分类数据,输出的是数值结果。
4.MDS 分析的各种类型
定性MDS 分析------------------------------------------------------------------------------------例1 定量MDS 分析---
---------------------------------------------------------------------------------例2 不对称方阵MDS 分析--------------------------------------------------------------------------例3 从数据中创建距离对称矩阵MDS-----------------------------------------------------------例4 个体差异模型MDS------------------------------------------------------------------------------例6 5多维量表分析的运算原理
对定量MDS 而言,输入的距离矩阵()rs n n D d ⨯=是欧氏距离,如果能在某个P 维空间上撒播
2broke girls
找到坐标点,是其点间的距离2'()()rs r s r s d x x x x =--所形成的矩阵刚好等于D,即可求得
MDS 的最佳解。其求解是一个迭代过程,不在此细述。
6.拟合度的测量-------Stress
拟合的好坏的指标称为压力系数(stress 应力),系数越小拟合越好;所绘图与原数据
拟合越好。
假设N 个个体,将有(1)/2m n n =⨯-对两两间距,大小排序从大到小假设如下 m i k i k i k d d d >>>
若在q 维空间上画出一个结构图,令q
ik d 代表转换后i 和k 这一对个体间的距离,如果拟合效果好则排序应该是 m q
q q i k i k i k d d d ≥≥≥,如果排序一致那么真正距离的大小就不是那么重要
了。
Kruskal 提出了一个测量q 维空间结构图拟合度的指标,应力系数。
原始应力系数raw stress:
2
ˆ()()q q i k ik ik q d d φ<=-∑∑ 标准化应力系数
222ˆ()()
bottleneck()()()q
q i k ik
ik q q i k ik i k ik d d q S q d d φ<<<-==∑∑∑∑∑∑
英语翻译器
ˆq q q ik ik ik ik
d d when d d =→与排序一致时; ˆq q ik ik iksuya
d when d d →以平均值代替与排序不一致时; Kruskal 解释应力系数0.2以上(不好,poor ),0.1还好fair,0.05好,0.025非常好,0.00perfect. 还有两个拟合度指标分别为Young ’s S-stress 与RSQ 。Young ’s S-stress 与应力系数一样越小越好,RSQ 越大越好;
7. 如果变量的量纲差异极大,就应该考虑将他们标准化。(MDS 可自动执行)
例1:利用中国台湾省12个城市的飞行距离排序来进行多维尺度分析。数据如下
泰迪熊ted>dizzy gillespie
由于是对称矩阵所以只需要输入下三角即可。
Analyze-→scale--→multidimensional scaling
选定—数据是距离数据。
Shape选择正对称,所以原始数据只需输入一角。
有价证券本体数据是顺序数据,所以选定ordinal。另外其下方的untie tied obrvations(打开结观察值)选项用于改变对相同顺序值得处理,勾选此项时,MDS会强迫给予相同顺序者以不同顺序。
区间interval用于定量MDS。比率亦是。
矩阵metrix:勾选此项时,矩阵里的各个数据可以相互比较,如整个矩阵中所有数据单位或者意义相同。
brazuca
位数可自由选择,本例最大最小2,所以只选择了2维的输出结果。
组图group plots:必选项,输出我们需要的结果图。
数据矩阵:输出MDS原始和标准化后的数据矩阵。模型和选项摘要:输出下方方框里的内容。
程序执行的结果如下:
赖家王老五以上只是说明你什么事情。