-443-第二十九章 多元分析
多元分析(multivariate analys )是多变量的统计分析方法,是数理统计中应用广泛的一个重要分支,其内容庞杂,视角独特,方法多样,深受工程技术人员的青睐和广泛使用,并在使用中不断完善和创新。由于变量的相关性,不能简单地把每个变量的结果进行汇总,这是多变量统计分析的基本出发点。
§1 聚类分析
将认识对象进行分类是人类认识世界的一种重要方法,比如有关世界的时间进程的研究,就形成了历史学,也有关世界空间地域的研究,则形成了地理学。又如在生物学中,为了研究生物的演变,需要对生物进行分类,生物学家根据各种生物的特征,将它们归属于不同的界、门、纲、目、科、属、种之中。事实上,分门别类地对事物进行研究,要远比在一个混杂多变的集合中更清晰、明了和细致,这是因为同一类事物会具有更多的近似特性。在企业的经营管理中,为了确定其目标市场,首先要进行市场细分。因为无论一个企业多么庞大和成功,它也无法满足整个市场的各种需求。而市场细分,可以帮助企业找到适合自己特色,并使企业具有竞争力的分市场,将其作为自己的重点开发目标。
通常,人们可以凭经验和专业知识来实现分类。而聚类分析(cluster analys )作为一种定量方法,将从数据分析的角度,给出一个更准确、细致的分类工具。
大雁1.1 相似性度量
1.1.1 样本的相似性度量
要用数量化的方法对事物进行分类,就必须用数量化的方法描述事物之间的相似程度。一个事物常常需要用多个变量来刻画。如果对于一群有待分类的样本点需用p 个变量描述,则每个样本点可以看成是p
丁香花诗句R 空间中的一个点。因此,很自然地想到可以用距离来度量样本点间的相似程度。
牛弹琴记Ω是样本点集,距离),(⋅⋅d 是+→Ω×ΩR 的一个函数,满足条件:
1)0),(≥y x d ,Ω∈y x ,;
2)0),(=y x d 当且仅当y x =;
3)),(),(x y d y x d =,Ω∈y x ,;
4)),(),(),(y x d z x d y x d +≤,Ω∈z y x ,,。
这一距离的定义是我们所熟知的,它满足正定性,对称性和三角不等式。在聚类分析中,对于定量变
量,最常用的是Minkowski 距离
-444- q
p k q k k q y x y x d 11),(⎥⎦⎤⎢⎣⎡−=∑=,0>q
道歉信英语作文当2,1=q 或+∞→q 时,则分别得到
1)绝对值距离
∑=−=q k k k y x y x d 11),(, (1)
2)欧氏距离
21122),(⎥⎦⎤⎢⎣⎡−=∑=p k k k y x y x d , (2)
3)Chebyshev 距离 k k p
k y x y x d −=≤≤∞1max ),(。 (3) 在Minkowski 距离中,最常用的是欧氏距离,它的主要优点是当坐标轴进行正交旋转时,欧氏距离是保持不变的。因此,如果对原坐标系进行平移和旋转变换,则变换后样本点间的距离和变换前完全相同。
值得注意的是在采用Minkowski 距离时,一定要采用相同量纲的变量。如果变量的量纲不同,测量值变异范围相差悬殊时,建议首先进行数据的标准化处理,然后再计算距离。在采用Minkowski 距离时,还应尽可能地避免变量的多重相关性(multicollinearity )。多重相关性所造成的信息重叠,会片面强调某些变量的重要性。由于Minkowski 距离的这些缺点,一种改进的距离就是马氏距离,定义如下
4)马氏(Mahalanobis )距离
)()(),(1y x y x y x d T −Σ−=− (4) 其中y x ,为来自p 维总体Z 的样本观测值,Σ为Z 的协方差矩阵,实际中Σ往往是不知道的,常常需要用样本协方差来估计。马氏距离对一切线性变换是不变的,故不受量纲的影响。
此外,还可采用样本相关系数、夹角余弦和其它关联性度量作为相似性度量。近年来随着数据挖掘研究的深入,这方面的新方法层出不穷。
1.1.2 类与类间的相似性度量
如果有两个样本类1G 和2G ,我们可以用下面的一系列方法度量它们间的距离: 1)最短距离法(nearest neighbor or single linkage method )
-
445-
)},({min ),(2121j i G y G x y x d G G D j i ∈∈=, (5)
神笔马良故事它的直观意义为两个类中最近两点间的距离。
2)最长距离法(farthest neighbor or complete linkage method )
)},({max ),(2121j i G y G x y x d G G D j i ∈∈=, (6)
它的直观意义为两个类中最远两点间的距离。
3)重心法(centroid method )
),(),(21y x d G G D =, (7) 其中y x ,分别为21,G G 的重心。
4)类平均法(group average method ) ∑∑∈∈=12),(1
),(2121G x G x j i i j x x d n n G G D , (8)
它等于21,G G 中两两样本点距离的平均,式中21,n n 分别为21,G G 中的样本点个数。
5)离差平方和法(sum of squares method )
若记
∑∈−−=
1)()(111G x i T i i x x x x D ,∑∈−−=2)()(222G x j T j j x x x x D , ∑∈−−=
21)()(12G G x k T k k x x x x D ∪, 其中 ∑∈=1111
G x i i x n x ,∑∈=2221G x j j x n x ,∑∈+=
21211G G x k k x n n x ∪ 则定义 211221),(D D D G G D −−= (9)
事实上,若21,G G 内部点与点距离很小,则它们能很好地各自聚为一类,并且这两类又能够充分分离(即12D 很大),这时必然有2112D D D D −−=很大。因此,按定义可以认为,两类21,G G 之间的距离很大。离差平方和法最初是由Ward 在1936年提出,
-446- 后经Orloci 等人1976年发展起来的,故又称为Ward 方法。
1.2 系统聚类法
1.2.1 系统聚类法的功能与特点
系统聚类法是聚类分析方法中最常用的一种方法。它的优点在于可以指出由粗到细的多种分类情况,典型的系统聚类结果可由一个聚类图展示出来。
如何增加体重例如,在平面上有7个点721,,,w w w (如图1(a )),可以用聚类图(如图1(b ))来表示聚类结果。
烤虾球
图1 聚类方法示意图
记},,,{721w w w =Ω,聚类结果如下:当距离值为5f 时,分为一类
},,,,,,{76543211w w w w w w w G =;
距离值为4f 分为两类:
},,{3211w w w G =,},,,{76542w w w w G =;
距离值为3f 分为三类:
},,{3211w w w G =,},,{6542w w w G =,}{73w G =;
距离值为2f 分为四类:
},,{3211w w w G =,},{542w w G =,}{63w G =,}{74w G =
距离值为1f 分为六类:
},{541w w G =,}{12w G =,}{23w G =,}{34w G =,}{65w G =,}{76w G = 距离小于1f 分为七类,每一个点自成一类。
-447-
怎样才能生成这样的聚类图呢?步骤如下:设},,,{721w w w =Ω, 1)计算n 个样本点两两之间的距离}{ij d ,记为矩阵n n ij d D ×=)(;
2)首先构造n 个类,每一个类中只包含一个样本点,每一类的平台高度均为零;
3)合并距离最近的两类为新类,并且以这两类间的距离值作为聚类图中的平台高度;
4)计算新类与当前各类的距离,若类的个数已经等于1,转入步骤5),否则,回到步骤3);
5)画聚类图;
6)决定类的个数和类。
显而易见,这种系统归类过程与计算类和类之间的距离有关,采用不同的距离定义,有可能得出不同的聚类结果。
收银员的英语1.2.2 最短距离法与最长距离法
如果使用最短距离法来测量类与类之间的距离,即称其为系统聚类法中的最短距离法(又称最近邻法),最先由Florek 等人1951年和Sneath1957年引入。下面举例说明最短距离法的计算步骤。
例1 设有5个销售员54321,,,,w w w w w ,他们的销售业绩由二维变量),(21v v 描述,见表1。
表1 销售员业绩表 销售员 1v (销售量)百件 2v (回收款项)万元
1w
1 0 2w 1 1
3w 3 2
4w 4 3
5w
2 5
记销售员)5,4,3,2,1(=i w i 的销售业绩为),(21i i v v 。如果使用绝对值距离来测量点与点之间的距离,使用最短距离法来测量类与类之间的距离,即
∑=−=2
1),(k jk ik j i v v w w d ,)},({min ),(j i G w G w q p w w d G G D q j p i ∈∈=