聚类分析
(一)聚类分析基本概念
(1)有若干个变量(或指标),例3-1的2个变量是样本均值和样本标准差;例3-2的变量是对式样、图案、颜色、材料的态度;例3-3的变量是销售增长、销售利润和新客户销售额;例3-4的变量是出生率、死亡率和婴儿死亡率;…。这些变量称为自变量或聚类变量。
(2)有若干次观测,每次观测值由若干个数值组成,每次观测值称为1个个体或1个样品:例3-1其观测次数共有4次(甲、乙、丙、丁),其观测值都是2个值组成:第1次观测(第1个样品)是向量 ,第2麦片粥次观测(第2个样品)是 ,……。例3-2有5次观测(5位顾客),每人4项指标;例3-3、3-4、3-5,的变量各有50、97、39次观测值;而例3-6将许多次原始观测整理为协方差阵,并未提供原始观测数据。
(3)要求分类(或分组):例3-3、3-4要求把观测值分为3类,而例3-1和例3-2则不限定观测值分为几类;例3-1、3-2、3-3、3-4要求按观测值分类,而例3-5,3-6要求按变量分类。因为是把大量的样品变为少量的类,通常这种分类称为聚类。
(二) 聚类原理
1)聚类原则
选定观测值(点)间距离,类间距离,按照距离最近两类合并在一起的原则合并。(也有用相似远离)。常用聚类方法分为:(1)系统聚类MINITAB译为观测值聚类(得到谱系图或树状图)(2)动态聚类MINITAB译为K均值聚类。可由统计>多变量>观测值聚类,统计>多变量>K均值聚类分别进入。
2)常用点间距离(距离度量)
有时先把数据标准化再聚类以免单位影响,例如x1观测值3,2,1,0,-1;x2取值30,20,10,0,-10。X1均值1,样本标准差;将x1观测值减去平均值1,除以,得到,,,,;,,,,是3,2,1,0,-1的标准化。X2标准化后也得到,,,,。标准化后的数与单位无关。
系统聚类从“统计>十里红妆女儿梦多变量>观测值聚类”进入观测值聚类框;点间距离,类间距离根据情况选取。动态聚类从“统计>多变量>K均值聚类”进入K均值聚类框;点间距离固定为Euclidean,
类间距离固定为质心法,无需再选取。
(1)欧氏距离
欧氏(Euclidean)距离定义为:
, (3-2)
欧氏距离是聚类分析中使用最广泛的距离,上式也称为简单欧氏距离。另一种常用的形式是平方欧氏距离,即取上式的平方,记为。平方欧氏距离的优点是,因为不再计算平方根,不仅理论上简单,而且提高了计算机的运算速度。
(2)Pearson距离
欧氏距离虽然使用最为广泛,但是该距离是有量纲的,而且它与各变量的量纲有关,因而从数值上说,各维之间可能因单位而相差悬殊;也没有考虑各变量方差的不同。从欧氏距离的定义中易见,方差大的变量在距离中的作用(贡献)就会大。为此我们引入了Pearso
n距离的概念。
, (3-3)
其中是第个变量的方差。这个距离考虑到了各个变量的不同标准差,但未考虑各变量间可能存在的相关。对上式取平方,就得到Pearson平方距离。
(3)绝对值距离(又称为Manhattan distance)
绝对值距离定义为:
, (3-4)
绝对值距离是一个应用很广泛的距离,它具有稳健性:野点的影响较小。平方绝对值距离是对上式取平方。
(4)马氏距离(Mahalanobis distance)
欧氏距离、Pearson距离和绝对值距离都没有考虑变量间的相关性:当变量之间不相关时效果较好,如果变量之间相关,则聚类结果往往不够好,为此考虑马氏距离。
设样本方差阵为,设是2个样品所成向量。则的马氏距离是
(3-5)
有时为了避免开平方,称为平方马氏距离。严格地说,由于样品属于多个类,计算样本总协方差阵应当按第2章式(2-3)即各样本协方差阵的加权平均计算,但由于聚类过程结束前,真正分类无法知道,通常按(3-5)计算,即按全体样本合为1类计算样本协方差阵。马氏距离的优点是能消除变量间的相关性带来的不利影响。
(5)配合距离
以上几种距离的定义均要求变量是连续型的,如果使用的变量是有序尺度或名义尺度变量,则也要有相应的一些定义距离的方法。下例说明如何对一类向量定义距离:这类向量的分量为名义尺度变量。
设有两个向量:
,
它们的5个分量均为名义尺度变量:第1个分量分别取值和,称第1一千克是几斤个变量值不配合;第2个分量分别取值和,称第2个变量值不配合;第3个分量取相同值,第4个分量取相同值,第5个分量取相同值,称第3,4,5个分量值配合。定义两个向量之间的配合距离为2/(2+3)。
一般的,设为两个向量样品配合的分量数,为不配合的分量数,则可定义两个样品之间的配合距离为:
例3-2中5名顾客
表5民国成立名顾客对某服装的看法表
顾客 | 式样 | 图案 | 颜色 | 材料 |
1 | 0 | 1 | 0 | 1 |
2 | 1 | 1 | 1 | 1 |
3 | 1 | 1 | 0 | 0 |
4 | 1 | 0 | 1 | 1 |
5 | 1 | 0 | 1 | 0 |
| | | | |
例3-2中5名顾客间的不配合数(看法不同处)形成矩阵,列在表3-3中。
表3-3例3-2不配合数矩阵
| 顾客1 | 顾客2 | 顾客3 | 顾客4 | 顾客5 |
顾客1 | 0 | 2 | 2 | 3 | 4 |
顾客2 | 2 | 0 | 2 | 1 | 2 |
顾客3 | 2 | 2 | 0 | 3 | 2 |
顾客4 | 3 | 1 | 有没有那么一首歌会让你想起我3 | 0 | 1 |
顾客5 | 4 | 2 | 2 | 1 | 0 |
| | | | | |
因为例3-2配合数与不配合数之和总和为4。所以例3-2顾客间的配合距离矩阵如表3-4
所示(原始数据在表3-2,数据文件:MV_服装顾客.MTW)
表3-4 例3-2配合距离矩阵
| 顾客1 | 顾客2 | 顾客3 | 顾客4 | 顾客5 |
顾客1 | 0 | | | | 1 |
顾客2 | | 0 | | | |
顾客打快板3 | | | 0 | | | 香柏年
顾客4 | | | | 0 | |
顾客5 | 1 | | | | 0 |
| | | | | |
3)常用类间距离(联接法)
(1)最短距离法(SINgle linkage)
定义类与类之间的距离为两类内最近样品间的距离,即
(这里表示,以下同) (3-13)
称这种系统聚类法为最短距离法。
(2)最长距离法(COMplete method)
类与类之间的距离定义为两类内相距最远的样品间的距离,即:
(3-14)
称这种系统聚类法为最长距离法。
(3) 中间距离法(MEDian method)
如果类与类之间的距离既不采用两类内样品间的最近距离,也不采用两类内样品间的最远距离,而是采用类似于三角形中线公式的计算类之间的距离方法,这种方法称为中间距离法(应当译为中线法)。
当某步骤类和合并成后,按中间距离法计算新类与其它类的类间距离,其递推公式为
, (3-15)
常取。
(4 )重心法或质心法(Centroid method)
每一类的重心就是属于该类的所有样品的均值向量。将两类间的距离定义为两类重心间的距离,这种距离方法称为重心法。重心法一般采用欧氏距离定义样品间的距离。
重心法比其它系统聚类方法考虑得更全面。其主要缺点是在聚类过程中,不能保证合并的类之间的距离值呈单调增加的趋势,也即本次合并的两类之间的距离可能小于上一次合并
的两类之间的距离,在树状图上会出现图形逆转;也不能保证相似性水平呈单调减少的趋势。
(5) 类平均法(AVErage linkage四个月宝宝)
类平均法有两种定义,一种定义方法是把类与类之间的距离定义为所有样品对之间的平均距离,即
, (3-16)
其中分别为类和类的样品个数。简称为平均法。
另一种定义方法为定义类与类之间的平方距离为样品对之间平方距离的平均值,即
(3-17)
MINTTAB中使用的是第一种距离定义方法(3-16)来进行类平均聚类。
(6) 离差平方和法(WARD)
假设已经将个样品分为类,表示的重心,表示中第个样品,则中样品的离差平方和为:
, (3-18)
其中为维向量,为一数值,代表类内的分散程度。
个类的总离差平方和为:
(3-19)
它们反映了各类内样品的分散程度的总和。设某一步将类和合并成,而、和类中样品的离差平方和分别为、和。如果和这两类相距较近,则合并之后所增加的离差平方和应较小;否则,应较大。于是我们定义和之间的平方距离为:
(3-20)
按照这种原则实施系统聚类的方称为法称为离差平方和法或Ward方法。可以验证,定义(3-20)满足通常定义距离所需的三个条件(见3.2.2.1)。