判别分析

更新时间:2023-06-13 18:28:40 阅读: 评论:0

实验二  判别分析
              名:         张杨       
              号:       2014962001     
              级:         2014       
              业:         统计学       
          课程名称:       多元统计分析   
          指导教师:         范英兵       
          完成日期:       2016-09-30      
1.实验目的:
掌握判别分析方法的思想、判别分析步骤及判别结果分析。
2.实验内容
1)自选数据或者使用例题4-14-2数据完成判别分析。
2)对判别分析结果进行分析。
3)选定两个样本,对样本进行分类。
3.实验步骤
(一)
定义新的变量y为被解释变量,用“1”代表Setosa鸢尾花,用“2”代表Versicolour鸢尾花,用“3”代表Virginica鸢尾花,将萼片长(pal length)、萼片宽(pal width)、花瓣长(petal length)和花瓣宽(petal width)四个变量作为解释变量。
使用SPSS软件中的分析→分类→判别,就进入了判别分析的对话框。分组变量选择y,然后定义的区域,最小值是1,最大值是3。解释变量选择pal.lengthpal.widthpetal.lengthpetal.width
统计量(Statistics)选项中选择描述统计量均值,单变量ANOVABoxM ,函数选择Fisher和非标准化函数,矩阵选择组内相关。分类选项中选择先验概率(所有组相等或根据组的大小计算概率),因为三个品种的都是50种,因此两种选择的效果一样,子选项显示(display)中选择每个个体的结果,综合表和“留一个在外”的验证原则,协方差矩阵选择组内,作图选择合并组。
保存(Save)选项中可以选择预测的分类、判别得分以及所属类别的概率。如果采用逐步判别法,我们还可以选择判别的方法。得到分析结果如下:
4.实验结果(或心得体会)
1-1
群組統計資料
被解释变量
平均數
標準偏差
有效的 N (listwi)
未加權
加權
Setosa 鸢尾花
萼片长
5.0060
.35249
50
50.000
萼片宽
3.4280
.37906
50
50.000
花瓣长
1.4620
.17366
50
50.000
花瓣宽
.2460
.10539
50
50.000
Versico-lor 鸢尾花
萼片长
5.9360
.51617
50
50.000
萼片宽
2.7700
.31380
50
50.000
花瓣长
4.2600
.46991
50
50.000
花瓣宽
1.3260
.19775
50
50.000
Virginica 鸢尾花
萼片长
6.5880
.63588创业的艰辛感悟
50
50.000
萼片宽
2.9740
.32250
50
50.000
花瓣长
5.5520
.55189
50
50.000
花瓣宽
2.0260
.27465
50
50.000
總計
萼片长
5.8433
.82807
150
150.000
萼片宽
3.0573
.43587
150
150.000
花瓣长
3.7580
1.76530
150
150.000
花瓣宽
1.1993
.76224
150
150.000
1-2
群組平均值的等式檢定
Wilks' Lambda (λ)
F
df1
df2
顯著性
萼片长
.381
119.265
2
147
.000
萼片宽
.599
49.160
2
147
.000
花瓣长
.059
1180.161
2
147
.000
花瓣宽
.071
960.007
2
147
.000
输出结果表1-1,表1-2分析的是各组的描述统计量和对各组均值是否相等的检验。表1-1是各组变量的描述统计分析。表1-2是对各组均值是否相等的检验。可以看出,在0.01的显著性水平上我们拒绝变量萼片长(pal length)、萼片宽(pal width)、花瓣长(petal length)和花瓣宽(petal width)在三组的均值相等的假设,即认为变量萼片长(pal length)、萼片宽(pal width)、花瓣长(petal length)和花瓣宽(petal width)在三组的均值是有显著性差异的。
1-3
對數行列式
被解释变量
等級
對數行列式
Setosa 鸢尾花
4
-13.067
Versico-lor 鸢尾花
4
-10.874
Virginica 鸢尾花
4
-8.927
聯合組內
4
-9.959
列印的行列式等級及自然對數是群組共變異數矩陣的等級及自然對數。
1-4
測試結果
Box's M 共變異等式檢定
146.663
F
近似值
7.045
df1
20
df2
77566.751
顯著性
.000
檢定相等母體共變異數矩陣的虛無假設。
     
输出结果表1-3,表1-4是对各组协方差矩阵是否相等的BoxM检验。表1-3反映协方差矩阵的秩和行列式的对数值。由行列式值可以看出协方差矩阵不是病态矩阵。表1-4是对各总体协方差阵是否相等的统计检验。由值及其显著水平,我们在0.05的显著性水平下拒绝原假设(原假设假定各总体协方差阵相等)。因此,在分类(Classify)选项中的协方差矩阵选择可以考虑采用Separate-groups,以检验采用组内(Within-groups)和Separate-groups两种协方差所得出的结果是否存在显著差异。如果存在显著差异就应该采用Separate-groups协方差矩阵,反之,就用Within-groups协方差矩阵。
1-5
特徵值
函數
特徵值
變異的 %
累加 %
典型相關性
1
32.192a
99.1
99.1
.985
2
.285a
.9
100.0
.471
a. 2 個典型區別函數用於分析。
1-6
Wilks' Lambda (λ)
函數的檢定
Wilks' Lambda (λ)
卡方
df
顯著性
1 2
.023
546.115
8
.000
2
.778
36.530
3
.000
输出结果表1-5,表1-6分析的是典型判别函数。表1-5反映判别函数的特征值、解释方差的比例和典型相关系数。第一判别函数解释了99.1%的方差,第二判别函数解释了0.9%的方差,两个判别函数解释了全部方差。第2张表是对两个判别函数的显著性检验。由Wilks Lambda检验,认为两个判别函数在0.05的显著性水平上是显著的。
1-7
標準化典型區別函數係數
函數
1
2
萼片长
-.427
.012
萼片宽
-.521
.735
花瓣长
.947
-.401
花瓣宽
.575
.581
-8
結構矩陣
函數
1
2
花瓣长
.706*
.168
萼片宽
-.119
.864*
花瓣宽
.633
.737*
萼片长
.223
.311*
區別變數與標準化典型區別函數之間的聯合組內相關性
依函數內相關性絕對大小排序的變數。
*. 每一個變數與任何區別函數之間最大的絕對相關性
1-9
典型區別函數係數
函數
1
2
萼片长
-.829
.024
萼片宽
-1.534
2.165
花瓣长
2.201
-.932
花瓣宽
2.810
2.839
(常數)
-2.105
-6.661
非標準化係數
1-10
群組重心的函數
被解释变量
函數
1
2
Setosa 鸢尾花
-7.608
.215
Versico-lor 鸢尾花
1.825
-.728
Virginica 鸢尾花
5.783
.513
以群組平均值求值的非標準化典型區別函數
输出结果表1-7,1-8,1-9,1-10显示的是判别函数、判别载荷和各组的重心。表1-7是标准化的判别函数,表示为:
这里表示标准化变量,标准化变量的系数也就是前面讲的判别权重。表1-8是结构矩阵,即判别载荷。由判别权重和判别载荷可以看出两个解释变量对判别函数的贡献较大。
1-9是非标准化的判别函数,表示为
我们可以根据这个判别函数计算每个观测的判别Z得分。表1-10是反映判别函数在各组的重心。根据结果,判别函数在这一组的重心为(-7.6080.215),在这一组的重心为(1.825-0.728),在这一组的重心为(5.7830.513)。这样,我们就可以根据每个观测的判别Z得分将观测进行分类。
1-11
分類處理摘要
已處理
150
已排除
遺漏或超出範圍群組代碼
0
至少一個遺漏識別變數
0
已在輸出中使用
150
1-12
群組的事前機率
被解释变量
在前
分析中使用的觀察值
未加權
加權
Setosa 鸢尾花
.333
50
50.000
Versico-lor 鸢尾花
.333
50
50.000
Virginica 鸢尾花
.333
50
50.000
總計
1.000
150
150.000
1-13
分類函數係數
被解释变量
Setosa 鸢尾花
Versico-lor 鸢尾花
Virginica 鸢尾花
萼片长
23.544
15.698
12.446
萼片宽
23.588
7.073
3.685
花瓣长
-16.431
5.211
12.767
花瓣宽
-17.398
6.434
21.079
(常數)
-86.308
-72.853
-104.368
費雪 (Fisher) 線性區別函數
1-14
分類結果a,c
被解释变量
預測的群組成員資格
總計
Setosa 鸢尾花
Versico-lor 鸢尾花
Virginica 鸢尾花
原始
計數
Setosa 鸢尾花
50
0
0
50
Versico-lor 鸢尾花
0
48
2
50
Virginica 鸢尾花
0
1
49
50
%
Setosa 鸢尾花
100.0
.0
.0
100.0
Versico-lor 鸢尾花
.0
96.0
4.0
100.0
Virginica 鸢尾花
.0
2.0
98.0
100.0
交叉驗證b
計數
Setosa 鸢尾花
50
0
0
50
Versico-lor 鸢尾花
0
48
2
50
Virginica 鸢尾花
0
1
49
50
%
Setosa 鸢尾花
100.0
.0
.0
100.0
Versico-lor 鸢尾花
.0
96.0
4.0
100.0
Virginica 鸢尾花
.0
2.0
98.0
100.0
a. 98.0% 個原始分組觀察值已正確地分類。
b. 僅會針對分析中的那些觀察值進行交叉驗證。在交叉驗證中,每一個觀察值都會依據從該觀察值之外的所有觀察值衍生的函數進行分類。
c. 98.0% 個交叉驗證已分組觀察值已正確地分類。
1-1
输出结果表1-11,至表1-14是分类的统计结果。表1-11概括了分类过程,说明150个观测都参与分类。表1-12说明各组的先验概率,我们在分类(Classify)选项中选择的是所有组的先验概率相等。表1-13是每组的分类函数(区别于判别函数),也称费歇线性判别函数,由表中的结果可以说明,
这一组的分类函数是
这组的分类函数是
这组的分类函数是
我们可以计算出每个观测在各组的分类函数值,然后将观测分类到较大的分类函数值中。表1-14是分类矩阵表。预测的群组成员资格(Predicted Group Membership)表示预测的所属组关系,原始(Original)表示原始数据的所属组关系,交叉验证(Cross-validated)表示交叉验证的所属组关系,这里交叉验证是采用“留一个在外”的原则,即每个观测是通过除了这个观测以外的其他观测推导出来的判别函数来分类的。由第4张表可以看出,通过判别函数预测,有147个观测是分类正确的,其中,50个观测全部被判对,50个观测中有48个观测被判对,50个观测中有49个观测被判对,从而有147/150=98%的原始观测被判对。在交叉验证中,50个观测全部被判对,50个观测中有48个观测被判对,50个观测中有49个观测被判对,从而交叉验证有147/150=98%的原始观测被判对。还可以通过分类结果分析判对和判错的百分比。图1-1中可以看到,Setosa鸢尾花与Versicolour鸢尾花和Virginica鸢尾花可以很清晰的区分开,而Versicolour鸢尾花和Virginica鸢尾花这两种之间存在重合区域,即存在误判。
我们还可以通过保存(Save)选项选择预测的类别关系和判别得分等,对观测进行诊断。
由前面分析我们发现,协方差矩阵不等,可以考虑采用Separate-groups协方差矩阵,选择Separate-groups协方差矩阵,其他选择同上,得分类结果表如下:
1-15
分類結果a,c
被解释变量
預測的群組成員資格
總計
Setosa 鸢尾花
Versico-lor 鸢尾花
Virginica 鸢尾花
原始
計數
Setosa 鸢尾花
50
0
0
50
Versico-lor 鸢尾花
0
48
2
50
Virginica 鸢尾花
0
1
49
50
%
Setosa 鸢尾花
100.0
.0
.0
100.0
Versico-lor 鸢尾花
.0
96.0
4.0
100.0
Virginica 鸢尾花
.0
2.0
98.0
100.0
交叉驗證b
計數
Setosa 鸢尾花
50
0
0
我喜欢画画用英语怎么说
50
Versico-lor 鸢尾花
0
48
2
50
Virginica 鸢尾花
0
1
49
50
%
Setosa 鸢尾花
100.0三七粉功效和作用
.0
.0
100.0
Versico-lor 鸢尾花
.0
96.0
4.0
100.0
Virginica 鸢尾花
.0
2.0
98.0
100.0
a. 98.0% 個原始分組觀察值已正確地分類。
b. 僅會針對分析中的那些觀察值進行交叉驗證。在交叉驗證中,每一個觀察值都會依據從該觀察值之外的所有觀察值衍生的函數進行分類。
c. 98.0% 個交叉驗證已分組觀察值已正確地分類。
1-2
由第表1-15可以看出,通过判别函数预测,有146个观测是分类正确的,其中,50个观测全部被判对,50个观测中有47个观测被判对,50个观测中有49个观测被判对,从而有146/150=97.3%的原始观测被判对。图1-2为分类结果图,从图中可以看到,Setosa鸢尾花与Versicolour鸢尾花和Virginica鸢尾花可以很清晰的区分开,而Versicolour鸢尾花和Virginica鸢尾花这两种之间存在重合区域,即存在误判。
综上可以看出,采用Separate-groups协方差矩阵与采用Within-groups协方差矩阵的预测效果没有明显的差别,因此,可以采用Within-groups协方差矩阵来进行判别。
(二)
实验数据如下:
2-1
如图2-1,为了研究2008年全国各地区城镇居民家庭人均消费支出情况,按人均收入、人均GDP以及消费支出将29个省、市、自治区(除天津和陕西以外)分为三种类型,设置group变量取值分别为123 X1人均食品支出  (元/人),x2人均衣着支出(元/人),x3人均住房支出 (元/人)  ,x4人均家庭设备及服务支出(元/人),x5人均交通和通信支出(元/人),x6人均文教娱乐用品及服务支出(元/人),x7人均医疗保健支出(元/人),x8其他商品及服务支出(元/人)。
2-1
群組平均值的等式檢定
Wilks' Lambda (λ)
F
df1
df2
顯著性
人均食品支出
.269
38.024
2
28
.000
人均衣着支出
.732
5.128
2
28
.013
人均住房支出
.535
12.164
2
28
.000
人均家庭设备及服务支出
.447
17.306
2
28
.000
人均交通和通信支出
.587
9.846
2
28
.001
人均文教娱乐用品及服务支出
.351
25.845
2
28
.000
人均医疗保健支出
.268
38.253
2
28
.000
输出结果表2-1,是各组变量的描述统计分析。表2-2是对各组均值是否相等的检验。可以看出,在0.05的显著性水平上我们拒绝变量X1人均食品支出,x2人均衣着支出,x3人均住房支出,x4人均家庭设备及服务支出,x5人均交通和通信支出,x6人均文教娱乐用品及服务支出,x7人均医疗保健支出,x8其他商品及服务支出在三组的均值相等的假设,即认为变量X1人均食品支出,x2人均衣着支出,x3人均住房支出,x4人均家庭设备及服务支出,x5人均交通和通信支出,x6人均文教娱乐用品及服务支出,x7人均医疗保健支出,x8其他商品及服务支出在三组的均值是有显著性差异的
2-2
聯合組內矩陣
x1
x2
x3
x4
x5
x6
x7
x8
相關
x1
1.000
.187
.503
.305
-.024
.841
.549
.740
x2
.187
1.000
.128
.387
.517
.213
.540
.452
x3
.503
.128
1.000
.504
.253
.662
.627
.423
x4
.305
.387
.504
1.000
.439
.425
.780
.546
x5
-.024
.517
.253
.439
1.000
-.003
.396
.106
x6
.841
.213
.662
.425
-.003
1.000
.651
.676
x7
.549
.540
.627
.780
.396
.651
1.000
.653
x8
.740
.452
.423
.546
.106
.676
.653
1.000
2-3
對數行列式
Group
等級
對數行列式
1
.a
.b
2
8
77.652
3
8
69.501
聯合組內
8
80.469
列印的行列式等級及自然對數是群組共變異數矩陣的等級及自然對數。
a. 等級 < 5
b. 作為非單數的觀察值太少
2-4
測試結果a
Box's M 共變異等式檢定
172.887
F
近似值
2.837
df1
36
df2
1524.161
顯著性
.000
檢定相等母體共變異數矩陣的虛無假設。
a. 部分共變異數矩陣是單數,且普通程序不會運作。非單數群組將根據它們自己的聯合組內共變異數矩陣進行檢定。它的行列式對數為 81.805
输出结果表2-2,表2-3,表2-4是对各组协方差矩阵是否相等的BoxM检验。第1张表反映协方差矩阵的秩和行列式的对数值。由行列式值可以看出协方差矩阵不是病态矩阵。第2张表是对各总体协方差阵是否相等的统计检验。由值及其显著水平,我们在0.05的显著性水平下拒绝原假设(原假设假定各总体协方差阵相等)。因此,在分类(Classify)选项中的协方差矩阵选择可以考虑采用Separate-groups,以检验采用Within-groupsSeparate-groups两种协方差所得出的结果是否存在显著差异。如果存在显著差异就应该采用Separate-groups协方差矩阵,反之,就用Within-groups协方差矩阵。
2-5
特徵值
函數
特徵值
變異的 %
累加 %
典型相關性
1
6.260a
68.8
68.8
.929
2
2.840a
31.2
100.0
.860
a. 2 個典型區別函數用於分析。
2-6
Wilks' Lambda (λ)
函數的檢定
Wilks' Lambda (λ)
卡方
df
顯著性
1 2
.036
74.876
16
.000
2
.260
30.273
7
.000
输出结果表2-5,表2-6分析的是典型判别函数。第1张表反映判别函数的特征值、解释方差的比例和典型相关系数。第一判别函数解释了68.6%的方差,第二判别函数解释了31.2%的方差,两个判别函数解释了全部方差。第2张表是对两个判别函数的显著性检验。由Wilks Lambda检验,认为两个判别函数在0.05的显著性水平上是显著的。
2-7
標準化典型區別函數係數
函數
1
2
人均食品支出
.909
-1.213
人均衣着支出
-.601
.221
人均住房支出
-.336
.246
人均家庭设备及服务支出
-.139
-.668
人均交通和通信支出
.462
.501
人均文教娱乐用品及服务支出
-.352
1.123
人均医疗保健支出
.961
.421
2-8
結構矩陣
函數
1
2
人均食品支出
.750*
-.162
人均医疗保健支出
.726*
.420
人均文教娱乐用品及服务支出
.611*
.223
人均家庭设备及服务支出
.502*
.162
人均交通和通信支出
.257
.564*
人均衣着支出
.145
.467*
人均住房支出
.374
.404*
*. 每一個變數與任何區別函數之間最大的絕對相關性
2-9
悄然造句
典型區別函數係數
函數
1
2
人均食品支出
.002
-.002
人均衣着支出
-.003
.001
人均住房支出
-.002
.001
人均家庭设备及服务支出
-.001
-.005
人均交通和通信支出
.002
.003
人均文教娱乐用品及服务支出
-.001
.003
人均医疗保健支出
.003
.002
(常數)
-6.483
2.625
非標準化係數
2-10
群組重心的函數
Group
函數
1
2
1
4.650
1.553
2
.095
-1.769
3
-2.226
1.385
以群組平均值求值的非標準化典型區別函數
输出结果表2-7至表2-10显示的是判别函数、判别载荷和各组的重心。第1张表是标准化的判别函数,表示为
这里表示标准化变量,标准化变量的系数也就是前面讲的判别权重。第2张表是结构矩阵,即判别载荷。由判别权重和判别载荷可以看出两个解释变量对判别函数的贡献较大。第3张表是非标准化的判别函数,表示为:
我们可以根据这个判别函数计算每个观测的判别Z得分。第4张表是反映判别函数在各组的重心。根据结果,判别函数在这一组的重心为(4.6051.553),在这一组的重心为(0.095-1.769),在这一组的重心为(-2.2261.385)。这样,我们就可以根据每个观测的判别Z得分将观测进行分类。
2-11
分類處理摘要
已處理
32
已排除
遺漏或超出範圍群組代碼
0
至少一個遺漏識別變數
1
已在輸出中使用
31
2-12
群組的事前機率
Group
在前
分析中使用的觀察值
未加權
加權
1
.333
后背痒是怎么回事
5
5.000
2
.333
13
13.000
3
.333
11
11.000
總計
1.000
29
29.000
2-13
分類結果a,c
Group
預測的群組成員資格
總計
1
2
3
原始
計數
1
6
0
0
6
2
0
13
1
14
3
0
2
9
11
%
1
100.0
.0
.0
100.0
2
.0
92.9
7.1
100.0
3
.0
18.2
81.8
100.0
交叉驗證b
計數
1
4
2
0
6
2
0
12
2
14
3
0
2
9
11
%
1
66.7
33.3
看逼片.0
100.0
2
.0
85.7
14.3
100.0
3
.0
18.2
81.8
100.0
a. 90.3% 個原始分組觀察值已正確地分類。
b. 僅會針對分析中的那些觀察值進行交叉驗證。在交叉驗證中,每一個觀察值都會依據從該觀察值之外的所有觀察值衍生的函數進行分類。
c. 80.6% 個交叉驗證已分組觀察值已正確地分類。
2-14
分類函數係數
Group
1
2
3
人均食品支出
.042
.038
.031
人均衣着支出
.014
.025
.031
人均住房支出
.021
.026
.031
人均家庭设备及服务支出
.023
.036
.027
人均交通和通信支出
.014
-.002
.001
人均文教娱乐用品及服务支出
-.044
-.046
-.038
人均医疗保健支出
.002
-.016
-.018
(常數)
-111.851
-80.616
-66.895
費雪 (Fisher) 線性區別函數
2-2
输出结果表2-11至表2-14是分类的统计结果。第1张表概括了分类过程,说明32个观测都参与分类。第2张表说明各组的先验概率,我们在Classify选项中选择的是所有组的先验概率相等。第4张表是每组的分类函数(区别于判别函数),也称费歇线性判别函数,由表中的结果可以说明,
这一组的分类函数是
这组的分类函数是
这组的分类函数是
我们可以计算出每个观测在各组的分类函数值,然后将观测分类到较大的分类函数值中。第3张表是分类矩阵表。这里交叉验证是依然采用“留一个在外”的原则,即每个观测是通过除了这个观测以外的其他观测推导出来的判别函数来分类的。由第3张表可以看出,通过判别函数预测,有29个观测是分类正确的,其中,6个观测全部被判对,15个观测中有13个观测被判对,10个观测中有9个观测被判对,从而有29/30=96.7%的原始观测被判对。在交叉验证中,4个观测全部被判对,16个观测中有12个观测被判对,11个观测中有9个观测被判对,从而交叉验证有25/32=78.13%的原始观测被判对。还可以通过分类结果分析判对和判错的百分比。图为分类结果图,从图中可以看到,1组,2组,3组可以很清晰的区分开。
5.指导教师点评(总分100分,所列分值仅供参考,以下部分打印时不可以断页)
实验内容
出色完成湖南粉蒸肉30
良好完成25
基本完成20
部分完成15
初步完成5
实验步骤
精益求精30
比较完善25
合乎要求20
缺少步骤15
少重要步骤5
实验结论
(心得体会下风口)
分析透彻20
分析合理17
合乎要求14
结论单薄8
难圆其说4
工作态度
勇于探索20
能够务实17
中规中矩14
华而不实8
态度不端正0
 
有抄袭剽窃行为则实验成绩记为零分,并且严重警告!!
教师签字:                          日期:                 
注:验证性实验仅上交电子文档,设计性试验需要同时上交电子与纸质文档进行备份存档。

本文发布于:2023-06-13 18:28:40,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/89/1036951.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:支出   判别函数   分类   矩阵   变量
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图