第一章多元正态分布的参数估计
一、填空题
1.设X、Y为两个随机向量,对一切的"、V,有_____________________________________,则称X
与丫相互独立。
2.多元分析处理的数据一般都属于_______________数据。
3.多元正态向量X=(X|,…,Xp)'的协方差阵》是______________,则X的各分量是相互独立
的随机变量。
4.一个卩元函数能作为中某个随机向量的密度函数的主要条件是
和___________________________________O
5.____________________________________________________________________若p个随机
变量A;,X?,…,匚的联合分布等于_____________________________________________,则称X】,
X’,…,X。是相互独立的。
6.多元正态分布的任何边缘分布为________________________o
7.若X〜N」",》),A为sxp阶常数阵,d为s维常数向量,贝ijAX+c/〜________________。
8.多元正态向量X的任何一个分量子集的分布称为X的______________________o
9._____________________________________________________多元样本中,不同样品的观测
值之间一定是__________________________________________________。
10.______________________________________________________________多元正态总体均
值向量和协差阵的极大似然估计量分别是_____________________________________。
11.多元正态总体均值向量“和协差阵》的估计量产、丄S具有_____________________________、
/7-1
和___________________O
12.设乂和S分别是多元正态总体的样本均值向量和离差阵,则
乂〜____________,乂和S___________O
13.若X®)〜Np(“J),a=l,2,…/且相互独立,则样本离差阵
14.若S,〜W”仇.工),心1,…人且相互独立,则S=5+£+・・・+£〜
二、判断题
1•多元分布函数尸(X)是单调不减函数,而且是右连续的。
2•设X是〃维随机向量,则X服从多元正态分布的充要条件是:它的任何组合afX(aeRp)都是一元正态分布。
3•〃是一个P维的均值向量,当A、E为常数矩阵时,具有如卞性质:
4.若P个随机变量X“…Xp的联合分布等于各自边缘分布的乘枳,则称X】,…Xp是相互独立的。
5.一般情况下,对任何随机向量x=(x,•…,X.j,协差阵》是对称阵,也是正定阵。
6.多元正态向量x=(x,…,Xpj的任意线性变换仍然服从多元正态分布。
7.多元正态分布的任何边缘人布为正态分布,反之一样。
8.多元样本中,不同样品之间的观测值一定是相互独立的。
9.多元正态总体参数均值“的估计量乂具有无偏性、有效性和一致性。
10・丄S是》的无偏估计。
n
t分布是力'分布在〃维正态情况下的推广。
S=£(X(a)-^X
a=l
(1)E(AX)=AE(X)(2)E(AXB)=AE(X)B
1/1812・若Xg〜NMQ,&=1,…/,且相互独立,则样本离差阵S=£(Xg—乂Xx(a)-乂j〜—1,艺)
a=l
13.若X~WpS,Z),C为奇异矩阵,则CXC'~WpS,c2>')
三、简答题
1.多元正态分布有哪些基本性质?
2.均值向量和协差阵的最人似然估计量有哪些优良性质?
3.维希特分布有哪些基本性质?
4•试述多元联合分布和边缘分布之间在关系。
四、证明题
1•样本均值向量和离差阵也可以用样本资料X直接表示如下:
-1(1A
X=_X'l”,S=X'In—lnvnX
门I"丿
rio_
其中:…,i)‘,/=
01
试分别给以证明。
五、计算题
1.己知随机向量x=(x】,xj的联合分布密度函数为
r(YY2[(d_cX兀_j+0-QXN_C)_2g_dXw-C)]
'2)(b-a)2(b-c)2
其中,。<毎
(1)随机变量X」和X,各自的边缘密度函数、均值与方差;
⑵随机变量X】和X,的协方差和相关系数;
(3)判断和X,是否相互独立。
第二章多元正态分布均值向量和协差阵的检验
一、填空题
1.在一个正态总体均值向量的假设检验中,在龙已知的情况卞,构造的检验统计量
为__________________________________,服从_________________________分布;在2未知的情
况下,构造的检验统计量为________________________________________________________.服从
分布。
2.若X~N於正),S~WpS,D,且X与S相互独立,令T‘"X'S-'X,则
3.____________________________________________________________在两个正态总体均值向量
的假设检验中,假定其协差阵无相等,则在》已知的情况下,构造的统计量为_______•服从的分布
为_______________________________:在》未知的情况下,构造的检验统计量
为__________________________________,服从的分布为____________________o
二、判断题
1.设x〜s〜叫(“工),“n”,则称统计量T—XXX的分布为非中心HotellingT2分布,记为尸〜尸
(从儿“)。
2.在协差阵龙未知的情况卞对均值向量进行检验,需要用样本协差阵丄S去代替》。
n
ingT2分布是一元统计分布中t分布的推广。
三、简答题
2/18
1.试述多元统计分析中的各种均值向量和协差阵检验的基本思想和步骤。
2.试述多元统计分析中HotellingT1分布和一元统计中t分布的关系。
第三章主成分分析
一、填空题
1.主成分分析就是设法将原来众多具有一定相关性的指标,重新
组合成一组新的_ffi互无关的综合指标来代替原来指标。
2.主成分分析的数学模型可简写为_________________________,该模型的系数要求在诸
主成分Yi(i=l,2,…,m)上的载荷aij(i二1,2,…,m:j二1,2,…,p)___。
3.主成分分析中,利用方差的大小来寻找主成分。
4.第k个主成分儿的贡献率为_____________-,前k个主成分的累积贡献率为
XX
SA—°
f=l
5.确定主成分个数时,累枳贡献率一般应达到85-95%,在spss中,系统默认为取特征根人于1的个数。
6.主成分的协方差矩阵为___________矩阵。
7.原始变量协方差矩阵的特征根的统计含义是____________________o
8.原始数据经过标准化处理,转化为均值为方差为「-的标准值,且其__________________________
矩阵与相关系数矩阵相等。
9.在经济指标综合评价中,应用主成分分析法,则评价函数中的权数为_______________。
中主成分分析采用________________命令过程。
二、判断题
1.主成分分析就是设法将原来众多具有一定相关性的指标,重新组合成一组新的相互无关
的综合指标来代替原来指标。()
2.主成分y的协差阵为对角矩阵。()
3/18
3.兀,兀,©的主成分就是以》的特征向量为系数的一个组合,它们互不相关,其方差为
Z的特征根。()
4.原始变量兀的信息提取率匕("')表示这m个主成分所能够解释第i个原始变量变动的程度。()
5.在spss中,可以直接进行主成分分析。()
6.主成分分析可用于筛选回归变量。()
中选取主成分的方法有两个:一种是根据特征根$1来选取;另一种是按照累积贡
献率285%来选取。()
8.主成分方差的人小说明了该综合指标反映p个原始观测变量综合变动程度的能力的人小。()
9.主成分表达式的系数向量是协方差矩阵5的特征向量。()
10.主成分儿与原始变量兀的相关系数°(儿.,兀)反映了第k个公共因子对第i个原始变量
的解释程度。()
三、简答题
1.简述主成分的概念及几何意义。
2.主成分分析的基本思想是什么?
3.简述主成分分析的计算步骤。
4.主成分有哪些性质?
5.主成分主要应用在哪些方面?
四、计算题
1.假设3个变量“、心和心的协方差矩阵为:
■2
-3
0"
z=
一35
0
002
要求用此协差阵和相应的相关阵对这3个变量进行主成分分析,根据计算结呆说明应选取多
少个主成分以代表原来的3个变量,并说明理由。
2.在一项研究中,测量了376只鸡的骨骼,并利用相关系数矩阵进行主成分分析,见卞表:
Y:Y
3YsYe
头长X1
0.350.530.76-0.05-0.04
0.00
4/18
头宽X20.330.70-0.640.000.00-0.04
肱骨X30.44-0.19-0.050.530.190.59
尺骨X.0.44-0.25-0.020.48-0.15-0.63
股骨X50.13-0.28-0.06-0.51-0.670.48
胫骨X60.44-0.22-0.05-0.48-0.700.15
特征值4.570.710.410.170.080.06
(1)解释6个主成分的实际意义。
(2)计算前三个主成分各自的贡献率和累积贡献率。
(3)对于y4,y5,y6的方差很小这一点,你怎样对实际情况作出推断。
3.假设某商场棉鞋呂、凉鞋心、布鞋心三种商品销售量的协方差矩阵如下:
■1-2
0_
-25
0
002
试求各主成分,并对各主成分的贡献率和各个原始观测变量的信息提取率进行讨论。
4.对某市15个大中型工业企业进行经济效益分析,经研究确定,从有关经济效益指标中选取7
个指标作分析,即固定资产产值率(XI),固定资产利税率(X2),资金利润率(X3),资
金利税率(X4),流动资金周转天数(X5),销售收入利税率(X6)和全员劳动生产率(X7)。数据资料如
下:
企业及编
号
固定资产
产值率XI
固定资产
利税率
(X2)
资金利润
率
(X3)
资金利税
率
(X4)
流动资金周
转天数(X5)
销售收入利
税率
(X6)
全员劳动生
产率
(X7)
康佳电子
1
茂名石化
2
华空空调
3
三星集团
4
数源科技
5
中华电子
6
南方制药
7
中国长城
8
白云制药
9
五羊自行
10
广发卷烟
11
53.25
59.82
46.78
34.39
7532
66.46
6&18
56.13
59.25
52.47
55.76
61.19
50.41
67.95
51.07
16.68
19.70
15.20
7.29
29.45
32.93
25.39
15.05
19.82
21.13
16.75
15.83
16.53
22.24
12.92
18.4
19.2
16.24
4.76
43.68
33.87
27.56
14.21
20.17
26.52
19.23
17.43
20.63
37.00
12.54
26.75
27.56
23.40
8.97
56.49
42.78
37.85
19.49
28.78
35.20
28.72
28.03
29.73
54.59
20.82
55
55
65
62
69
50
63
76
71
62
58
61
69
63
66
31.84
32.94
32.98
21.30
40.74
47.98
33.76
27.21
33.41
39.41
29.62
26.40
32.49
31.05
25.12
1.75
2.87
1.53
1.63
2.14
2.60
2.43
1.75
1.83
1.73
1.52
1.60
1.31
1.57
1.83
5/18
(2)这几个综合变量(主成分)包含有多少原来的信息?
(3)写出这几个综合变量(主成分)的模型。
(4)构造综合评价函数为。
TotalVaiianceExplamed
Component
IiutialEigenvaluesExtractionSumsofSquaredLoadings
Total%ofVaiianceCumulative%Total%ofVarianceCumulative%
14.63566.21966.2194.63566.21966.219
2
1.28518.35884.5771.28518.35884.577
3.587&38992.966
4.3905.57698.542
5.0871.24399.785
6
.013
.182
99.967
7.002.033100.000
ExtractionMethod:PrmcipalComponentAnalysis.
ComponentMatrix(a)
Component
12
固定资产率.888.213
固定资产利税率.984-.028
资金利润率
.943.272
资金利税率.909.315
流动资金周转天数
-.284.833
销售收入利税率.860-.139
全员劳动生产率
.585-.594
ExtractionMethod:PrmcipalComponentAnalysis.
a2componentxtracted・
(1)这个数据的7个变量可以用二个综合变量来表示
(2)前二个成分特征值对应的方差累计占了总方差的84.577%,它们已经代表了原来7个变量绝大部分的
信息。
(3)FhComponent!.2的系数除以届亦、^1-285,得到:
匕=0・888/丁4・653為+0.984/丁4・653兀+0.943/丁4・653呂+……0.585/74.653x7
6/18
Y2=0.213/J1.285"-0.028/VL285X
2
+……-0.594/Jl.285x7
(4)利用选取得二个主成分,以各主成分的方差贡献率作为权数,构造综合评价函数为:
F=66.219%%+18.358%匕
五、证明题
主成分有三个重要性质:⑴尸的协差阵为对角阵A:⑵丈6=土人;
1=1»=1
⑶p(Fk,X)=^^;
试分别加以证明。
第四章因子分析
一、填空题
1•因子分析常用的两种类型为_____________和___________O
2.________因子分析是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现
________________与____________之间的相互关系。
3•因子分析就是通过寻找众多变量的_____________来简化变量中存在的复杂关系的一种
方法。
4.因子分析是把每个原始变量分解成两个部分即_______________、_____________e
5.变量共同度是指因子载荷矩阵中___________________________o
6.公共因子方差与特殊因子方差之和为_________o
7.求解因子载荷矩阵常用的方法有_______________________和_________________・
8.常用的因子旋转方法有_____________________和__________________o
中因子分析采用_____________________命令过程。
10.变量Xj的方差由两__________,另一部分为____________o
二、判断题
1.在因子分析中,因子载荷阵不是唯一的。()
2.因子载荷阵经过正交旋转后,各变量的共性方差和各个因子的贡献都发生了变化。
()
3.因子分析和主成分分析的核心思想都是降维。()
4・因子分析有两人类,R型因子分析和Q型因子分析;其中R型因子分析是从变量的相似矩阵出发,而
Q型因子分析是从样品的相关矩阵出发。()
5.特殊因子与公共因子之间是相互独立的。()
6.变量共同度是因子载荷矩阵列元素的平方和。()
7.公共因子的方差贡献是衡量公共因子相对重要性指标。()
8.对因子载荷阵进行旋转的目的是使结构简化。()
三、简答题
S1.因子分析的基本思想是什么,它与主成分分析有什么区别和联系?
7/18
s2.因子模型的矩阵形式X二UF+S.其中:
rf
F二(几…,FJ£二G,£p)U二(Wy)pxm
请解释式中F、£、U的统计意义。
F:,F:,…,凡叫做公共因子,它们是在各个变量中共同出现的因子。Si(i=l,2,…,P)表示影响Xi
的独特因子。g做因子载荷,它是第i个变量在第j个主因子上的负荷,或者叫做第i个变量在第j个主因子
上的权,它反映了第i个变量在第j主因子上的相对重要性。Si为独特因子的载荷。因子分析的基本问题就
是要确定因子载荷。
S3・因子旋转的意义何在?如何进行最人方差因子旋转?
因子旋转的目的是通过改变坐标轴的位置,重新分配各个因子所解释的方差的比例,使因子结构更简单,
更易于解释,以期找到意义更为明确,实际意义更明显的公因子。
对公共因子作正交旋转就是对载荷矩阵U作一正交变换,右乘正交矩阵T,使得UT有更明显的实际意
义。旋转以后的公共因子向量为F*=FF,它的各个分量F:,F;「F:也是互不相关的因子。根据正交矩阵T
的不同选取方式,将构造不同的正交旋转的方法。
4・因子分析主要应用在哪几个方面?
四.计算题
S4・假设某地固定资产投资率心,通货膨胀率心和失业率心的约相关矩阵为:
并且己知该相关矩阵的各特征根和相应的非零特征根的单位特征向量分别为:
右=0.9123冬=(0.3690.657-0.657)
心=00877a2=(0.929-0.2610.261j
兄3=0
要求求解因子分析模型,计算各变量的共同度和各公共因子的方差贡献并解释它们的统计意义。
=0.628-0.077
厂0.6280.077
①因子分析模型为:(3分)
8/18
xk=0.352F>+0.275F2+勺
fas
1
1
■
55
12
55
122
__5_55_
R
解:由题中数据可得因子载荷矩阵为:
0.3520.275、
x2=0.628F、一0.077F2+s2
x3=-0.628F]+0.077F2+
②变量的共同度为:(4分)
=(0.352)'+(0.275)'=0.124+0.076=0.2
j=
/?£=Yli2j=(0-628)2+(-0.077)2=0.394+0.006=0.4
;=1
r
h;=£疡=(-0.628)2+(0.077)2=0.394+0.006=0.4
;=1
它分别反映了公因子对E的影响作用人小。
③公共因子的方差贡献为:(5分)
3
S]=工心=(0.352)2+(0.628)2+(-0.628)2
1=1
=0.124+0.394+0.394=0.912
3
S2=5X=(0.275)2+(-0.077)2+(0.077)2
1=1
=0.076+0.006+0.006=0.088
它分别反映了第/个公因子儿对X的各个分量乞的方差贡献之和。
2•设变量〉ix:和卫已标准化,其样本相关系数矩阵为:
RM
1
0.630.45'
R=0.6310.35
0.450.351
(1)对变量进行因子分析。
(2)取q=2进行正交因子旋转。
3.已知我国某年各地区的国有及非国有规模以上的工业企业经济效益资料,现做因子分析,结果如下,
请说明每一个输出结果的含义及目的,并回答以下问题:
(1)什么是方差贡献率?计算方差贡献率的目的何在?
(2)如何利用因子分析结果进行综合评价?结合本例写出计算综合评价结果的公式。(非原题)
表13
CoMHimalities
InitialExtraction
工业增加值字1.000.931
总資产贡献率1.000•928
资产负债率1.000.829
涼动镒产周转次数1.000.860
工业成本费坤利润率1.000・8加
全员劳动生产率1.000.690
产品销售率1.000.815
ExtractionMethod:PrincipalCcurponentAnalysis.
3/18
TotalVarianc电Explained
Componen-t
:s
Total$ofVarianceCumulative%Total匕ofVarianceZTUTIUIative%
12.81840.26240.2622.81840.26240.262
22.17331.05071.3122.17331.05071.312
3.95213.60484.916.95213.60484.91&
4.4726.74291.658
5.38&5.52197.179
6
.1341.91299.091
7363E-029H9100000
ExtractionMethod:PrincipalComponentAnalysis・
CoBpoiieDLt■atrix31*
Component
12
3
工业成本费用利润率.921171
总贸产贡献率
.78T.462・30T
工业増ira值率
.681-.541.417
资产负债率.6館
-.415
・.48名
全员劳动生产率
.628.461-.289
疏动资产周转次数.25T.801-.390
产品销售率-8.2&E-02.782.444
ExtractionMethod:Trincip£LComponentAnalysis.
包.3componentxtracted.
RotatedComponentlatrix11
CojTpccnerrt
123
工业增加值率.898-.264・236
工业成本费用利润率.861.266.280
总资产贡献率.710.578-.299
涼动诜产同转次数162.898一.163
全员劳动生产率.271.7818.477E-02
产品销售率-1.05E-02.326-842
资产负债率.376.239.7&4
ExtractionMetho止onMethod:VarinaxwithKairNormalizatiorL
Rotationconvergedin5iterations.
10/18
ConpoDLentScorefo电fficientlatrix
Component
12
3
工业増加值率.480-.272-.087
总贸产贡献率
.351.140-.290
资产负债率-.032.212.553
流动资产周转次数
-.215.508.082
工业成本费用利润率
.351.043.052
全员劳动生产率-018.407•认3
产品销售率.13T.031-.572
ExtractionMethod:^nMethod:V^rim^xwithKaixNormalizati<>n,Component
Scores.
(1)13个指标可以用三个公因子来表示。而且前3个因子的累积方差贡献率为84.916%,应该选取前4
个公因子。第一个公因子在指标XI、X2、X3上有较人载荷,说明这3个指标有较强的相关性,可以归为一类;
第二个公因子在指标X4、X5上有较人载荷,同样可以归为一类;同理,第三个公因子在指标X6、X7上有较
人载荷,可以归为一类.
(2)根据旋转前的因子载荷阵,写出每个原始变量的因子表达式:
XI二0.921F1-0.171F2+0.117F3+£1
X2=0.787F1+0.462F2+0.307F3+£2
X7-8.26E-02F1+0.782F2+0.444F3+e7
(3)旋转后的因子得分函数
Fl=0.480X1+0.351X2-0.032X3-0215X4+0.315X5-0.018X6+0.137X7
F2二-0・272X1+0.140X2+0.212X3+0.508X4+0.013X5+0.107X6+0.031X7
F3二-0・087X1-0.290X2+0.553X3+0.082X4+0.052X5+0.143X6-0.572X7
五、操作题
1.10名初中男生身高、胸|韦I、体重的数据资料如下:
身高Xi(cm)胸围X2(cm)体重x3(kg)
149.569.538.5
162.577.055.5
162.778.550.8
162.2
87.565.5
156.574.549.0
156.174.545.5
172.076.551.0
173.281.559.5
159.574.543.5
157.779.053.5
(1)利用因子法、方差最人旋转法计算因子载荷阵A
(2)分别计算各变量的公共因子方差和特殊因子方差,判断哪个因子能概括•原始信息的大部分,为什
么?
(3)写出方差最人正交旋转因子模型,并分析各因子的实际含义
(4)计算各个样本点的因子得分
2.对某市15个人中型工业企业进行经济效益分析,经研究确定,从有关经济效益指标中选取7个指标作分析,
即固定资产产值率(XI),固定资产利税率(X2),资金利润率(X3),资金利税率(X4),流动资金周转天数(X5),销何
收入利税率(X6)和全员劳动生产率(X7)o数
据资料如卜•:
企业及编
固定资产固定资产资金利润资金利税流动资金销售收入利全员劳动生
11/18
号XI利税率
(X2)
率(X3)率(X4)周转天数
(X5)
税率(X6)产率(X7)
康佳电子1
53..2516.6818.426.755531.841.75
茂名石化2
59.8219.7019.227.565532.942.87
华空空调3
46.7815.2016.2423.406532.981.53
三星集团4
34.397.294.76S.976221.301.63
数源科技5
75.3229.4543.6856.496940.742.14
中华电子6
66.4632.9333.8742.785047.982.60
南方制药7
68.18
25.3927.5637.856333.762.43
中国长城8
56.1315.0514.2119.497627.211.75
白云制药9
59.2519.8220.1728.787133411.S3
五羊H行10
52.4721.1326.5235.20
62
39.411.73
广发卷烟11
55.7616.7519.2328.725829.621.52
岭南通信12
61.1915.8317.4328.036126.401.60
华南冰箱13
50.4116,5320.6329.736932.491.31
潮州二轻14
67.9522.2437.0054.596331.051.57
稀土高科15
51.0712.9212.5420.826625.121.
第一、对数据资料进行主成分分析:
(1)前两个最大特征根为__________________、________________,其对应的特征向量为
(2)第一主成分的表达式为____________________________________________________,该
主成分包含了原始信息的_______________________%,第二主成分的表达式为
_____________________________________________,该主成分的方差贡献率为__________O
(3)如果舍弃第二主成分,则哪个原始变量的损失信息最犬:____________
(4)第一个主成分与第二个变量间的相关系数为_________________
(5)第一个主成分主要反映盈利能力,现对第一主成分计算得分为
_______________________________________________________________,对得分进行排序(降序),各企
业的得分排名顺序依次为:______________________________________
___________________________(依企业顺序写出排名)。若利用第一.二主成分构造综合评价函数,
则两主成分的权数分别为__________、______________.
第二、对原数据资料进行因子分析:
(6)利用主成分法求解因子载荷,现提取两个因子进行分析,因子模型表示为:
(7)__________________________________________________前三个变量(XI,X2,X3)的公
共因子方差为_______________________________________________、______________、
_____________,特殊因子方差为__________、____________、_____________O
(8)对以上模型进行方差最人正交旋转,得出旋转后的因子载荷矩阵为:
第五章聚类分析
一.填空题
1•在进行聚类分析时,根据变量取值的不同,变量特性的测量尺度有以下三种类型:、和)
2・Q型聚类法是按进行聚类,R型聚类法是按进行聚类。
3.Q型聚类统计量是___________,而R型聚类统计量通常采用___________________o
4・在聚类分析中,为了使不同量纲、不同取值范围的数据能够放在一起进行比较,通
常需要对原始数据进行变换处理。常用的变换方法有以下几种:______________________________、
5._______________________________________________距离血一般应满足以下四个条件:
6•相似系数一般应满足的条件为:_________________________、_________________和
7.常用的相似系数有_______________和________________两种。
12/18
8•常用的系统聚类方法主要有以下八种:_____________
9•快速聚类在SPSS中由___________________过程实现。
■p严
dM=£|心rj
jt=i
示_________________;当q=2时,它表示_____________________:当q趙于无穷时,它表
Z5_______________c
11・聚类分析是将一批______________或_____________,按照它们在性质上___________的
进行分类。
二、判断题
1•在对数据行进中心化变换之后,数据的均值为0,而协差阵不变,且变换后后的数据与变量的量纲无关。
()
2.根据分类的原理,我
们可以把聚类分为样品聚类和变量聚类。()
3・兰氏距离不仅克服了明氏距离与各指标的量纲有关的缺点,而且也考虑了变量间的
相关性。()
4•当各变量之间相互独立时,马氏距离就退化为欧氏距离。()
5.在几种系统聚类法中,最短(长)距离法、(可边)类平均法、重心法和离差平方和
法都具有单调性,只有中间距离法不具有单调性。()
6.重心法比离差平方和法使空间扩张。()
7.离差平方和法的思想来源于方差分析•如果类分得比较合理,同类样品之间的离差平
方和应当较大,类与类之间的离差平方和应当较小.()
8•使用离差平方和法时,计算样品间的距离必须采用欧氏距离.()
9•快速聚类法又称为动态聚类法,是一种非谱系聚类法,它可以应用于比系统聚类法人
得多的数据组.()
三、简答题
1.简述聚类分析的基本思想和基本步骤?
2.系统聚类法的基本思想是什么?
3.系统聚类法的基本步骤是什么?
4・简述最长聚类法的聚类步骤。
5.简述快速聚类的基本思想及主要步骤。
6.简述最优分割法的步骤
7.简述Ward离差平方和法的基本思想.
8•在数据处理时,为什么通常要进行标准化处理?
四、计算题
7o(10.9V
1.假设有一个二维正态总体,它的分布为:NrL,
并且还已知有两点
[2八0.91)
A=(1,1)'和3=(l,—lj,
要求分别用马氏距离和欧氏距离计算这两点A和B各自到总体均值点“=(0,0)'的距离.
2.设有5个样品,己知各样品之间的距离矩阵为:
G]G、G3G4G5
13/18
10•常用的明氏距离公式为:
q0
G
2
50
G3
3.51.50
q
142.50
G5
_723.560
试分别用最短距离法和最长距离法聚类。
3•为研究全国31个省区城镇居民生活消费的分布规律,根据2003年统计资料利用SPSS软件中的系统聚类
法做类型划分,其谱系图如下,你认为从全国各省区的消费情况看,分为几类较合适,结合我国区域社会及经
济发展情况,对分类结果作简要分析。
******HIERARCHICALCLUSTERANALYSIS******
DendrogramusingAverageLinkage(BetweenGroups)
RescaledDistanceClusterCombine
CASE0□
10
15
20
25
LabelNum+---------+---—i-----+--------+--------+
古
江
海
夏
南
肃
北
川
西
北
南
蒙
疆
林
龙
西
宁
南
徽
州
西
苏
庆
东
建
西
南
津
藏
江
东
海
京
青
宁
河
甘
河
四
陕
湖
湖
内
新
吉
黑
山
辽
云
安
贵
江
江
重
山
福
广
海
天
西
浙
广
上
北
14/18
4•下面给出了八个样品的两个指标数据
样指^
12345678
标X、
2
4
01
35
2
3
X:4713
12
9
11
14
16
试用中间距离法进行聚类,样品间的距离采用欧氏距离。
第四章判别分析
一、填空题
1.____________________________________________________________进行判别分析时,通常
指定一种判别准则,用来判定新样本的归属,按照判别准则的不同,又有多种判别方法,其中常用的方
法有_________________________________________________________________、______________
、和_______________O
2•判别分析按判别的组数来区分,有___________________和__________________;按区分不同总
体的所用的数学模型来分,有__________________和_________________o
判别是借助于__________的思想,来导出______________和建立判别准则。
4.判别分析是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分
类的规律性,建立________________和__________________e
5.在进行距离判别时,通常采用的距离是___________________,它的基本公式为:
二、判断题
1.在正态等协差阵的条件下,Bayes线性判别函数等价于距离判别准则。
()
2.费歇判别和距离判别都对判别变量的分布类型没有要求。()
3.只有当两个总体的均值有显著差异时,做判别分析才有意义。()
4.如呆是费歇判别准则的判别函数,则对于任何0与任意常数卩来说,00(对
+了也都是它的线性函数。()
判别不仅考虑了各个总体出现的先验概率,而且也考虑到了错判所造成的损失。()
6•在进行两类判别时,两总体的协差阵如果相等,那么费歇判别与距离判别是等价的。()
7.逐步判别法中筛选变量的过程实质上就是作假设检验,通过检验找出显著变量,剔除不
显著变量。()
8.在进行距离判别时,通常采用的是马氏距离。()
9.设Rk为卩维空间/r上的R个子集,而且要求互不相交,它们的和集为川,则称&,…,他为卍的一
个划分。而Eayes判别实质上就是找这个划分。
()
三、简答题
1.判别分析和聚类分析有何区别与联系?
2•距离判别分析的基本思想是什么?假设有两个总体G】和6如果能够定义样品x到它们的距离D(xG)
和D(xG),那么判别规则是怎样的?请描述这个准则的数学模型。
3.简述逐步判别法的基本思想。
4•距离判别、贝叶斯判别和费歇判别有何异同?
5.进行聚类分析往往要先对数据进行标准化变换,进行判别分析是否也需要先进行标准化变换?为什
么?
四、计算题
***1.已知观测向量x=(兀,耳小j在两类上的均值向量分别为“⑴=(30400,35)'和“⑵=(26,90,30)',
两类的共同协差阵为:
15/18
试用距离判别法建立判别函数和判别规则。现有一样品x=(35,90,31),问此样品应属于哪一类?
(1)求出共同协方差矩阵的逆矩阵和两类均值向量的离差向量分别为:
_30-26_「4_
100-90—
10
35-305
(2)求出判别系数向量为:a=另讼)-“⑵)
_0.01786
0
-0.00357■
4
0.05359-
0
0.0025
010
=0.025
-0.00357
0
0.0107150.03927
(3)两类均值向量的平均数向量为:
「30+26
「
■28~
100+90—95
35+3032.5
(4)线性判别函数为:
兀-28x2-95x3-32.5
=0.05359兀+0.025七+0.03927吃
—5.1518
(5)相应的判别规则为:
xGG],若“心)>0
G?,若vv(x)v0待判,
若必丫)=0
(6)该样品的判别函数值为:w(x)
=0.05359x35+0.025x90+0.03927x31
—5.1518
=0.19122>0
由此可以判断,该样品应属于第一类。
16/18
60
0
20
0
400
0
20
0
100
40000-8000
^=2^000
1
56
1
280
5600
-8000
1
400
280
3
280
24000
0.01786
0.0025
-0.00357
-0.00357
0.01071
w(x)=ax-p)=[0.053590.0250.03927
2.例:某种产品的生产厂商有很多个,有些厂商的产品在市场上比较受欢迎,而有些厂商的产品在
市场上不人受欢迎,批发商店现有12家厂商的产品,其中7家是受欢迎的,5家属于不太受欢迎的。
该商店对这12家厂商的产品就其式样、包装和耐久性进行了评估,评分采用10分制,评估结果如下表
所示。
某种产品各品牌的各项评分
畅销的产品滞销的产品
厂家产品特性厂家产品特性
式样X1包装x2耐久性x3式样xl包装x2耐久性x3
1
9
8
7
1
444
27
662
3
66
3
A
8783633
4
8
554
2
45
3
6
9935
122
7897
756
合计
564942
合计
16
19
20
同时已知两类的共同协差阵的逆矩阵为:
0.06197-0.019900.01089
试用费爲疝顼龍J跚函蔚翩餡规则rW霧厂商推销其产品,产品特性评分为式
3.某地市场上销售的收录机有多种牌号,该地某商场从市场上随机抽取了13种牌号的收录机,其中
有4种畅销,有5种销售一般,有4种滞销。所调查的各种收录机的质量评分、功能评分和销售价格资料
如下表所示:
某地各种收录机的销售状况
销售状态产品序号质量评分功能评分销售价格(元)
A833290
畅销B9.57
680
C8.04390
D7.4
6
540
E9.28820
F
8.0
7670
平销G7.69900
H6.46530
I735480
J6.02200
滞销K6.44390
L6.85480
M5.23290
试根据该资料建立贝叶斯判别函数和判别准则。假设有一新厂商来推销其产品,其产品的质量评分为
7.0,功能评分为7.0,销售价格为660元,问该厂产品的销售前景如何?
4.下图是SPSS统计分析软件的一个对话框,请问是什么分析过程?解释“GroupingVariable'^
nIndependents:uEntermdependenttogetheruUStepwimethodM等按纽的含义。
17/18
样6分,包装b卿1似性5夯Q・射屉沪商砂喘消费者欢迎?
五、证明题
1•在两总体判别分析时,当两总体协差阵相等并且判别变量服从正态分布时,试证明距离判别与贝叶
斯判别是等价的。
2•设G“G.为两个总体,其密度分别为Ng'Z),/VP(ZA,Z)(Z>O),已知角、"八
龙时,试证明Bayes判别准则为:
若呛)>d若
呛)
若v(x)=d
XGG]
一
其中:心鶉心①C(1⑵亦
(2/1)
18/18
本文发布于:2022-12-29 05:03:15,感谢您对本站的认可!
本文链接:http://www.wtabcd.cn/fanwen/fan/90/51302.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |