信息与计算科学专业实验报告
课程名称数据挖掘原理与算法总实验学时:
第
次
共次
实验项目名称
聚类分析
本次实验学时数:实验类型
日期
2016年5月25日星期
三
年级本13信计01班
学生姓名黄顺团学号
201343901
31
课任教师唐志刚
1.实验目得:
用数据挖掘聚类算法(Q型聚类、R型聚类)求分类微博数据。
2.实验环境:
MATLAB7.0。
Windows7操作系统、
3.实验内容
由于数据集比较大,数据TXT文件不引入报告中、命名为、
相关两个源文件代码文件如下:
1、Untitled。m
clc,clear
loadjulei。txt%把原始数据保存在纯文本文件ju中
r=corrcoef(julei);%计算相关系数矩阵
d=1-r;%进行数据变换,把相关系数转化为距离
d=tril(d);%取出矩阵d得下三角元素
d=nonzeros(d);%取出非零元素
d=d';%化成行向量
z=linkage(d,'average’);%按类平均法聚类
dendrogram(z);%画聚类图
T=cluster(z,’maxclust’,4)%把变量划分成4类
fori=1:4
tm=find(T==i);%求第i类得对象
tm=reshape(tm,1,length(tm));%变成行向量
fprintf(’第%d类得有%sn’,i,int2str(tm));%显示分类结果
end
r%显示相关系数矩阵
2、Untitled2、m
clc,clear
loadjulei、txt%把原始数据保存在纯文本文件julei。txt中
julei(:,5)=[];%删除数据矩阵得第5列,即使用变量1,2,3,4
julei=zscore(julei);%数据标准化
y=pdist(julei);%求对象间得欧氏距离,每行就是一个对象
z=linkage(y,'average');%按类平均法聚类
dendrogram(z);%画聚类图
fork=2:8
fprintf('划分成%d类得结果如下:n',k)
T=cluster(z,’maxclust',k);%把样本点划分成k类
fori=1:k
tm=find(T==i);%求第i类得对象
tm=reshape(tm,1,length(tm));%变成行向量
fprintf('第%d类得有%sn’,i,int2str(tm));%显示分类结果
end
ifk==8
break
end
fprintf(’************n');
End
输出结果为:
1、
图一(R型聚类)
〉>T=
4
2
3
1
2
第1类得有4
第2类得有25
第3类得有3
第4类得有1
〉>r=
1。0000-0。18240、0439—0、0298—0。0871
—0、18241。00000、28440、41580。9003
0。04390、28441、00000、18830。3327
-0。02980.41580.18831.00000.4965
—0。08710、90030.33270、49651.0000
2、
图2(各对象聚类树形图)
划分成2类得结果如下:
第1类得有128268
第2类得有123456789101112
1314151617181926
27282930313233343536373839
4041424344454647484950515253
545556575859666
76869707172737475767778798
6878889909192
93949596979899104105
114115116117118119
12412512612712913
1341351361371386
4155156157158159160
16116216316416516616716816917
174175176177178179180181182183184185186187
1881891941951961971981992002
05214
215216217218219224225226227228
22923023123223323423523623723823924024124
2243244245246247248249254
255256257258259264265266267
269270271272273274275276277278279280281
282283284285286287288289294295
296297298299300
************
划分成3类得结果如下:
第1类得有125274
第2类得有123456789101112
1314151617181926
27282936373839
46474849505152535
45556575859666
76869767778798
68788899091929394
95969798991
11260121122
12312412612712913413513613
7138139140141142143144145146147148149
1541559164
165166167168169170171172173174175176177
178179180181182183184185186187188189190191
192193194195196197198199204205
214215216217218
219220221222223224225226227228229230231
23223323423523623723823924424524
6247248249254255256257258
25926426526626726927
275276277278279280281282283284285286287288
289294295296297298299300
第3类得有128268
************
划分成4类得结果如下:
第1类得有192541173260283
第2类得有123456789101112
1314151617182021222324262728
293637383940424344
454647484956575859
6061626364656667686970717273
74757677787980818283848586
87888996979899100102
1031131141151
161171181191261271291301311
3213313413513613713813914414514
6147148149154155156157158159
16416516616721741
751761771781791841851861871
88189194195196197198199200
209210211212
2132142152162225226
227228229230231232233234235236237238239
24424524624724824925
254255256257258259261262263264265266267
269275276277278279280281282
284285286287288289290291292293294295296
297298299300
第3类得有125274
第4类得有128268
************
划分成5类得结果如下:
第1类得有1048215233
第2类得有12345678911121314
1516171827282930
3132333435363738394042434445
46474950515253545556575859
6061626364656667686970717273
7475767778798687
88899697989910
0106107113114
1151166127129130131
132133134135136137138139144
1451460151152153154155156157158
159164165166167168169170172174
1751761771781791841851861
87188189190191192193194195196197198199
204209210211212213
21421621721821922422522622722
8229235236237238239240241242
243244245246247248249254255
256257258259261262263264265266267269270271
272273275276277278279280281282284285286
28728828929429529629729829930
0
第3类得有192541173260283
第4类得有125274
第5类得有128268
************
划分成6类得结果如下:
第1类得有2936374243
44454647495188189190191
197198199200282
第2类得有123456789111213
14151617182728
383946575859606
162636465666768697172737475
7677787986878889909
19293949596979899105
115116117118119122
123124126127129134135136137
138139144145146147148149150151
1521531548159160162163164165166
167168169176177178179180181182
1831841851861921931941951962012
20621121221321421621721821922
022122222322422522622722822923
23523623723823924424524624724824
9254255256257258259261262263
264265266267269275276277278279
2862872882892942
95296297298299300
第3类得有1048215233
第4类得有192541173260283
第5类得有125274
第6类得有128268
************
划分成7类得结果如下:
第1类得有10
第2类得有48215233
第3类得有293637424344
454647495188189190191197
198199200282
第4类得有123456789111213
1415161718272838
3946575859606162
6364656667686971727374757677
7879868788899091
9293949596979899105
115116117118119122
1231241261271291301311321331341351361371
38139144145146147148149150151
152153154155156157158159165166
167168169176177178179180181
182183184185186192193194195196201202203
212213214216217218
219224225226227228229230231232
23423523623723823924424524
6247248249250251252253254255256257258259
261262263264265266267269275276
277278279286287288289290291
292293294295296297298299300
第5类得有192541173260283
第6类得有125274
第7类得有128268
************
划分成8类得结果如下:
第1类得有1234568911121314
15161718272838
39515254555657585960616263
64656667686971727374757677787
986878889909192
93949596979899105106
113114115116117118119122123
1265136137138139140
141142143144145146147148149155156
157158159160162163164165168169170172174175
176177178179180181182183184185186192193
194195196205210
211212213214216217218219224
225226227228229230231232234235236237238
239241242243244245246247248249250251252
253254255256258259263264265266267269270
271272273275276277278279286
287288289294295296297298299
300
第2类得有7416616724
第3类得有10
第4类得有48215233
第5类得有293637424344
454647495078189190191197
198199200282
第6类得有192541173260283
第7类得有125274
第8类得有128268
转化为源字符数据为:
划分成2类得结果如下:
第1类得有曹国伟曹国伟
第2类得有其她
************
划分成3类得结果如下:
第1类得有张向东周鸿祎
第2类得有其她
第3类得有曹国伟曹国伟
************
划分成4类得结果如下:
第1类得有Hitwi王建硕小小数据分析师琳琳乱飞麦田程苓峰—云科技淘宝指数
fengyuncrawl王烁龚宇
第2类得有其她
第3类得有张向东周鸿祎
第4类得有曹国伟曹国伟
************
划分成5类得结果如下:
第1类得有白鸦陈坤淘宝网万客团
第2类得有其她
第3类得有Hitwi王建硕小小数据分析师琳琳乱飞麦田程苓峰-云科技淘宝指数
fengyuncrawl王烁龚宇
第4类得有张向东周鸿祎
第5类得有曹国伟曹国伟
************
划分成6类得结果如下:
第1类得有MINI金石头雷军夢想家林志穎羅志祥范范范瑋琪苍井空大S小S孟非
DCCI互联网数据中心沈浩老师韩庚文章同學林俊杰周立波胡歌黄健翔国美在线王
微俞永福当当网库巴网孙燕姿蔡依林林俊杰苏宁易购京东商城夢想家林志穎范
范范瑋琪金错刀
第2类得有其她
第3类得有白鸦陈坤淘宝网万客团
第4类得有Hitwise王建硕小小数据分析师琳琳乱飞麦田程苓峰-云科技淘宝指数
fengyuncrawl王烁龚宇
第5类得有张向东周鸿祎
第6类得有曹国伟曹国伟
************
划分成7类得结果如下:
第1类得有白鸦
第2类得有陈坤淘宝网万客团
第3类得有MINI金石头雷军夢想家林志穎羅志祥范范范瑋琪苍井空大S小S孟
非DCCI互联网数据中心沈浩老师韩庚文章同學林俊杰周立波胡歌黄健翔国美在
线王微俞永福当当网库巴网孙燕姿蔡依林林俊杰苏宁易购京东商城夢想家林志
穎范范范瑋琪金错刀
第4类得有其她
第5类得有Hitwi王建硕小小数据分析师琳琳乱飞麦田程苓峰-云科技淘宝指数fen
gyuncrawl王烁龚宇
第6类得有张向东周鸿祎
第7类得有曹国伟曹国伟
************
划分成8类得结果如下:
第1类得有其她
第2类得有董勤峰数据化管理微数据spark张鹏古永锵王建硕小小数据分析师社
会网络与数据挖掘1号商城-品质百货宫玉国吴晓波cnsns
第3类得有白鸦
第4类得有陈坤淘宝网万客团
第5类得有MINI金石头雷军夢想家林志穎羅志祥范范范瑋琪苍井空大S小S孟非
DCCI互联网数据中心沈浩老师韩庚文章同學林俊杰周立波胡歌黄健翔国美在线王微
俞永福当当网库巴网孙燕姿蔡依林林俊杰苏宁易购京东商城夢想家林志穎范范范瑋琪
金错刀
第6类得有Hitwi王建硕小小数据分析师琳琳乱飞麦田程苓峰—云科技淘宝指
数fengyuncrawl王烁龚宇
第7类得有张向东周鸿祎
第8类得有曹国伟曹国伟
5、小结、体会或建议(2至3行):
本实验用MATLAB实验,根据聚类结果,得出相关微博数据之间得分类关系,可以粗略得瞧出微
博用户得粉丝数、关注数、微博数、收藏数、互粉数之间得聚类关系及相互得聚类结果。但就是
实验过程过于简单,运用MATLAB自带Q型、R型聚类算法求解结果,总就是没有K—平均算法、PAM、
FCM算法得结果简洁明了、
学生签名:黄顺团
2016年5月2
5日
7.教师评语:
教师签名:
20年月日
成绩
本文发布于:2023-03-10 05:12:49,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/zhishi/a/1678396370134281.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文word下载地址:王建硕.doc
本文 PDF 下载地址:王建硕.pdf
留言与评论(共有 0 条评论) |