2023年4月18日发(作者:小米测试代码)基于聚类分析的微博用户标签自动生成
(吕海燕,王丽娜,张杰)
(海军朋友过生日
航空工程学院,山东烟台264001)
摘要:本文基于用户发表的微博内容进行标签的自动生成,主要研究的烦恼作文
是基于聚类 分析的用户
标签自动生成。本文首先介绍用到的关键技术:聚类技术和提岀了 系统,
TextTank , Baline
接卞来详细说明了基于聚类分析的标签自动生成方法,最后 通过实验对该方法进行了分析和
评价。实验结果表明,该方法生成的用户标签能够 有效地解决同义标签的堆积问题,使得生成
的标签能够在更多的维度上体现用户的 兴趣。
关键词:微醇用户标签聚类分析
;TextRank;
Automatic generation of micro-blog ur tags bad on clustering
an alysis
(LV Hai-ya^Zhang Jie ,Wang Li-na,)
(Naval Aeronautical and Astronautical Univership的音标
sity, Yantai 264000 China)
Abstract:
The main rearch is the automatic gen eration of micro-blog ur tags bad on cluster analysis Key
・
technologies ud in this paper are introduced firstly; mainly in elude cluster technology and TextRank A Balne system is
・
propod in order to show the validity of the rearch propod by this paper. Then the a utomatic generation method bad on
clustering analysis is illus:rated detailedl y. Fin ally analyze and evaluate the method by experiments. The experimental results
show that the ur tags generated by the method can s olve the problem of synonymy tags stack, and the tags can reflect the
urs* interest in more dimensions. Tags for Micro-blog Urs TextRank cluster Analysis
Keywords:
;;
引言
近年来,微博已经成为了一种流行的网络信息传播平台,越来越多的人拥有自 的微尊
(2
账户。微博文本短小(一般限制在个字以内),与手机、即时信息服务 软件的连接使得微
140
博发布的门槛很低,用户可以随时随地进行更新。随着我们关注 的人数越多,信息量越來越
大,使我们将面临“信息过载〃的问题。针对这种信息过 载的问题,人们开始逐渐关注微博上
的个性化。而微博用户标签作为描述用户兴趣 爱好、职业领域等特征的载体,在用户组织和搜
索,挖掘用户兴趣和实现用户微博 个性化等方面仃着重要的作用⑴。微博用户标签自动生成便
是从可利用的资源中自 动生成短文本例如词语、短语來描述用户关心的内容和兴趣点"]。其
生成方法从生 成标签的不同粒度岀发,主要有基于关键词和基于类别两种方法&叫 本文主要
研究 基于关键词的微博用户标签自动生成中基于聚类分析的生成方法。
1.
关键技术
1.1
聚类技术
聚类是一种将数据对象划分成相似的集合(簇)的过程。常见的聚类技术可以 分为:划分
方法例如层次方法例如层次聚类、基于密度的方法、基于网 格的方法等等⑼。本文
K-Means.
选择了层次方法中的自底向上的凝聚层次聚类。首先将每一 个词语都当成一个独立的簇,需要
对个词语进行聚类,那么初始的时候就右个簇。 然后,根据簇之间的距离.选择最近的两
NN
个簇逐一合并,直到个词语都聚成了一 个簇。经过这种方法,可以得到一颗具有层次的聚
N
类树,在此之上观察哪一层的聚 类效果放符合用途。层次聚类有一个主要的问题就是在逐一合
并簇的过程中如何度 最两个簇之间的距离。根据衡量方式的不同,可以将层次聚类细分为单连
接算法、 全连接算法和均值距离/平均距离算法。本文采用的是单连接算法,也称为最近邻聚
类算法。算法使用两个簇中垠近对象的距离作为簇间的距离,当这个距离超过一定 阈值的时候
聚类终止,度量公式如所示。其中,对象6、分别属于簇G、3
(1・1)
d(S,C2)= min2&21,2)
。旳。小(。。公式(")
1. 2 Baline
系统
本文采用为候选关键词排序的策略作为系统。排序公式如公式 所
TFIDFBaline1-2
示。
u) = tf(t,
u) X (1-2)
Ut
公式
其中,表示用户的微傅文本中词出现的频率,咸示微廊语料中用户的
tf(t,u)
ut
总数,仏表示微博文本中包含的用户数
t
L 3 TextRank
TextRankRada MihalceaW2004
算法是由人画于年提出的用于文本关键词抽取的 算法,
其主要思想是一个词的重耍性由其它与其关联的词决定。将文档中 的词语类比于
Text Rank
互联网网页,而词与词之间的联系类比于网页之间的链接关系。即算 法认为文本是一个由词
语构成的网络或者说是一个由词语作为节点构成的图,词语 间的语义关系构成边。在图中越
重要的词越可能是关键词。每个节点%的分数计算如公式所示。对每一个节
Text Rank 1-3
点%, 代表指向它的节点集合,血(%) 代表它指向的节点集合。代表岭和号之间
/n(K)0Wij
边的权更。
S(%) = (1-d) + d 20(1-3)
乍切 (号)公式
亍叫
乙
V
keOutj
(Vy)
2.
生成方法
2.1
生成流程
基于聚类分析的方法自动生成标签,简单来说,流程大致如图所示。
2-1
图基于聚类分析的标签自动生成流程
2-1
2. 2
生成方法
1)
预处理
当得到用户发布的微博文本之后,采取“合成”策略,即将用户发布的所仃微博合 并成
一暗黑武士
个大文档进行处理。为避免不必要引入不必要的噪声,先去除微博文本中带 有的链
URL
接,以及文本中@某某人的字样。分词后,去除预定义的停用词。预处 理后我们将得到一个
候选的关键词集合,词语的词性都为名词。
2)
词语层次聚类
本文采用的自底向上的层次聚类对词语进行聚类,具体算法如图所示。而待 聚类的
2・2
词语集合是权重前的词语集合。本文认为的词语集合己经 体现了用户
TextRank200Top200
的绝大多数兴趣。
Given: a t of words^w^.^Wn}
For i=l to n do
c
汙他}
End
C{C^...,Cn}
=
j=l
while I cl >1
(CnbCn2=arg mirigmwcKcg) Jnl U C
)
c=c
n2
c=c{c
nlt
c}u{g}
n2
3)
选取簇代表词,
j=j+l
通过层次聚类选定某个聚类效果较好的聚类层。语义相关度较高的词语将被聚成
•个簇。对于聚类形成的每一个簇,需要选择合适的词來代表它。本文选用选用簇 中拥右最
高分数的词语作为簇代表词。选取完簇代表词后,按照策略 对词进行扩
TextRankTFIDF
展。但与代表词合并的词语必须出现在同一个聚类簇中。
4)
生成用户标签
按照一定的规则排序聚类后形成的簇,一种是按照簇内词语分数的加和, 一种是
TextRank
按照簇内词语平均的分数。其对应的聚类代表词串,便是我们自动 生成标签的顺
TextRank
序。
3.
实验与结果分析
3.1
实验数据
本文以随机选择的位微廨用户发布的微博内容余条作为本文的测试
5023680
数据,他们发布的平均微博条数为条。
512
3.1
评价方法
通过观察微博用户的标签可以看出,微博用户为自己添加的标签如:“开朗”、
“活泼”、“音乐”、“任性”等这些普遍型的标签,可能并未深入地体现用户 的兴趣。
浏览测试用户的所仃微博内容,借助于用户已经为自添加的标签等进 行评定。评定的准则
C
仃两条:一是生成的结果能否体现用户的兴趣:二是生成的 结果是否适合作为用户标签。本
文为用户自动生成个标签,并按照权重计算方
10
式进行排序。评价指标采用信息检索领域经典的评价指标(如公式所示), 表
P@N3-1
示生成的前个用户标签结果的准确率。由于评价过程比较主观,因此本文采用 两位评价
N
者分别对生成的标签进行评定。
P@N =
細个标签结果中生成正确的数目
N
公式
3-1
3・2
聚类终止的条件
聚类终止条件,即聚类过程达到什么条件,实际就可以停止了。假定,当簇间的 距离小
于某值时停止迭代。因此,需山东211
要寻找到这一阈值。将位测试用户产生的词 对的互信息分
40
数由高到低进行排序,发现当互信息得分不超过:时,词对的语义关联 己经较为微弱。因
此,本文将阈值粗略地设置为、、、、、、(它们为互 信息分数)进行人工比
K7654321
较。通过观察发现,当阈值设冒为时,效果普遍较好。将值设为聚类效果如表所
6K 6,3-1
示。
表词语聚类示例
3-1
聚类簇序号 聚类簇内词
簇
1
簇领导负责人首长长官主管主任官员领导者
2
簇毕业生学校本科研究生学历博士课程人才
3
企业商店员工团队管理者高层市场价值人力财力社会资源
需求客户市场产品领域行业
福利奖金工资薪酬 簇
簇
4
5
3.3
标签自动生成效果
选取每个簇内分数瑕高的词语作为该簇的代表词,进行扩展。抽取的 关键
TextRank
词,若按照簇内分数加和排序,称之为若按照簇内 平
TextRaiikcluster-siim:TextRaiik
均值排序,称为同时,选取系统与其对照。标 签自动生成效果如
Zcluster-avgobaline
表所示。
3-2
表3-2基于聚类分析的标签口动生成效來(%)
评价者1的评价结果
TFIDF cluster-sum cluster-avg 如何去掉页眉
P@1 57.30 69.5 58.36
P@2 49.25 57.54 53.22
P@3 42.87 49.65 47.13
P@4 41.02 48.92 46.20
P@5 38.97 46.85 40.50
P@6 36.45 45.96 38.84
P@7 32.24 43.10 35.98
P@8 29.87 44.28 33.62
P@9 29.02 39.27 33.36
P@10 28.79 39.05 32.58
评价者2的评价结果
TFIDF cluster-sum cluster-avg
P@1 53.20 71.00 68.16
P@2 47.83 60.24 59.12
P@3 43.27 56.04 52.43
P@4 41.65 52.88 48.29
P@5 39.65 50.85 49.75
P@6 37.71 48.68 45.94
P@7 3434 45.10 43.62
P@8 32.48 44.79 41.12
P@9 30.33 41.87 39.50
P@10 29.87 40.20 38.68
对每一种生成标签的方式,计算两位评价者评价结果的一致性,用
Coheres
kappaKappa1kappa
系数衡量。值在到之间,值越大则一致性越好。当值超过
0.75kappa0.400.75
时,则说明评定的结果的一致性是非常好的;值在与之间时, 则说明一致
性一般;值低于时,则说明一致性很差。两位评价者评价的 一致性如表所
kappa0.403-3
示。
表评价者、对标签生成结果评定的一致性
3-312
TFIDF
cluster-sum clus t rpyg
亡
cohen* s kappa
0. 5820 0. 5801 0. 5779
小结
微博用户被允许使用自造的、长度不限的词语或者短语来描述、标识自。这 就是所谓
C
的标签功能。本文从微博内容分析的角度出发,研究了基于聚类分析的微 博用户标签口动生成
技术,旨在生成能够体现用户兴趣的标签。实验结果表明,该 方法解决了同义标签的堆积问
题,使得生成的标签能够在更多的维度上体现用户的 兴趣。
参考文献
[1] Klaas Dellshaft. Steffen Staab. Au Episteniic Dynamic Model for Tagging Sy stenis[C]. hi
HT'08: Pioceedings of the nineteenth ACM conferenc风吹云动星不动
e on Hypertext and hypennedia. 200& 71-
78.
[2] Simo Ovcrcll, Borkiw Sigxirbj omsson, Rod of van Zwol. Classifying Tags Using Open
Content ResourcesJC]. WSDM. 2009:64-73・
[3] Manish Gupta, Rui Li, Zliijun on Social Tagging Teclmiqiies [
Explorations.2010, 12(1):58-72.
[4] Heyinaim PG8年级上册数学
arcia Molinay H. Collaborative Creation of Communal Hi erarchi cal
、
Taxonomies in Social Tagging Systems[R]. Teclmical Report IiifoLab. Depaitin ent of
Computer Science, StaiifordUniversity, Stanford, CA, USA・ April 2006: 1-5.
[5] Jilin Chen, Rowan Naim, Les Nelson, et al. Short and tweet: Experiments on
Recommending Content from Iiifonnation Strean)s[C]. In: Proceedings of the 28th international
conf旅游景点英文
erence on Human factors in computing systems (CHI ‘10), New York, NY, USA, ACM
(2010) 1185-1194.
[6] Hulth A. Improved automatic keyword extraction given more linguistic knowle dge[CJ.
EMNLP. 2003:216-223.
[7] [D].
刘知远.基于文档主题结构的关键词抽取方法研究清华大学博士学位论文.
2011 : 6-7.
[8] [D]..2011:12 -15.
靳延安.社会标签推荐技术与方法研究华中科技大学博士学位论文
[9] Jiawei Hail, Micheline Kamber.2007: 2 06-
数据挖掘概念与技术,机械匸业出版社,
209.
[10] Rada Mihaicea,Paul Rank:Bringing Order into Texts[C].EMNLP.2O 04:404-
411.
作者简介:
吕海燕女,山东淄博人,硕士,工程师,研究方向:软
( 1983-),
件工程.