第36卷 第6期西南师范大学学报(自然科学版)2011年12月Vol.36 No.6 Journal of Southwest China Normal University(Natural Science Edition)Dec.2011
文章编号:1000 5471(2011)06 0057 05
基于复杂网络的微博用户关系网络特性研究①
尹书华
浙江万里学院计算机与信息学院,浙江宁波315100
摘要:以新浪、腾讯、搜狐三大微博注册用户为研究对象,根据用户之间的关注关系构建了复杂网络,分别给出了该网络的度分布、聚集系数以及平均路径长度等统计特征,得出微博用户关系网络具有无标度特性以及小世界效应.
关 键 词:复杂网络;幂律分布;无标度特性;小世界效应
中图分类号:TP393文献标志码:A
复杂网络[1-2]是刻画和研究复杂系统的结构和行为的关键,近年来,它很快成为了科学界的一大研究热点.与复杂网络相关的基础和应用研究已经渗入到物理学、生物学、计算机科学、管理学、社会学以及经济学等各个学科之中,在信息通信、网络搜索、信号传输、传染病控制以及社会学中对突发事件的预报和处理等方面都具有重要的意义.
现实世界中存在着大量的复杂系统,可以通过网络来描述.网络由很多点与边组成,其中点代表组成真实系统的个体,而边用来表示个体间的相互联系.比如说,人与人之间的社会关系,物种之间的捕食关系,以及科学家之间的合作关系等都可以用网络模型来描述[3-5].
微博用户关系网络,是社会网络[6]的一种,以前对现实社会网络的数据收集主要通过调查统计的方法,这种方法不仅误差大,数据规模小,而且在很大程度上受地域、隐私、主客观因素和可信度等限制[7].本文以新浪、腾讯、搜狐三个微博注册用户的关注关系为研究对象,构建复杂网络,利用Pajek,Matlab等软件,计算分析该网络的度分布、聚集系数以及平均路径长度等统计特征,得出三大微博用户关系网具有无标度特性以及小世界效应,给出了微博用户关系网络的进一步研究方向.
jou
1 复杂网络统计特征
1.1 节点的度分布
一个具体网络可抽象为一个由点集V和边集E组成的图G=(V,E),节点数记为N=|V|,边数记为M=|E|.
percuting度分布是描述节点特征最简单的也是研究最多的概念[3].节点i的度ki是与之相连接的边的数目.所有节点度的平均值就称为网络的平均度,用〈k〉来表示.p(k)表示节点的度分布函数.p(k)给出了一个任意选取的节点有k条边相连的概率.度分布函数反映了复杂系统的统计特征.
①收稿日期:2011 02 27
基金项目:浙江省教育厅科研项目(Y201121933).
作者简介:尹书华(1979),女,山东德州人,讲师,主要从事图论及复杂网络的研究.
近几年来,大量的研究结果表明,很多实际网络的度分布可以用幂率
p(
k)∝k-γ
(1)的形式来描述.γ是幂率指数.(
1)式可以等价表示为lnp(
boldnessk)∝-γlnk(2
) 幂率分布也称为无标度(scale-free)分布,具有幂率度分布的网络也称为无标度网络.当一个大规模的复杂网络的度分布为幂律分布同时具有适当的幂指数时,网络中绝大部分节点的度相对很低,但有少量节点的度相对很高.因此这类网络也称为非均匀网络,那些度相对很高的节点称为网络的“集线器”(Hub).Hub点对无标度网络起着主导作用.1.2 平均路径长度
在由N个节点组成的网络中,第i个节点到第j个节点的距离dij定义为从节点i到节点j最少需经过的节点数,这也是节点i和j之间的最短路径.网络的平均路径长度L定义为任意两个节点之间的距离的平均值,即
L=
1
12
slumberland
N(N+1
)∑i≥jdij
(3
) 平均最短路径[3
]描述了各个节点对之间的平均分离,同时也反映了网络的尺寸,因此常叫做网络直径.
1.3 聚集系数
聚集系数[3]
表达的是成簇的固有趋势,这个概念起源于社会科学.比如说,在一个人的朋友圈中,
他的两个朋友很可能彼此也是朋友,这种性质可以更容易理解聚集系数的概念.更准确地说,可以把聚集系数C定义为一个节点的相邻节点也可能是彼此的相邻节点.对于一个节点i的集群系数可以定义为下式:
Ci=2Ei
ki(ki-1
)(4
shabu shabu
)(4)式中ki是节点i的度,Ei为这ki个节点之间存在的边的数目.整个网络的聚集系数为C=1N∑N
i=1Ci,即所有节点的聚集系数的平均值.许多大规模的实际网络都具有明显的聚类效应,它们的聚集系数尽管远小于1,但却比O(N-1)要大得多.事实上,在很多类型的网络中,你的朋友的朋友同时也是你的朋友的概率会随着网络规模的增加而趋于一个常数.
2 微博用户关系网络图的统计特征分析
2.1 微博用户关系网络图的构建
本文构建一个有向无权图,以微博注册用户为节点集,如果用户A关注了用户B的微博,则A到B连图1 新浪微博用户关系网络图
接一条有向边.从而形成一个有向图.如果A和B之间互相关注,就是一条双向边,将双向边变成一条无向边.
数据分别来源于新浪、腾讯、搜狐的微博开放平台,随机挑选一个节点,使用广度优先算法进行遍历
.得到新浪的一个有8397个节点,475227条边的复杂网络,腾讯的一个有3612个节点,159798条边的复杂网络,搜狐的一个有1783个节点,63969条边的复杂网络.网络图分别如图1,2,3所示.(数据分别来源于新浪、腾讯、搜狐的微博开放平台)
8
5西南师范大学学报(自然科学版) http://xbbj
b.swu.cn 第36卷
图2
腾讯微博用户关系网络图
图3 搜狐微博用户关系网络图
2.2 微博用户关系网络图的统计特征
微博用户关系网络图为有向图,因此分别计算了该网络图入度平均值〈kin〉,出度平均值〈kout〉以及总度平均值〈kall〉.同时给出了出度的度分布、入度的度分布以及总度的度分布.这里总度指出度和入度的和.新浪、腾讯、搜狐微博关系网络的度分布图分别如图4,5,6所示.
从图4-图6中可以看到新浪、腾讯、搜狐微博用户关系网络度分布都服从幂律分布.用最小二乘法进行拟合,分别给出了三大微博用户关系网络图的入度的度分布幂律指数γin,出度的度分布幂律指数γout,总度的度分布幂律指数γall(表1).可以看到三大微博用户关系网络都是无标度网
络.对于微博来讲,一般用户的关注和被关注的数量比较少.少数用户关注和被关注数量比较大,这些用户就是复杂网络里的Hub节点,他们对于新闻、观点等信息的传播起关键作用.
微博用户关系网络的平均度〈k〉、平均路径长度L、度分布的幂律指数γ以及聚集系数C等统计特征的具体数值如表1所示.
通过表1可以看到,对于有几千个节点,上万甚至几十万条边的大型网络,聚集系数在0.2左右,具有较高的聚集系数.平均路径长度都在3左右,也就是微博用户之间平均通过3个用户就可以互相关注,三大微博网络都具有较短的平均路径长度.所以,微博用户关系网络具有小世界特性,信息在微博网络可以迅速传播开来
.
图4
新浪微博用户关系网络度分布图
图5 腾讯微博用户关系网络度分布图
确保英文9
5第6期 尹书华:基于复杂网络的微博用户关系网络特性研究
图6 搜狐微博用户关系网络度分布图
表1 微博用户关系网络图统计特征数据表
微博〈k〉
〈kin〉〈kout〉〈kall〉L
γγin
γoutγallC
新浪56.6 56.6 113 3.314 0.794 1.375 1.099 0.184腾讯44.4 44.4 89 3.197 1.071 1.264 1.038 0.192搜狐
36
36
popular是什么意思>最好听的欧美歌曲72
2.940
1.032
1.114
0.903
0.219
另外我们还计算了三大微博关系网络的各节点的聚集系数,并分析了三个网络图节点度与聚集系数之间的关系(图7)privileged
.
图7 新浪、腾讯、搜狐微博网络图度与聚集系数关系图
从图7可以看到,三大微博关系网络图度与聚集系数的关系都是类似的,对于大规模的网络来说,度越大的节点其聚集系数越小.
3 总结与展望
微博是新兴的媒体形式,微博用户关系网络具有无标度和小世界的特性.信息在微博中传播非常迅速.Hub节点对于信息传播等起关键作用.通过分析微博用户关系网络,可以获取大量信息.对于微博用户关系网络可以进行大量研究,如挖掘社团结构,分析微博内容等,这对企业开展网络营销具有很好的参考价值.参考文献:
[1]ALBARTR,BARABOSI A.Statistical Mechanics of Complex Networks[J].Rev Mod Phys,2002,74(1):47-97.[2] BARABASI A L,ALBERT R,JEONG H,et al.Power-Law Distribution of the World Wide
Web[J].Science,2000,287(5461):2115.
[3] 汪小帆,李 翔,陈关荣.复杂网络理论及其应用[
M].北京:清华大学出版社,2006.0
6西南师范大学学报(自然科学版) http://xbbj
b.swu.cn 第36卷
[4] 唐 红,王海涛,黄 鼎.互联网中突现现象的初步研究[
J].重庆邮电大学学报:自然科学版,2009,21(5):632-637.
[5] 吴 渝,杨艳蓉,吴焕政.基于两层可变聚类系数无标度网络的即时信息传播建模和仿真[
J].重庆邮电大学学报:自然科学版,2009,21(6):785-789.
[6] WASSEMEN S,FAUST K.Social Network Aanlysis:Methods and Applications[M].Cambridge:Cambridag
e Univer-sity
Press,1994.[7] 胡海波,王 科,徐 玲,等.基于复杂网络理论的在线社会网络分析[
J].复杂系统与复杂科学,2008,5(2):1-14.A Research of User Relations Prop
erties Basedon a Complex Network of Microblog
Yin Shu-
huaComputer Science and Information Technology College,Zhejiang Wanli University,Ningbo,Zhejiang
315100,ChinaAbstract:In this paper,the social network in Sina,Tengxun and Sohu MicroBlogs is studied and a com-plex network is constructed.Some properties of the network are gi
ven,such as its degree distribution,convergence factor and average path length.It is verified that it is a scale-free network and a small worldnetwork.
Key 英语职称考试
words:complex network;power law distribution;scale-free property;small-world effect责任编辑 张 栒
1
6第6期 尹书华:基于复杂网络的微博用户关系网络特性研究