DBLP科研合作网络的建模与拓扑特征分析
贾思媛;许勇;赵海;艾均
失望用英语怎么说
【摘 要】使用DBLP(databa systems and logic programming)提供的文献索引作为原始数据,对计算机及其相关领域合作发表论文形成的科研合作网络进行了研究.通过解析xml元数据,构建DBLP科研合作网络拓扑并计算其网络拓扑常规参数,分析了若干参数的统计特征,发现DBLP科研合作网络是小世界网络,但无标度特性不明显;该科研合作网络的中心与边缘拓扑反映不同的科研合作模式;DBLP复杂网络的k核与科学家的h-指数并无强相关性.最后使用观察结果讨论了复杂网络的研究发展及本实验室在计算机相关领域的学术定位情况.
【期刊名称】盛年不再来《东北大学学报(自然科学版)》
【年(卷),期】2013(034)010
【总页数】4页(P1396-1399)
【关键词】DBLP;科研合作网络;复杂网络;核数;简约;社团
【作 者】贾思媛;许勇;赵海;艾均
冉奎【作者单位】东北大学信息科学与工程学院,辽宁 沈阳 110819;东北大学信息科学与工程学院,辽宁 沈阳 110819;东北大学信息科学与工程学院,辽宁 沈阳 110819;东北大学信息科学与工程学院,辽宁 沈阳 110819
【正文语种】中 文
【中图分类】TP399
复杂网络作为一个新兴的多学科交叉研究方向,正在快速渗透到各学科的前端研究与应用中.复杂网络发展历史可以参考文献[1],本文不再赘述.社交网络是一种典型的复杂网络,小世界网络被认为最早起源于此[2].而科研合作网络也是一种社交网络,是推动科学进步和知识转移的重要载体,已经有多位学者对科研合作网络进行了研究.文献[3]研究了科学家合作网的演化性质.文献[4-5]在数学家、物理学家和生物学家科研合作网络上做过研究并得到以下结论:科学家合作网既有小世界网络的性质,又有无标度网络的特征;点权的分布P(s)与度分布P(k)的情况类似,都有长尾(heavy tail)现象;度数小的节点的聚类系数会更高,
表明合作者较少的科学家之间在一起合作的机会更大一些.情报计量学中的洛特卡定律表明一定时期内某一学科或主题内,撰写了x篇论文的作者数y(x)与x满足幂律关系,不管学科或主题如何变化,幂指数都在1.2~3.7之间,且大致按自然科学、技术科学、社会与人文科学的顺序递增.国内也有一些关于科研合作关系的例证[6].计算机领域学术科研合作涵盖多个分支与交叉研究方向,科研人员背景复杂,学术专长不一,但是因为共同的科研项目而在一起展开合作,之前的研究包括了科研合作网的静态特性及其不同参数的统计特征以及演化模型的研究[7],而本文着重在科研合作网络的核数统计特征以及社团特性上做一些深入探讨.
1 数据获取与网络拓扑的构建
DBLP提供计算机科学文献索引服务,从早期的小规模试验性Web服务发展成为了一个受计算机科学界欢迎的服务.DBLP提供计算机领域文献的xml格式索引文件,文件结构是每一文献记录作为一条记录,记录内有文献标题,作者以及期刊的卷号和期号等属性.DBLP的文献索引并不完美,因为直到目前为止这个系统中都在使用作者姓名作为索引键值,而没有作者的唯一ID,所幸维护者使用了多种方法来处理姓名的同形同音异义词和同义词[8],
美育的实施途径
虽然效果不尽如人意,但是因为其比例较小,对网络拓扑统计特征的影响是非常小的.使用SAX方式解析该文件的同时构建网络拓扑模型,使每一位作者都是一个顶点,如果两个作者曾经合作发表过论文,那么他们之间就有一条边相连.两位科研人员之间可能有过科研合作,但是未必有论文发表,与之相反,两位共同发表论文的作者之间则肯定有科研合作关系,所以这是一个相对内缩和严谨的科研网络.相较于之前的研究,本文使用更全面的数据集,包含2 037 940条文献记录,时间跨度也更大,从1936年到2012年.数据集的文献类型分布为:硕士论文9篇,博士论文6 912篇,图书9 329部,会议论文集18 283部,书籍独立章节22 582篇,期刊论文848 910篇,会议论文1 131 915篇,总计2 037 940篇(部).
2 DBLP网络拓扑特性腊八节的故事
通过计算得出该网络拓扑的基本参数数据,见表1,其中平均最短路径长度为6.107 2,平均聚类系数为0.748 5.它同时具有较小的平均最短路径长度和很高的平均聚类系数,因此这是一个小世界网络.每篇论文的作者数量以3人居多,4人以上显著减少,DBLP科研合作网络中每位作者的共同作者数分布情况和每位作者的文献数分布情况见图1.
表1 网络拓扑基本数据Table 1 Basic data of network topology参数数值节点数1156584边
数4186491平均聚类系数0.7485平均度7.2397网络直径24平均路径长度6.1072最大核数118最大连通子图82.9207%
了不起的小助理图1 每个作者的合作者数与文献作者数分布情况Fig.1 Coauthor per author & author per publication
对数坐标系下观察该网络的度分布及其拟合,如图2所示.假设其符合幂律分布,则其在对数坐标下是一条直线,因此作者对网络度值k和网络中节点的度分布情况p(k)的对数做了线性拟合,并在matlab中使用power law fit[9](极大似然估计,拟合方法会估计最小观察值并做截取)对DBLP科研合作网络的度分布做拟合.本文分别使用线性回归检验和k-s检验方法对拟合进行了拟合优度检验,在SPSS中其R2为0.946,系数标准误差分别为0.069和0.030,而k-s检验中p值为0,说明拟合效果并不够好,基本可以确定其度值并不符合幂律分布.Newman曾经研究类似的科研网络,并用带参数截断的幂律分布对其进行了拟合:
f(x;α,λ)~x-αe-λx.
(1)
式中,α和λ是常数.通过拟合优度检验,取得较好的效果.作者认为科学研究专业多,细分的方向更加复杂,即使一个非常优秀的研究人员也很难从这样的网络中获得很高的连接数(度),因为这要求他(她)在多个研究领域都要优秀并广泛合作,因此才会出现拟合线与实际分布在尾部的分歧.Newman认为带参数截断的幂律分布拟合效果更好的原因可能是数据来源的时间窗口太短,而本文使用的数据时间跨度已经很大,作者认为可以排除这一因素的影响.
图2 DBLP科研合作网络的度分布及其对数坐标下的拟合Fig.2 Fitting and distribution of DBLP network under logarithmic coordinate
计算了DBLP科研合作网络的k核分布,见图3,发现该网络核数最高达到118,相较于同规模的互联网拓扑有更高的核数.在一般的期刊或会议论文中最多的是3到5位作者发表论文,而很少有几十甚至上百位科学家一起发表论文的情况,除非有重大研究成果.在科研合作网络中这反映了:在前沿或尖端的科研方面科学家们有更加紧密和普遍的合作,而不同于常规的科研合作模式,因为在科研合作网络的边缘常有稀疏的局部网络以及一些树形结构,而除了最大的联通子图之外,还有大量超小型子网.限于网络规模,现有可视化工具难以对
该网络进行可视化操作,对该网络在核深度层次上做了简约,如图4所示,其30核网络子图有大约5 000节点,利用FUCLN[10]算法对该子图做社团划分,模块度为0.938,划分出64个社团.通过对社团成员的分析可知:基本上每个不同社团都有一个单独的研究方向例如核苷酸研究、网格计算,SOC和WLAN等社团,社团结构非常明显,社团之间差异显著,而且多数社团的成员之间有多人合作(一般在8人以上)的文献.随机选取了一个社团并对该社团成员的度分布、核数以及被引用数和h-指数(h代表“高引用次数”,指科研人员至多有h篇论文分别被引用了至少h次)值做了计算和统计分析,发现社团成员度值大体相近,核数基本相同,而被引用次数和h-指数则有较大波动,如图5所示.通过观察可知在核数层次上简约之后的网络拓扑非常适合查找科研合作网络中的不同研究方向的社团.
图3 DBLP科研合作网络的k核分布Fig.3 k-core distribution of DBLP network
从30核简约网络中对Strogatz,Barabsi和Newman等几位作者对应的节点进行了搜索,他们都是复杂网络研究先驱并且在《Nature》等顶级期刊发表过复杂网络相关研究成果,结果显示他们并不在30核简约网络中.由此可见复杂网络研究方向还未形成较大的研究人员规模,不同单位的科研合作还不普遍.本文还在DBLP网络中搜索了本实验室人员,发现也都
毕加索未能进入30核简约网络.本实验室的作者最大度值是102,最大核数为22,而多数节点核数在10以内.由于网络规模太大,不方便可视化地看到在网络中的位置,因此作者对DBLP网络又进行了度值层次的简约.图6是DBLP 80+度简约网络图,其规模为6 243个节点和90 836条边,使用前述社团划分算法,本文对这一简约网络也进行了社团划分,但是效果相比基于核数的简约网络效果差了很多,其模块度仅为0.673,划分出了25个社团.本实验室人员为图中*点标注的节点,可以看到他们同时和大量其他节点划入了同一个社团.因此本科研团队还需要在提升自身科研水平的同时更多地与其他科研团队合作才能更好地提升本课题组的影响力.
图4 DBLP科研合作网络的30核网络简约图Fig.4 30-core sub-graph of DBLP coauthor network
图5 被引用数和h-指数Fig.5 Citation counts and h-indexcl是什么
图6 DBLP科研合作网络的80+度网络简约图(图中*号表示东北大学嵌入式技术实验室的科研人员)
Fig.6 80+degree simplified network of DBLP coauthor network(* denotes rearchers in Embedded Technology Laboratory of Northeastern University China)