⼯具
⼯具类型数据量⽀持的数据库及数据类型HistCite
⽂献计量⽀持⼤型数据WOS CiteSpace
⽂献计量10000条以内WOS,PubMed,Derwnet,Scopus,GoogleScholar,ArXiv,ADS,NSF,CSSCI,CNKI VOSviewer
⽂献计量⽀持⼤型数据⽹络格式:⽀持Pajek 得net,GML;书⽬数据:WOS,Scopus,PubMed;语料库:WOS,Scopus SciMAT宫崎骏动画
⽂献计量10000条以内WOS(txt),Scopus(RIS),CSV 格式SCI2⽂献计量10000条以内⽹络格式: GraphMl(xml,graphml), XGMML(xml),Pajek(net),NWB(nwb); 书⽬数据: WOS(isi), Bibtex(bibi), Endnote(enw), Scopus csv(scopus),NSF csv(nsf);
其他: Pajek Matrix(mat),TreeML(xml),Edgelist(edge),CSV(csv)Bibexcel ⽂献计量⽀持⼤型数据WOS(txt),Scopus(ris),转化后的CSSCI
Bicomb ⽂献计量⽀持⼤型数据WOS(txt),PubMed(xml),万⽅(xml), CNKI(xml) , ⾃定义数据格式
SATI ⽂献计量⽀持⼤型数据WOS(html),CNKI(Endnote),万⽅(NoteExpree) ,维普(Notefirst)Pajek 社会⽹络⽀持⼤型数据⽂本数据,⽀持各种软件导出(net,vec,clu,per,cls,hie 等),Ucinet 的DL 格式
Ucinet 社会⽹络⽀持⼤型数据原始数据,Excel,数据语⾔数据GOPubMed ⽂献计量100000⽆语导⼊数据
本地PubMed ⽂献计量⽀持⼤型数据⽆语导⼊数据PubMedplus ⽂献计量⽀持⼤型数据
⽆语导⼊数据⽂献信息分析⼯具的⽐较2015,⽂献分析⼯具对⽐
⽂献信息分析⼯具的⽐较2015
笔记内容节选于 20151115 李艳; 张悦; 曾可; 张⼠靖 发表的期刊《⽂献信息分析⼯具的⽐较》
1选取具有代表性的13种⽂献信息分析⼯具,
2从⽀持的数据格式、数据预处理、构建的关系矩阵、标准化处理、分析⽅法、结果的可视化等⽅⾯进⾏了⽐较,
3总结了每个⼯具的优势与不⾜,并为⽤户选择合适的分析⼯具提出了建议。
⼯具基本信息
⼯具
开发机构开发年份版本是否免费HistCite
美国Thomson Reuters 200112.3.17否(有试⽤版)CiteSpace
美国 Drexel ⼤学2004 3.8R13是VOSviewer
荷兰 Leiden University 2010 1.6.0是SciMAT
西班⽛格纳纳达⼤学2011V1.1.03是SCI2
美国印第安纳⼤学KatyBornoe 2009V1.1是Bibexcel
瑞典科学家Persson 20092014.03.25是Bicomb
中国医科⼤学2009 2.0是SATI
浙江⼤学⼤学信息管理系2011 3.2是Pajek
A.Mrava 和V.Batagelj 1996 3.04是Ucinet Lin Freeman -
6.0否(有试⽤版)GOPubMed 德国Transinsight 公司和德累斯顿⼤学2005
-是本地PubMed 中国济南泉⽅2007
- 否PubMedplus 北京唯博赛科技有限公司
2012-否(有试⽤
版)
⽀持的数据格式
数据预处理
⼯具数据预处理⽅式
HistCite数据精简
南瓜的家常做法CiteSpace时间切⽚、数据和⽹络精简
VOSviewer数据精简、⽹络精简
SciMAT去重、时间切⽚、数据和⽹络精简
SCI2去重、时间切⽚、数据和⽹络精简
Bibexcel数据和⽹络精简
Bicomb数据精简
SATI中⽂分词
Pajek⽆
Ucinet⽆
GOPubMed基于语义分类⼯具GO&MeSH
本地PubMed基于语义分类⼯具GO&MeSH
PubMedplus基于语义分类⼯具GO&MeSH,单位和
作者异名的规范和汉化
显⽰Sci MAT和SCI2 包含4 种数据预处理模块,优势明显; ⼤部分⼯具⽀持数据精简和⽹络精简; Pajek和Ucinet⽆数据预处理功能。GOPub Med,Pub Medplus和本地Pub Med基于语义分类⼯具GO&Me SH引⼊本体概念,⽀持语义级的交换,可消除或减少由于同义词或相近词概念及术语的混乱,在语义数据处理⽅⾯优势明显。此外,Pub Medplus还增加了单位和作者异名的规范处理功能。
实现的关系矩阵
合式公式⼯具书⽬耦合合作共引共词直接引⽂其他
作者期
刊
⽂
献
作
者
国
家
机
构
作
者
⽂
献
期
刊
HistCite*
CiteSpace*********
VOSviewer*********
SciMAT***********
SCI2*********
Bibexcel*********
Bicomb****
SATI******
Pajek*
与植物有关的成语Ucinet
GOPubMed*
本地
PubMed
*
PubMedplus****
关系矩阵中最常见的分析单元是期刊、⽂献、参考⽂献、作者、主题词或关键词。分析单元之间的关系可分为三类。第⼀类是直接引⽂关系,即直接从信息的发送者到信息的接受者。第⼆类是将分析单元之间的关系⽤做共现数据,即通过计算两个分析单元在⽂献中同时出现的次数来衡量两个分析单元之间的相似性,包括合作、耦合、共引和共词。合作⽤来分析研究领域的社会结构,共词则是使⽤⽂献中最重要的主题词或者关键词研究⼀个领域的概念结构[27],共引和书⽬耦合⽤来分析研究领域的知识结构。区别在于,书⽬耦合是固定和永久的引⽂关系,共引关系是随时间⽽变的[28]。第三类是⼀些不常见的或复杂的⽹络。表4 列举了各种分析⼯具可以创建的关系矩阵。可以看出,没有⼀个⼯具
可以创建全部关系矩阵,⼤部分⼯具都⽀持共现矩阵的创建,其中Citespace,Vosviewer,Sci MAT,SCI2,Bibexcel等可以构建多数关系矩阵,但只有Histcite和SCI2⽀持直接引⽂⽹络。相对于GOP
ub Med和本地Pub Med仅关注于⼀种⽹络,Pub Medplus可以构建4种⽹络,Pajek和Ucinet 则不⽀持⽂献计量学⽹络的创建。此外,SATI可以创建包含词条共现矩阵、频率分析矩阵、⽂档词条矩阵等在内的8 种矩阵。
标准化处理
构建了分析单元的关系矩阵之后,需通过标准化处理对数据间的相似性进⾏测量来获得数据之间的隐含关系,简⽽⾔之就是对数据进⾏规范化
⼯具标准化⽅法
HistCite⽆
CiteSpace Salton's余弦、Jaccard'指数
菠萝怎么切VOSviewer关联强度
SciMAT关联强度、Equivalence指数、Inclusion指数、Jaccard指数、
Salton余弦
SCI2⽤户⾃定义
Bibexcel Salton余弦、Jaccard指数、Vladutz和Cook标准化
Bicomb⽆
SATI Equivalence指数
Pajek⽆
卫生间玻璃隔断
Ucinet Jaccard指数,cohen’s kappa, identity系数, correlation,
hamming-sim
GOPubMed潜在语义分析
本地PubMed潜在语义分析
PubMedplus潜在语义分析
常⽤标准化处理⽅法有Salton's余弦、Jaccard'指数、Equivalence指数、关联强度等[2]。如表5 所
⽰,⼤部分分析⼯具都使⽤了上述⽅法中的⼀种或多种; GOPub Med,Pub Medplus,本地Pub Med则因使⽤GO&Me SH⼯具,使⽤潜在语义分析将语料库与本体进⾏连接; Pajek和Histcite则⽆规范化处理的功能。
分析⽅法
分析⼯具所⽤的分析⽅法很多,如⽹络分析、地理空间分析、时间序列、性能分析、突变检测等。⽹络分析是测量某⼀节点在整个⽹络中的中⼼度,或⼀个聚类在图谱中的中⼼度; 地理空间分析则是回答事件在哪⾥发⽣及其对周围区域的影响; 时间序列,或纵向分析旨在分析不同时间段研究领域的演变,主要通过对趋势、离群、活动、模式和季节性等的观测,是知识图谱分析中最常见的⼀种分析⽅法; 性能分析使⽤基于引⽂的⽂献计量学指标和⽅法来量化图谱和⽹络中不同元素的重要性、影响和质量; 突变检测是时间序列分析的⼀种,旨在发现有限的持续时间内变量的剧烈变化[1]。表6 显⽰,最常见的⽅法是⽹络分析、时间序列分析和突变检测。其中,Citespace,Sci MAT和SCI2 的分析⽅法最多; Ucinet采⽤多种⽹络分析指标。本地Pub Med和Pub Med-plus等都使⽤了期刊影响因⼦、H指数、被引频次等指标; 此外,Pub Medplus使⽤了替代计量学的评价指标Altmetric得分,本地Pub Med增加了威望指数。
⼯具⽂献计量学指标分析⽅法
HistCite⽆聚类分析,时间序列分
析
CiteSpace频次/中⼼性,初现年,Burst值,∑
值,PageRank,半衰期突变检测,地理空间分析,⽹络分析,时间序列分析
VOSviewer⽆⽹络分析,主题分析
SciMAT Callon’s密度和中⼼度,H-指数,g指
数,hg-index,q2指数,平均引⽂数,最
⼤引⽂数,最⼩引⽂数基本数据统计分析,⽹络分析,性能分析,时间序列分
SCI2⽆突变检测,地理空间分
代加工合同
析,⽹络分析,时间序
列分析,主题分析,基
本数据统计分析Bibexcel⽆基本数据统计分析,⽹
etc怎么收费络分析
Bicomb频次,百分⽐,累计百分⽐聚类分析
SATI批次聚类分析
Pajek中⼼度,⽴即指数,密度⽹络分析、时间序列分
析
Ucinet中⼼度,⼆⽅关系凝聚⼒测度,位置分析
算法,派系分析,随机⼆⽅关系模型
⽹络分析GOPubMed⽆聚类分析、地理空间分
析、分类导航分析吗、
主题分析
本地影响因⼦、威望指数、H指数、Q分区、聚类分析、主题分析、
本地PubMed H指数、Q分区、聚类分析、主题分析、
知识发现
PubMedplus H指数,被引次数,Altmetric聚类分析、主题分析、
地理空间分析
可视化图谱
可视化图谱⽤来帮助⽤户分析和理解结果。
⼯具可视化图谱
HistCite引⽂编年图
CiteSpace⾃动聚类标签视图、时间线视图、时区视图、鱼眼视图
VOSviewer⽹络可视化视图、条⽬密度视图、聚类密度视图
SciMAT条⽬叠加图、演变地图、战略图、聚类⽹络
SCI2⼆分⽹络图、⽔平条形图、等值线图、⽐例符号地图、此外可
通GUESS、Gephi、Cytoscape等插件进⾏可视化
Bibexcel导⼊Pajek、Ucinet、Vosviewer等进⾏可视化
Bicomb导⼊SPSS、Gclute进⾏聚类分析
SATI内嵌Netdraw可视化⼯具
Pajek2D、3D或者动态的社群图
Ucinet散点图、树状图、树形图,以及Netdraw内置的画图⼯具
GOPubMed地图、聚类图、趋势图、条形统计图
本地PubMed指纹共词图、趋势图、聚类⽹络
PubMedplus趋势图、地图
在时间序列分析的可视化中,Histcite使⽤编年史图,Citespace使⽤时间线视图,Sci MAT使⽤演变地图和重叠条⽬图,GOPub Med,Pub Medplus 和本地Pub Med则使⽤的是趋势图。 Citespace,Vosviewer,SCI2,Pajek,Ucinet,GOPub Med,本地Pub Med等可实现多种类型的可视化图谱。其中SCI2 是⼀个模块化的⼯具集,除⾃⾝所具备的可视化技术,还内置多种可视化软件; SATI,Bibexcel,Bicomb等不具备可视化功能,需要借助其他可视化软件。
结论
通过对13种分析⼯具的⽐较,可以看出每⼀个⼯具都有着不同的特点,没有⼀个⼯具能够囊括所有的功能。⽐较结果显
⽰,Citespace,SCI2,SciMAT功能较完整,其他⼯具也有各⾃的优势。对13种分析⼯具特点归纳如下。
Histcite主要⽤于对书⽬数据进⾏基本的统计分析,以时间序列编制引⽂编年史图展⽰领域的演变路径,但⽆法对数据进⾏标准化处理,分析⽅法较少。
Citespace⽀持中⽂数据库在内的多个数据库,可以构建常见的关系⽹络,采⽤多种⽂献计量学分析⽅法定量分析可视化结果,从多个⾓度展⽰某领域的演变历程,但其⽆法实现数据的去重。
Vosviewer的优势在于可视化,能从多个视图对结果进⾏展⽰,可构建多种矩阵,并⽀持⽂本挖掘,
但其⽆法实现数据的去重,不能通过时间演变展⽰⼀个领域的演进路径。
SciMAT具有强⼤的预处理能⼒,能构建多种⽂献计量学⽹络,并以⽂献计量学指标对结果的影响⼒进⾏定量分析,还可通过配置向导的⽅式引导⽤户进⾏分析。
SCI2是⼀个模块化⼯具集,集合了多个⼯具的功能,⽀持多种格式的输⼊,分析⽅法多样,在可视化⽅⾯拥有丰富的插件,但在使⽤上有⼀定的难度。
Bibexcel专门⽤来构建⽂献计量学关系矩阵,具有⾼度的灵活性,需借助其他的可视化软件来进⾏可视化分析。
Bicomb⽀持中⽂数据库,能进⾏基本的统计分析,并⽣成多种共现矩阵和词篇矩阵,但数据处理和可视化⽅⾯存在不⾜。
SATI⽀持中⽂数据库,实现基本的统计分析,能构建多类矩阵。
Pajek⽀持⼤型的⽹络数据,不仅可以构建⼀些普通的⽹络图,还⽀持特殊⽹络的构建,具有强⼤的图形处理能⼒,但不⽀持⽂献计量关系矩阵的创建,数据预处理能⼒差。
Ucinet可导⼊矩阵,也可⾃⾏创建,具有⽹络分析功能,内置可视化软件,但不⽀持⽂献计量学矩阵的创建。
GOPub Med是最早使⽤基于本体的语义分类⼯具,⽀持分类导航分析,使⽤户能快速找到最相关的⽂献,但创建的关系矩阵单⼀。
本地Pub Med使⽤多个计量学指标对⽂献进⾏评价,可以从多个⾓度对分析结果进⾏可视化。
Pub Medplus基于Pub Med,在数据处理⽅⾯解决了作者重名的问题,其最⼤的优势在于其强⼤的聚类分析功能。
对⽤户选择分析⼯具的建议
由于⽂献信息分析⼯具种类众多,在开展分析时,应了解不同⼯具的特点,再根据不同的分析⽬的、特性和拟解决的问题,选择恰当的分析⼯具。⼀是要根据数据源选择合适的⼯具。若数据源为PubMed,可以选择GOPubMed,PubMedplus或者本地PubMed及⽀持PubMed数据库的⼯具;对于⽤户⾃⾏创建的矩阵数据,选择Pajek或Ucinet。⼆是Citespace,SCI2,SciMAT,Vosviewer,SATI,Bibexcel,Bicomb等⼯具均可⽤于共现分析。⼀般来讲,⽤户可以根据数据源选择上述任何⼀个⼯具进⾏分析。不过共词分析和合作者分析需要对源数据进⾏去重,所以应选择SciMAT 或SCI2。Bibexcel,SATI和Bicomb等⼯具主要⽤于构建各类关系矩阵,但需借助其他⼯具进⾏可视化。三是不同的⼯具分析⽅法不同,⽤户可根据需求进⾏选择,如时间序列分析,需⽀持时间序列分析的⼯具,选择Histcite,Citespace,SciMAT,SCI2,Pajek等⼯具;对于直接引⽂⽹络
的构建,选择Histcite和SCI2等⼯具。四是Citespace,SciMAT,Ucinet,本地PubMed和PubeMedplus等具有多种⽂献计量学指标,可以对产⽣的图谱进⾏定量分析。五是对于中⽂数据,Bicomb和SATI⽀持中国知⽹和万⽅数据库,Citespace⽀持中国知⽹和CSSCI数据库,Bibexcel⽀持转化后的CSSCI数据库。六是可考虑多个⼯具联合使⽤,因为没有⼀个软件可以实现全部的功能。
对⽂献信息分析⼯具研发⼯作的建议
⽂献信息分析⼯具是⽂献计量学、社会计量学、统计学、图形学、信息科学和计算机科学技术相结合的产物。国内对⽂献信息分析⼯具的研究起步晚,专业⼈员的投⼊不⾜,应加强多个领域的合作研究[29]。⽂献信息分析⼯具针对书⽬数据进⾏分析,数据库导出的数据越丰富,⽂献信息分析⼯具的价值越⾼。国内的⼤型数据库不⽀持引⽂数据的导出,故⽆法进⾏引⽂分析,应进⼀步加强与国内全⽂数据库的合作,促进双赢。⼤部分⽂献信息分析⼯具通过图谱实现对某⼀学科宏观和微观、定性和定量的把握,图谱的视觉效果对于结果的解读起着“⼀图胜千⾔”的作⽤。因此,要进⼀步加强分析⼯具的图谱展⽰功能。
结语
⽂献信息分析⼯具有着探测前沿热点、预测发展⽅向的作⽤。科学研究⼈员学会选择和使⽤这些⼯具,将使他们的科学研究更加⾼效。