学科核心研究主题识别及其演化路径可视
化方法研究*
——以我国医疗健康信息领域期刊论文为例
岳丽欣周晓英陈旖旎
(中国人民大学信息资源管理学院,北京100872)
摘要:[目的/意义]识别某领域期刊论文中蕴含的核心研究主题及其发展趋势,有助于掌握学科领域的研究热点和研究动态,可视化展示医疗健康信息领域研究主题的发展脉络对于深入分析这个领域的快速发展过程具有重要的意义。[方法/过程]论文探索学科核心研究主题识别及其演化路径可视化方法,首先利用LDA 模型进行主题识别,结合多维尺度分析和可视化技术将LDA主题识别结果映射到二维空间,识别主题之间的关联关系,确定核心主题、次要主题;然后,利用主题相似度算法探测相邻时期主题之间的关联,提出一种新的可视化展示方法,构建不同类型研究主题的交叉演化路径,以揭示核心主题、次要主题在演化过程中关系的动态变化。[结果/结论]通过对我国医疗健康信息领域的主题进行实证研究,验证了本方法的可行性和有效性,同时应用可视化分析结果研究了医疗健康信息领域的近年的热门主题及演化状况。
关键词:核心研究主题;主题识别方法;主题演化路径;可视化方法;医疗健康信息
分类号:G251.2
近年来,利用关键词词频分析(Keyword frequency analysis)、共词分析(co-word analysis)、引文分析(Citation Analysis)、主题探测与追踪(Topic Detection and Tracking)和主题演化(Topic Evolution)等不同的方法来分析学科领域中的研究主题及其发展趋势[1],成为国内外情报学研究的热点。但目前研究多基于Citespace、Ucinet和SPSS等软件工具进行研究主题识别及其发展趋势分析,随着数据量以及用户细粒度需求的变化,共词网络、引文网络等宏观、静态结果逐渐难以满足学科情报分析需求[2]。
目前,基于主题类型划分的研究主题演化动态路径及其时序变迁的研究成果较少,为弥补这一不足,本文首先研究了核心研究主题识别及其演化路径可视化分析方法,提出了构建核心主题和次要主题两种不同类型研究主题的交叉演化路径的一种新的可视化方法,以CNKI期刊全文数据库医疗健康信息领域的论文数据进行实证分析,并应用可视化分析结果具体分析了医疗健康信息领域核心主题和次要主题的演变过程。
1 文献综述
1.1 学科主题识别
主题识别是指利用文献计量、自然语言处理等方法技术对科技文献中的研究主题进行挖掘分析目前主题识别主要有基于共词网络、社区探测和LDA主题模型等几种方法和模型。相关研究如:Albert等[3](2010)运用共词网络分析方法,进行学科主题识别,并利用该方法分析了北美地区远程教育的主演研究主题及其发展趋势;程齐凯等[4](2013)提出基于社区探测模型的学科主题识别方法;王效岳等[5](2017)提出基于LDA模型的学科主题识别方法,并利用美国国家自然基金资助的基金项目数据进行了实证研究,验证了方法的可行性。
*本文是国家自然科学基金项目“医疗健康网站信息可信度与质量控制研究”(项目编号:71473260)与国家社科基金项目“健康中国建设中的国民健康促进和健康服务策略研究”(项目编号:16AZD021)研究成果之一。
1.2 学科主题演化
主题演化是指在时间维度上期刊论文中蕴含的研究主题的动态变化过程,它主要描述了某学科研究主题在一定时间内的成长、分裂、融合、衰退等状态,有助于揭示研究的现状、变化和趋势。如何从海量的学术论文中准确、有效地识别研究主题的演化脉络并进行可视化展示成为目前亟需解决的问题。目前很多学者开展了学科主题演化研究,研究成果如:李湘东等[6](2014)提出一种基于LDA模型的科技期刊主题演化分析方法,引入时间因素,基于LDA主题识别及JS散度计算结果实现主题在强度、
内容两方面的演化;刘自强等[7](2016)提出了多维度视角下的学科主题演化分析方法,构建了主题强度、主题结构和主题内容三个维度的主题演化模型,通过对国内图情领域的大数据研究领域的实证研究验证了该方法的准确性和有效性;周源等[8](2018)将期刊论文外部特征(作者)融入主题分析中,基于加权雅可比相似度算法构建了作者—主题的演化模型,能够分析某一研究主题在不同时期下的影响力较高的学者。
1.3 主题演化路径可视化
数据挖掘、可视化领域的研究人员针对主题演化做了大量研究,提出了众多主题演化可视化方法、工具。比如:S.Havre等[9](2002)提出ThemeRiver可视化模型,横轴表示时间,不同颜色的线条表示主题,并通过粗细表示主题在不同时间窗口下的强度,从展示某学科领域的整体主题演化脉络;Rosvall等[10](2008)基于冲积图(Alluvial Diagram)提出一种社区主题演化可视化分析方法,将不同时期窗口下的社区展示在横向时间维度上,并以不同颜色的线条表示社区演化路径;王晓光等[11](2013)开发了基于共词网络分析的学科主题演化可视化分析软件Neviewer,提供赋色网络图、冲积图绘制功能,可以有效揭示学科主题演化的宏观过程和微观细节。
通过对现有的研究成果的分析发现:在学科主题识别方面,目前的研究大多进行静态主题识别,对于主题之间的相对重要性分析不足,实际上学科主题在不同时间段内主题之间存在主、次关系,将研究
主题等同看待一定程度上限制了学科现状及其发展趋势分析的准确性和有效性;在学科主题演化方面,目前的研究侧重于通过分析主题强度、内容等不同维度的特征来分析其融合、分裂过程,但研究主题之间的关联关系识别以及主题关系在不同演化阶段的变化有待进一步深入研究;在主题演化路径可视化方面,目前的方法主要侧重对相邻时期主题的关联分析,对同一时间窗口下主题的相互关系的分析成果较少。针对目前研究中的局限,本文提出一种基于主题类别划分的主题识别及其演化路径可视化方法,对上述不足加以改善。
2 基于主题类别划分的研究主题识别及其演化路径可视化方法
2.1 方法的理论依据
期刊论文的关键词和主题词是其核心内容的提炼,研究主题是有效表征学科知识的基本单元。因此,可以通过文献计量、自然语言处理方法识别蕴含在期刊论文中的研究主题,分析某学科领域的热点、前沿和发展趋势。
美国海军研究所(Office of Naval Rearch, ONR)的Kostoff等[12]将研究主题分为普遍主题(pervasive themes)和副主题(sub-themes),通过实验分析了两种主题的关系:普遍主题和副主题具有紧密的关联关系,其中,当普遍主题发生变化会引起副主题的变化,但是副主题的变化基本不会引起普遍主题的变化;当普遍主题保持稳定时,副主题也可能会发生变化。普遍主题和副主题共同
组成了完整的学科领域主题网络,在学科主题演化分析中,区分研究主题的主次关系,综合考虑两者的协同作用能够提升分析的准确性和有效性
本研究借鉴Kostoff 学科主题分析研究的基本思想,根据其提出的“普遍主题”和“副主题”概念,本研究中按照主题的重要程度将论文的主题划分为“核心主题”和“次要主题”两类,提出基于主题类别划分理论基础的学科核心主题识别及其演化路径可视化方法。
2.2方法的流程与思路
基于主题类别的学科核心主题识别及其演化路径可视化方法基本步骤和思路为:第一步,根据学科领域确定数据源(数据库)、检索策略和时间区域等,进行期刊论文数据的收集整理;第二步,在数据预处理和划分时间窗口的基础上,利用LDA 模型进行主题识别;第三步,结合多维尺度分析和可视化技术将LDA 主题识别结果映射到二维空间,识别主题之间的关联关系,确定核心主题、次要主题;第四步,利用主题相似度算法,探测相邻时期主题之间的关联,提出一种新的学科主题演化路径可视化方法,构建不同类型研究主题的交叉演化路径,以揭示核心主题、次要主题在演化过程中关系的动态变化。
下面对上述步骤中的主要内容进行具体介绍:
2.2.1 基于LDA 模型的研究主题识别
近年来学界提出了不少主题模型,如潜在语义索引[13] (Latent Semantic Analysis, LSA)、概率性潜在语义索引[14] (probabilistic Latent Semantic Analysis, pLSA)和LDA 模型等。与LSA 和pLSA 模型相比,LDA 模型不仅能预测训练集文档的主题分布而且能够有效预测非训练集中的文档和词的主题分布,因此,LDA 模型逐渐成为分析大规模非结构化文档集的主要的工具之一。
LDA 是一种三层(词、主题和文档)贝叶斯概率模型,该模型假设文档是由若干隐性主题组成,而主题是由词表中的所有词汇组成。LDA 主题模型的联合分布概率如公式(1)所示:
()()()()
βθθθ,||w |w ,,1n n N n n z w P z P P z P ∏==
(1) 其中,z 表示主题,w 表示主题词N 表示第m 个文档的单词数目,θ为参数α的Dirichlet 分布采样。由于LDA 主题模型相较于其它主题识别方法(比如关键词聚类、社区探测等)能够更加准确、高效的分析文本主题,因此,本文之后将基于python 的scikit-learn 工具包进行医疗健康信息领域的主题识别。
2.2.2 基于MDS 的核心研究主题识别
LDA 主题识别的结果一般难以直接分析不同主题之间的关联关系,为了获得研究主题中的核心主题,
本文在上一步LDA 主题识别结果的基础上,采用多维尺度分析(Multidime nsional scaling ,MDS ),利用主题间的相似性构建低维空间,使得LDA 主题在此空间的距离和在高维空间中的LDA 主题之间的相似性尽可能的保持一致,从而可视化LDA 主题的相互关系,直观地识别学科核心主题。
本研究中使用Python 下的pyLDAvis 工具包来绘制动态交互式的LDA 主题可视化图谱,分析研究主题之间的关联关系,从而识别核心研究主题以及次要研究主题。pyLDAvis 可以通过调节参数λ(0 ≤ λ ≤ 1)来控制主题-词语关联度relevance(term w | topic t),即可以控制显示某一主题的不同的下位词项。λ=0时,显示主题下特有的、相对独立的下位词项,即这些词项往往只出现在该主题;λ=1时,显示分布概率更高的下位词项,但是这些高分布概率的词项往往不单独属于该主题,也会同时属于其它主题。参数λ计算方法如公式(2)所示。
())φλ)log(-(1)λlog(φλ|,r w kw kw p k w +=
(2) 其中,w 表示主题词,w ∈{1, V }; k 表示主题,k ∈{1, K};φkw 表示Gibbs 采样参数;p w 表示主题词w 的分布概率。
2.2.3 核心主题、次要主题演化路径可视化
在前文的主题演化路径可视化相关研究分析基础上可知,目前ThemeRiver 、Textflow [15]和NEViewe
r 等演化路径可视化方法模型主要侧重对相邻时期主题的关联分析,并且将所有主题等同对待,难以有效分析同一时间窗口下的主题的相互关系以及不同类型主题的演化关系。因此,本文提出一种新的领域核心研究主题识别及其演化路径可视化方法:基于R 语言的流式图形分析核心主题、次要主题演化路径的可视化方法,该方法能够有效揭示核心主题、次要主题在演化过程中分裂、融合等关系的动态变化。
与现有的主题演化路径可视化方法模型相比,本文设计的演化路径可视化图谱能够分析某一类型研究主题随时间推移的流动模式,且可以分析核心主题、次要主题等不同类型研究主题之间的交叉演化脉络,展示关联关系的动态变化过程。
可视化的基本样式如图1所示,其中,块代表主题,块之间的流式图形代表随着时间的推移这些主题的演化路径(关联变化),粗细表示主题之间的关联强度;块的高度表示主题的强度(文献概率分布越高,主题块越大);核心研究主题用粉色标记(pink ),次要研究主题用蓝色标记。
图1 核心、次要主题演化路径可视化示例
3主题识别和主题演化可视化方法在医疗健康信息领域的应用
以下以我国 “医疗健康信息”领域主题识别和主题演化分析为例,验证上述方法的可行性和有效性。
3.1 数据源及其预处理
本文选择CNKI 期刊全文数据库作为数据源,收集题名、关键词和摘要等关键题录信息。具体检索策略如下:检索数据库: CNKI ;检索策略:主题 =“医疗健康信息”;时间跨度无限制;检索结果: 704篇;检索时间:2018 年 6 月 3日。得到文献数量年度分布如下图2所示。
图2 论文数量年度分布
排斥的反义词目前研究者进行主题识别和演化分析,需要划分时间窗口以明确主题演化的时间维度(将期刊论文数据划分到若干连续的子时期),划分时间窗口的方法主要有根据数据的时间标签确定、研究者按照年度固定时间窗口的两种方法[16-17]。本文采用按照年度固定时间窗口的方法,将检索结果划分为四个子时期,各个子时期年份和文献数量见下表1。
表1主题识别与演化子时期划分
时期年份文献数量
I 1996年-2009年68
怎么做手链II 2010年-2012年112
III 2013年-2015年241
IV 2016年-2018年283 由于2010年以前,国内医疗健康信息相关研究较少,因此划分1996年-2009年为子时期I(68篇),2010年以后研究成果逐渐增多,所以每三年划分为一个子时期,2010年-2012年为子时期II(112篇);2013年-2015年为子时期III(241篇);2016年-2018年为子时期IV(283篇)。
高考体育特长生由于主题识别仅需要分析文本字段,所以单独抽取出题名、关键词和摘要,对下载的四个子时期的期刊论文进行数据预处理,为主题识别做准备,处理内容主要包括格式转换、去重、去除停住词和标点符号等。
3.2基于LDA模型的医疗健康信息研究主题识别
本文利用Python的jieba分词工具包进行中文分词后在进行LDA主题识别。为了提高分词结果的准确性,本研究基于第一步收集的医疗健康信息领域的期刊论文的关键词构建分词词典(关键词是期刊论文内容的高度概括与凝练,与jieba工具包自带的分词词典相比更加准确保持作者所想表达的主要词汇),该词典的基本格式为词-词频-词性,由于本研究不涉及词性分析因此忽略,自定义词典以txt格式保存,通过jieba.load_urdict("")进行调用。
利用python的jieba分词工具包进行中文分词后,利用python的scikit-learn工具包进行LDA主题识别(按照所划分的四个时期依次进行LDA主题识别)。经过处理之后,各个子时期的LDA主题识别结果,每个时期只展示了部分研究主题(本文只列举前5个,下位词表中展示部分),后面是其对应的关键词和下位关键词,按照出现频率排序,如表2 所示。
耿弘
表2我国医疗健康信息领域不同时期研究主题及下位关键词列表(部分)时期主题关键词
赏识的意思Ⅰ时期(1996-2009)健康档案健康档案|健康传播|信息技术|区域医疗|老年人|贫困地区|大众传媒|发达国家|医疗服务健康平台卫生局|B2C|健康网|医疗健康服务|看病难|统一标准|健康信息资源平台|安阳市|看病贵健康管理健康管理|居民健康信息系统|消费者|医疗信息|特需医疗服务|非营利|调查报告|联合会伊尔本
健康信息工作医疗健康信息|老年慢性病|健康信息|远程关怀|网络健康信息|成长之路|信息工作
健康医疗信息健康医疗信息|医疗档案|控制权|金卫网|隐私权|高速公路|医疗网络|个人信息|国家级|综合性
秦三世子婴>脱氮除磷