fruit可数吗中文异构百科知识库实体对齐英语记忆术
软件开发培训班作者:黄峻福 李天瑞 贾真 景运革 张涛
来源:《计算机应用》2016年第07期
摘要:针对传统实体对齐方法在中文异构网络百科实体对齐任务中效果不够显著的问题,提出一种基于实体属性与上下文主题特征相结合的实体对齐方法。首先,基于百度百科及互动百科数据构造中文异构百科知识库,通过统计方法构造资源描述框架模式(RDFS)词表,对实体属性进行规范化;其次,抽取实体上下文信息,对其进行中文分词后,利用主题模型对上下文建模并通过吉布斯采样法求解模型参数,计算出主题单词概率矩阵,提取特征词集合及对应特征矩阵;然后,利用最长公共子序列(LCS)算法判定实体属性相似度,当相似度位于下界与上界之间时,进一步结合百科类实体上下文主题特征进行判定;最后,依据标准方法构造了一个异构中文百科实体对齐数据集进行仿真实验。实验结果表明,与经典的属性相似度算法、属性加权算法、上下文词频特征模型及主题模型算法进行比较,所提出的实体对齐算法在人物领域和影视领域的准确率、召回率与综合指标F值分别达到97.8%、88.0%、92.6%和98.6%、73.0%、83.9%,比其他方法均有较大的提高。实验结果验证了在
accu的用法>中译英翻译构建中文异构百科知识库场景中,所提算法可以有效提升中文百科实体对齐效果,可应用到具有上下文信息的实体对齐任务中。
关键词:
lacie
知识库;实体对齐;主题模型;资源描述框架模式;最长公共子序列算法
中图分类号: TP391.1 文献标志码:A
0引言
语义网[1]提供一种在不同应用和个体间共享和重用数据的整体框架,是Web 3.0的重要特征。目前万维网主要面向文档,供人直接阅读和理解;语义网则主要面向文档所表示数据,使计算机能够理解并通过推理引擎进行逻辑演算,是人工智能的重要目标。语义网的建立需要高质量的知识库作为数据支撑。目前,国外具有代表性的知识库有FreeBa[2]、DBpedia[3]、维基百科本体知识库(Yet Another Great Ontology,YAGO[4])及Omega[5]等;国内的知识库有百度知心、搜狗知立方及清华大学双语知识库XLore[6]。知识库在知识图谱、智能语义问答及信息融合等自然语言处理领域均有重要意
considerate义[7]。国外的知识库如FreeBa等提供了公开的资源描述框架(Resource Description Framework, RDF)数据源,但所含中文数据量较少,如何构建高质量的中文RDF知识库是目前的研究热点。采矿工程排名>thereare
第83届奥斯卡