第54卷 第6期2021年6月
通信技术
Communications Technology
Vol.54 No.6今日时事新闻
Jun. 2021
文献引用格式:张政平,倪建成.基于本体的孔子世家谱知识图谱[J].通信技术,2021,54(6):1370- 1377.
ZHANG Zhengping,NI Jiancheng.Ontology-bad knowledge graph of confucian genealogy[J].
Communications Technology,2021,54(6):1370-1377.
doi:10.3969/j.issn.1002-0802.2021.06.013
邓丽欣歌曲基于本体的孔子世家谱知识图谱*
张政平,倪建成
妈妈格桑拉教案
(曲阜师范大学,山东 济宁 273165)
摘 要:知识图谱对深入探究孔子世家谱内容的语义表示、语义推理及其应用具有重要作用。基于家谱领域知识和孔子世家谱的数据特点,提出了一种融合骨架法和七步法的世家谱本体构造方法,并应用本体建模工具Protege构建了世家谱本体。此外,在利用基于规则的实体识别方法抽取非结构化数据的基础上,采用Neo4j图数据库存储并完成了孔子世家谱知识图谱的构建。结果显示,孔子世家谱知识图谱为深入研究谱牒文化、拓展儒家文化应用范围提供了一种新的范式。
关键词:知识图谱;本体构建;孔子世家谱;家谱本体;Neo4j
中图分类号:TP391 文献标识码:A 文章编号:1002-0802(2021)-06-1370-08
Ontology-bad Knowledge Graph of Confucian Genealogy
ZHANG Zhengping, NI Jiancheng
(Qufu Normal University, Jining Shandong 273165, China)
Abstract: The knowledge graph plays an important role in the in-depth study of the mantic reprentation, mantic reasoning and its application of the Confucian Genealogy. Bad on the do
main knowledge of genealogy and the data characteristics of Confucian Genealogy, this paper first propos a genealogy ontology construction method combining Skeletal Methodology and ven-step method, and us the ontology modeling tool Protege to construct the genealogy ontology. Then, on the basis of extracting unstructured data with rule-bad entity recognition method, the Neo4j graph databa is ud to store and complete the construction of the knowledge graph of Confucian Genealogy. The results indicate that the knowledge graph of Confucian Genealogy provides a new paradigm for further studying genealogy culture and expanding the application range of Confucian culture.
Keywords: knowledge graph; ontology construction; Confucian Genealogy; genealogical ontology; Neo4j
0 引 言
家谱是一种表谱形式的特殊文献,记载了以血缘关系为主体的家族世系繁衍信息和重要人物的相关事迹信息等。它不仅包含了整个家族可追溯的家族来源、迁徙轨迹以及人物描述等结构化数据,还隐含了独有的文化传承、族规家约等历史文化信息。
* 收稿日期:2021-02-28;修回日期:2021-05-27 Received date:2021-02-28;Revid date:2021-05-
27基金项目:国家自然科学基金青年科学基金资助项目(No.61601261);山东省研究生教育质量提升计划项目(No.SDYY17136)Foundation Item: Youth Program of National Science Foundation of China (No.61601261); Plan Project of Graduate Education Quality Improvement of Shandong Province (No.SDYY17136)
十七帖
图2 世家谱本体构造流程
明确本体的应用范围
作为孔子世家谱知识图谱的模式层,世家谱本体用于描述孔氏家族的世系、人物概念及其之间的关系。因而,世家谱本体应该准确描述记载家谱的书籍信息、家族支派信息和人员详细信息,由此才
能够清晰反映出各人物及其之间的关系,以便进行人物分类,进而避免形成超级节点。
考查复用现有知识本体的可能性
通过调研已有的家谱领域本体模型,对夏翠娟
[11]的上海图书馆家谱本体和陈艳[12]的中国家谱知识本体进行分析复用。
列出领域中的重要术语
什么是哲理本文从孔子世家谱中析取出相应的重要术语,
图3 世家谱本体的核心类
定义类的属性及约束车辆调度
将核心类之外的术语进行归纳整理,作为属性划分给对应的类,且明确类与类之间的关联。类的属性包括对象属性和数据属性。世家谱本体的
核心类共包含11个对象属性和若干数据属性。使Protege表示的对象属性和数据属性分别如图所示。
4 世家谱本体的对象属性
古代冷兵器5 世家谱本体的数据属性
应用本体建模工具Protege进行本体建模表示,
格式文件。
世家谱本体OWL文件部分内容如下。
直播方案策划图6 本体实例化示意
图7 世家谱本体模型
3 基于规则的家谱实体识别
在世家谱本体中,大量的又名、字、号、居住地、墓葬地以及配偶等数据属性蕴含于人物的生平事迹中,可以使用基于规则的实体识别技术进行提取。
基于规则的实体识别中,首先对要抽取的某个实体类型进行数据分析和统计。其次,迭代制定、测试分析和更新规则,直到识别出更多更准确的实体为止。最后,将规则应用于全部数据,完成该实体类型的识别。
下面以又名、号和寿数3个数据属性为例,诠释实体的具体识别过程。
3.1 又名的实体识别
通过统计,又名的前缀一般包括本名、一名、初名、改名、后名、又名、原名、学名、官名以及庠名等,且可以先将又名的字数默认与名的字数相同,然后根据以下条件更改字符串长度。
条件1:若取2个汉字超出字数范围,则只取1个汉字。
图8 “又名”实体识别示例
3.2 号的实体识别
从《孔子世家谱》原始数据中随机抽取出1 000 条存在号的数据作为测试数据,用以规则的制定。通过对测试数据的统计和分析发现,古人的号通常由两个汉字组成,但也有例外,如有些人会使用特定名词另起一个别号。比如,3个汉字号的形式通常为“号+{两个汉字}+(子|翁|叟|人)”,4个汉字的形式通常为“号+{两个汉字}+(先生|老人|居士|外史|山人|散人|道人)”等。因此,号的识别规则可以表示为:
号<;人物的号>(先生|老人|居士|外史|山人|散人|道人|渔|樵|翁|叟|人)?
将以上规则应用于全部数据中,共识别出号2 332 例,其中有9例存在别号。识别效果如图9所示。
3.3 寿数的实体识别
寿数在数据中的形式比较统一,描述为“年XXX卒,卒年XXX,年XXX薨,薨年XXX”,因此规则描述如下。
规则1:年<;人物寿数>(卒|薨)
规则2:(卒年|薨年)<;人物寿数>
将以上规则应用于全部数据中,共识别出寿数175例。识别效果如图10所示。
此外,从生平事迹中提取出“字”实体7 644例,“出生日期”实体327 694例,“死亡日期”实体22 132例,“配偶”实体222 716例,“居住地”实体84 019例,“墓葬地”实体94例。