Apr. 202#Vol.42 No.4
202#年$月 第$2卷第$期
计算机工程与设计
COMPUTER ENGINEERING AND DESIGN
地质领域开放式实体关系联合抽取
王智广12,文红英12,鲁 强12,申昊错12
(1.中国石油大学(北京)计算机科学与技术系,北京102249;
2.中国石油大学(北京)石油数据挖掘北京市重点实验室,北京102249)
摘 要:为解决地质领域实体关系类型复杂且缺乏大量标注语料的问题,建立基于句法结构的开放式实体关系联合抽取模 型CSSEM (Chine syntactic structure extraction model ) …给出一种基于模式的地质领域实体识别方法,解决地质领域缺乏
实体标注语料的问题;基于少量标注语料自动学习关系抽取模式,使用基于句法结构的抽取模式从非结
构化文本中开放式 地抽取三元组。基于AUC (area under curve )评价标准,CSSEM 与其它方法在地质领域和通用领域的数据集上进行对比
分析。分析结果表明,该模型在上述两个领域取得了更好的准确率和召回率。
关键词:地质领域;句法结构;依存句法分析;实体关系抽取;模式;中文句法结构抽取模型中图法分类号:TP39#
文献标识号:A 文章编号:#000-7024 (2021) 04-0996-10
doi : #0. #6208/j. issnl 000-7024. 2021. 0$. 015
Joint extraction of open entity relation in geological field
WANG Zhi-guang 12, WEN Hong-ying 12, LU Qiang 12, SHEN Hao-kai 12
(1. Department of Computer Science and Technology, China University of Petroleum-Beijing, Beijing 102249, China ;
2. Beijing Key Laboratory of Petroleum Data Mining , China University of Petroleum-Beijing , B
eijing 102249, China)Abstract : To solve the problems of complex types of entities and relations as well as the lack of a large number of annotated cor
pora in the geologi al field &an open model CSSEM (Chine syntaQtiQstruQture extraQtion model )of entity relation extraQtion wastablished &inwhihrelationwaxtraQtedbadonsyntaQtiQstruQture. Apa t ern-badmethodwaspropodforidentif- yingentitiesinthegeologiQalfield &whiQhsolvedtheproblemoflaQkofentityannotationQorpus. RelationextraQtionpa t erns wereautomatiQa l ylearnedbadonasma l amountofannotatedQorpora &andsyntaQtiQstruQture-badpa t ernswereudto openly extract triples from unstructured text. Bad on the AUC (area under curve) evaluation standard, CSSEM and other
methods were compared and analyzed in the geological and general datat. The results show that the model achieves better pre- cisionandreca l inRhefieldofgeologyandgeneral.
Key words : geological field ; syntactic structure ; dependency parsing ; entity relation extraction ; patterns ; CSSEM
0引言
实体关系抽取是信息抽取的核心任务之一*〕,其目的 就是从文本中抽取实体及实体间的语义关系,并将其表示 为结构化的三元组(实体1,关系,实体2),用于构建知
识图谱或推荐等任务。与通用领域相比,地质领域的实体
关系抽取的研究面临两大难点。第一,地质领域的实体和 关系种类多样,难以对实体及关系类型进行准确的定义。
例如,我们很难给出实体“若尔盖坳陷”、“千佛岩组”、
“奥陶纪”和关系“沉积岩最大厚度”、“上覆岩层最早时 期”的准确定义,这些实体和关系与通用领域的实体和关 系差异较大,难以把通用领域的实体及关系类型定义迁移
到地质领域。第二,地质领域缺乏类似于Wikipedia 或
Freeba 的大规模知识库。而人工标注依靠领域专家,难
以获得大量的高质量的标注数据(三元组及来源语句)。为 了应对这一挑战,一些研究者提出了一种可以自动标注大
收稿日期:2020-01-14;修订日期:2020-03-30
基金项目:国家重点研发计划基金项目(2019YFC0312003);国家科技重大基金项目(2017ZX05018-005)
作者简介:王智广(1964-),男,内蒙古通辽人,博士,教授,CCF 高级会员,研究方向为人工智能、三维可视化、分布式并行计算等;
文红英(1995 -),女,山西临汾人,硕士研究生,研究方向为自然语言处理、信息抽取;鲁强$977 -),男,河北唐山人,博士,副教 授,研究方向为知识工程、演化计算;申昊错(1992-),男,山西太原人,硕士研究生,研究方向为自然语言处理、PDF 结构化抽取° E-mail :534255407@qq5com
第42卷第4期王智广,文红英,鲁强,等:地质领域开放式实体关系联合抽取•997•
规模标注数据的远监督方法23+。但是,远监督方法可能会产生嘈杂的数据,这会阻碍基于此类嘈杂数据训练的模型的性能。尽管远监督方法在过滤噪声数据方面已取得重大进展,但远监督方法只能抽取知识库中已存在的关系。而地质领域实体关系抽取中另一个主要挑战是领域语料库中实体和关系种类的多样性,这使得我们很难准确地预定义实体和关系。因此,远监督和基于神经网络的方法在地质领域难以取得较好的效果。开放式实体关系抽取直接从文本中抽取实体及实体间的关系,对标注语料的依赖小且解决了预先定义关系类型体系的问题4。因此,本文主要研究大规模地质领域语料背景下
的开放式实体关系抽取。
目前,通用领域的实体和关系抽取方法仍然存在同一对实体间存在多种关系的关系重叠等问题,并且这些方法仍然需要大量的标注语料库
*+,无法有效解决地质等专业领域实体关系抽取的两个主要挑战:①实体和关系类型复杂;②缺少标注数据。上述方法很难从通用领域迁移到地质领域。受远监督方法6和DSNFs系统7的启发,本文建立了一种根据中文句法结构抽取实体及关系的联合开放式抽取模型CSSEM(Chine syntactic structure extraction mo-del)。该模型解决了地质领域实体关系类型复杂和缺少标注数据的问题,为地质等专业领域的知识图谱的构建提供知识支持,为需要训练数据的有监督和远监督方法建立了基础。
1相关工作
实体关系抽取的研究主要归类为两大类方法:流水线方法和联合学习方法。流水线方法首先对句子进行命名实体识别,然后对识别出来的实体进行两两组合,再进行关系分类,最后把存在关系的三元组作为输出。这种方法存在错误传播和产生冗余信息的缺点,实体识别的结果影响关系抽取的性能。Ja等提出了一种基于抽取范式的开放式关系抽取系统DSNFs7。该系统是基于流水线方法的系统,它根据定义的范式直接抽取关系。抽取范式的普适性有待商榷;且其抽取结果依赖于命名实体识别任务,实体识别的结果影响关系抽取的性能,抽取结果的准确率和召回率都有待提高。尽管深度神经模型的
最新进展使我们能够构建可靠的命名实体识别系统,而无需人工构建特征89+。但是,这样的方法需要大量的手动标注的训练数据。人们一直在努力通过远监督(结合外部词典)来代替人工标注,而生成的嘈杂标签对学习有效的神经模型提出了重大挑战
*0+。因此,基于流水线的模型不适用于地质领域中的实体关系抽取。理想的联合学习可以描述为:输入一个句子,通过实体识别和关系抽取联合模型,直接得到实体关系三元组。这种方法可以克服上面流水线方法的缺点,更适合地质等专业领域的实体关系抽取。同时,由于用于关系抽取的深度神经网络(DNN)的快速发展,一些研究者提出使用神经网络抽取实体和关系的联合模型。Zheng等*⑴提
出一个使用LSTM和CNN分别抽取实体和关系的模型,该模型无需设计复杂的特征工程,但其实体识别和关系抽取是分离的,会产生信息冗余。Zheng等提出了一个新颖的标注机制,将联合抽取问题转换为序列标注问题,解决了分离地抽取实体和关系并且产生信息冗余的问题。但该方法无法解决一个实体和多个实体之间存在关系以及同一实体对存在多个关系的关系重叠的问题。Wang等
*3+通过设计一个有向图机制将联合抽取任务转换为一个有向图问题,使用基于转移的解析框架来解决实体和关系的信息未能完全利用的问题,该方法解决了一个实体和多个实体之间存在关系的问题,但无法解决同一实体对存在多个关系的问题。
现有的通用领域实体和关系联合抽取方法仍然存在诸如关系重叠之类的问题。同时,大多数现有方法
需要大量的手动标注语句来训练监督模型。这在地质等专业领域尤其具有挑战性,因为专业领域的标注代价昂贵且获取较慢。为了上述问,出了一质域的开系型CSSEM,该型从质域
中学习模式,并将提取模式应用于新的领域特定语料库以提取实体和关系。CSSEM模型主要解决的问题及创新点如下:
(1)为解决地质领域存在的实体及关系类型复杂的问题,CSSEM模型给出了一种基于模式的地质领域实体识别和关系抽取方法。模型基于抽取模式开放式地抽取三元组,解决了关系类型复杂的问题;同时,在抽取基本三元组之后,模型基于实体识别模式扩展实体信息,解决了地质领域实体类型复杂而难以准确定义的问题;
(2)为解决地质领域存在的缺乏标注语料(三元组及来源语句)的问题,模型采用Bootstrapping算法基于少量的高精度初始标注语料获得一定量的训练语料,之后在训练语料上依据句法结构从训练语料中学习高频抽取模式,最后使用模式从非结构化的文本中开放式地抽取出大量的三元组,解决了地质领域缺少标注数据的问题。模型使用基于句法结构的模式抽取实体和关系,模式不限定关系类型,解决了同一实体对存在多个关系的关系重叠问题。
2开放式关系抽取模型
图1为CSSEM模型的整体框架思想,模型主要包括训练语料的获取、开放抽取模式的学习和基于抽取模式的开放式实体识别及关系抽取3个模块。其中,/代表句子个数,m代表实体个数,r代表关系个数。2.1小节〜2.3小节分别对CSSEM模型的3个模块进行分析。
・998・
计算机工程与设计
2021 年
来源语句S
[模块2:开放抽取模式的学习
i 厂三元组T InitialSet
图1 CSSEM 模型框架
初始标注语料
(Sj)<
1/
2.1训练语料的获取
Bootstrapping 算法是一个能利用知识库反复迭代以获 取到置信 高的 料的过程。
识库中的三元
组,Bootstrapping 算法提取包含三元组中所有词的句子,
选择置信
高的句子和三 一起作为
加入到标注语料中。由于地质领域缺乏类似于Wikipedia 或Free- ba 的 识库,
首先人工 的高精度初
始标注语料InitialSet (三元组T 和来源语句S )。CSSEM 模型基于Bootstrapping 算法使用初始标注语料InitialSet 来
的置信 高的
料TainSet 。例如, '标注语料InitialSet 中存在三元组(万安盆地&位于&南沙 海域西部)。我们将该三
质领域文档中的所
句相匹配 含三元组所有词语的语句“万安盆地位于南沙海域西部. 含三 的语句 & 将该句子和三 一起作为 料加入 料 TrainSet '
2.2开放式抽取模式的学习
获取到训练语料TrainSet 之后&在TrainSet 上学习开
系抽取中的
是指基于语义分析的
词法、句法和 构的结合,它需要符合人 的语 律,是对人类复杂 的一种总结*$+。图1中的是从地质领域文档的句 构和 中学习出的开放式模式。所谓开放式指的是在抽取之前并不知道
和关系的类型和 ,直接从 中 及 :
间的关系。但与传统的基于Bootstrapping 的OLLIE 系
统*5+
不同,OLLOE 系统基于语句学习
板,而模型CSSEM 学到的 是基于中文句
构的。句 构
的基 型
谓结构、动宾结构、 构、 构和 构⑺。这5 型 了汉语的基
系。中文句子的表述没有通用的模版,但中文的句
构 5
基本的类型,也就是说,中文的句 构是有通用定义
的。因此,CSSEM 模型基于中文句法结构学习的抽取模式
是具有代表性和普适性的,
适 质领域。
CSSEM 模型基于句
构学习开
实体及 的关系,而依存句法分析的 是通过分析
count函数
位内成分之间的依 系来揭
句法结构*6
+。
,CSSEM 模型依赖依存句法分析的
。
依存句法分析的 基于LTP [⑹平台。基于依存
关系的模型已被验证在关系 中 ,它们捕获了表现形 糊的远距离句法关系*
7
+。
,本文的模型在
句子 或句子结构复杂的地质领域能够 的 :。
以图2为例,图2是例句经过LTP 依存句法分析后得到的
。图中连接线上的
是由LTP 定义的依赖
,代
C00
R00T 储层 岩性 在 凹陷地区 为 中细砂岩, 砾岩 主要 分布 于 独山子 地区
图2依存句法分析标签
第42卷第4期
王智广,文红英,鲁强,等:地质领域开放式实体关系联合抽取
・999・
表不同句法成分的关系即句法结构。例如,图2中的“砾 岩”和“分布” 是主谓关系,以SBV 识。图中
从 的含义分别是:HED 代表整个句子的核心,ATT 代表定中关系,SBV 代表主谓关系,ADV 代表状中 结构,POB 代表介宾关系,VOB 代表动宾关系,WP 代表& COO 代表并
系,CMP 代表动 构。图2包含了
中图3、图4和图5中提到的所 。
为了学习模式,我们首先在依存句法分析结果上提取 连接每个三 和相关句子的 和关系词的依赖路径- 使
释路径中的 和关系 ,即将具 词
变为“实体”标签,并用“关系”标签替换依赖路径中关 系内容词 建每个三元组的关系 。模型统计训练语
料中相似的关系 ,同时,对所有相似的关系排序
高频的抽取模式。学习的关系
图3所
。图中的模式是模型 稳定后的
&
部
民事诉讼案由分地质领域的语句。关系
1
谓结构,关系抽是动宾结构的
,模式3〜
5
结构的关系
&
6代
构的关系
•模
,模式7〜模式9代 构的关系 。 识
别模式10如图4所示& *+
代表出现一次或多次。
衷心与忠心的区别
图3高频的关系抽取模式
句法结构关系抽取模式
依存句法分析结构
输出
主谓结构模式1
ROOT Entity Relation
(Entity,Relation)丽江什么时候去最合适
动宾结构
模式2
”HED^^VOB 、
ROOT Relation Entity
(Relation,Entity)
偏正结构
模式3
/SBV 、ADV
VOB
鸭架汤
\
ROOT Entity 1 Adv W ord Relation Entity2
Relation=AdvW o rd+Relation
(Entity 1,Relation,Entity 2)模式4
^H 7SB}V AD V P0B \
ROOT Entity 1 Relation Adv W ord Entity2
Relation=AdvW o rd+Relation (Entity 1,Relation,Entity2)
模式5
/
HEpSBV ADV ppB —VOB^
ROOT Entity 1 Relation Prep PrepObj Entity2
Relation=Prep+PrepObj+Relation (Entity 1,Relation,Entity 2)补充结构
模式6
/HED 、SBV CMP POB VOB
厂厂7 V V \
ROOT Entity 1 Relation Prep PrepObj Entity2
Relation=Relation+Prep Entity2=PrepObj+Entity2 (Entity 1,Relation,Entity 2)
联合结构
模式7
—HED a SBV
、
VOB
\
ROOT
Entity 1 Entity2 Relation Entity3
(Entity 1,Relation,Entity3)(Entity2,Relation,Entity3)模式8
'HED-SBV VOB COO
厂 /、7、
ROOT Entity 1 Relation Entity2 Entity3
(Entity 1,Relation,Entity 2) (Entity 1,Relation,Entity3)模式9
ROOT Entity 1 Relation 1 Entity2 Entity3 Relation 1 Entity4
(Entity 1,Relation,Entity 2) (Entity 1,Relation,Entity3)
实体识别
依存句法分析输出
实体识别模式
10
/ATT^zATT 、
••-
AttWord
Entity
Entity : [AttWord] *+Entity
图4扩展实体信息的实体识别模式
2. 3基于抽取模式的开放式实体和关系抽取
得到高频的抽取模式之后,CSSEM 模型在抽取时应用学习到的抽取模式。本节描述如何使用这些开放模式从新句
子中识 及 系。虽然模型中实体识别和关系是一
的,但为阐述清晰,本节将其分
分析。
2.3.1基
的 识别
由于地质领域的
复杂,难以对实体类型进行准确的定义。例如:“大巴山构造~源岩”、“四川盆地油气
层”。通
域的
型 人名、地名、机构名、专
名词等,该 型分类在地质领域意义不大。分析地
质领域的 特点, 中地质领域的实体类型
名、
・1000・
计算机工程与设计
2021 年
专业术语、地名+专业术语、专业术语+专业术语的组合-
“四川盆地油 层”就是专业术语“四川盆地”和专业术语“油 层”的 ,代
质领域的
质领域缺乏相应的 料,
的实体
识别模型
和识别较为困难。并且分析地质领域实
特 ,地质领域文档的 在句子成分中充当 :
或宾语的成分。
上领域
特点&并 基于训练TainSet 学习岀的
,模型给岀了 一 依赖实
料的基 的地质领域实体识别方法,方
基 和
信息两部分。如果不曾相遇
(1) 抽取基本的
词:首先基于依存句法分析结果&
从ROOT 岀发,找到与HED 接的“关系词”
。再根据“关系词”和“实体” 依 系相连
定位基本的“实体”,不同句法结构对应的依存标签不同, 图3所示。图3主谓结构中 系 SBV 相连
的
代表基本的
&图3动宾结构中与关系 【以
VOB 标签相连的是基本的实体。(2)
信息:定位基本实体后,采用图4中的实体识 的信息, 义完整的且具 :际意义的实体。
图5中例句“背景因素主要包括盆地类型、沉积
岩厚度” 识别方
释,图中 2中依存句
分析 中的ROOT 是 型的入口。 在步3 中 首 找 ROOT
HED 相 的 系 词
“包括”;再根 8关系词找到基本的 词“因素”;
最后&
基本的 词“因素”和 的 词“背景”在依存句法分析 ATT ,匹配
图片自然风景
信息的实
体识别模式可得完整的实体“背景因素”。
荷花的图片
统的基
线的 系 是在实体已经识别
的情况
的关系。 质领域
名实
识别模型,所 致基
名 识
的关系抽取
型 差。一般情况下,关系是存在 个
的。
的模型CSSEM 首 系词,之后在关系词的
基础上 句法层面的信息辅助识
&识别的
】
类
型不受限制。经分析和实验结果验证可知,本文提岀的实
体识别方 句法层面的信息辅助 &在地质专业领域的
识别上 的 &
了地质领域的
识 在的问题。
2.3.2
基 的 系
上一
型中的 识别,本节进一步分析基于抽取模式的地质领域关系
。
基 的地质领域关系抽取如图1中模块3所
示。输入是一系 构化 ,模型预处理这些文本,
即将这
句子划分;然后,模型通过依赖分析工具
(如LTP )分析句子成分;再用学习到的抽取模式匹配句子
的依存关系的结构并识别岀 和关系 &从 三
步骤3:关系抽取模式与依存句法分析结果匹配
步骤1:输入句子集
SBV 、ADV VOB
步骤4 :扩展实体信息的实体识别模式
实体识别模式10
ATT ATT / \/ \ ... AttWord| Entity 图5 基于抽取模式的实体识别和关系抽取流程
(Entity 1,Relation,Entity/)(Entity 1,Relation,Entity3)
实体1关系实体2因素包括
盆地类型
因素
包括厚度
扩展实体信息后的最终输出结果
实体1关系实体2背景因素包括
盆地类型背景因素
包括
沉积岩厚度