第35卷第5期2021年5月
中文信息学报
J O U R N A L O F C H I N E S E I N F O R M A T I O N P R O C E S S I N G
Vol. 35,No. 5
被子英语
M ay, 2021
文章编号:1003-0077(2021)05-0070-07
基于深度学习的中文生物医学实体关系抽取系统
丁泽源s杨志豪、罗凌s王磊2,张音2,林鸿飞s王健1
(1.大连理工大学计算机科学与技术学院.辽宁大连116024;
2.军事医学科学院,北京100850)
摘要:在生物医学文本挖掘领域,生物医学的命名实体和关系抽取具有重要意义。然而目前中文生物
医学实体关系标注语料十分稀缺,这给中文生物医学领城的信息抽取任务带来许多挑战。该文基于深度学习技术搭建了中文生物医学实体关系抽取系统。首先利用公开的英文生物医学标注语料,结合翻译技术和人工标注方法构建了中文生物医学实体关系语料。然后在结合条件随机场(Conditional Random Fields, C R F)的双向长短期记忆网络(Bi-directional LSTM, B iL S T M)模型上加入了基于生物医学文本训练的中文ELMo (Embedding from Language M o d e l)完成中文实体识别。最后使用结合注意力(A tte n tio n)机制的双向长短期记忆网络抽取实体间的关系。实验结果表明,该系统可以准确地从中文文本中抽取生物医学实体及实体间关系。
关键词:命名实体识别;关系抽取;条件随机场;双向长短期记忆网络
中图分类号:TP391 文献标识码:A
Chine Biomedical Entity Relation Extraction System Bad on Deep Learning
D IN G Z e y u a n1, Y A N G Z hihao1 . L U O L in g1 . W A N G Lei2,
cancollegeZ H A N G Yin2,L IN H on g fei丨,W A N G J i a n1
(1. School of Computer Science and Technology, Dalian University of Technology*Dalian»Liaoning 116024, China;
2. Academy of Military Medical Sciences* Beijing 100850»China)
lily英语培训
Abstract:In the field of biomedical text minings biomedical named entity recognition and relations extraction are of great significance. This paper builds a Chine biomedical entity relation extraction system bad on deep learning technology. Firslly^ Chine biomedical entity relation corpus is construction from the publicly available F!nglish biomedical annotated corpora via translation and manual annotation. Then this paper applies the ELMo ( Embedding from Language Model) trained in Chine biomedical text to the Bi directional LSTM (BiLSTM) combined conditional random fields (C R F) model for Chine entity recognition. Finally, the relation between entities is extracted using BiLSTM combined with the Attention mechanism. The experimental results show that the system can accurately extract biomedical entities and inter-entity relation from Chine text.
Keywords:named entity recognition;relation extraction;C R F;BiLSTM
〇引言
伴随着生物医学领域的飞速发展,生物医学领域的相关文献数量也呈现指数级別增长。由于文献 中蕴含着海量的生物医学知识,人工提取文献信息需要耗费大量的时间,而且很难满足相关的研究人员的研究需求。因此.如何自动地从生物医学文献中抽取结构化信息成为一个重要的研究领域。
在当前自然语言处理(n a t u r a l l a n g u a g e p r oc e s s i n g,N L P)研究中 ,文本挖掘技术的兴起给上述难题提供了相应的解决方案。文本挖掘技术是指从非结构化的文本数据中自动发现和抽取有价值知识的过程,而命名实体识别和关系抽取任务是文本挖掘技术中关键的步骤。对于给定的一段文本,实体 识别和关系抽取技术需要在辨别实体的基础上,抽
收稿日期:2019-12-12 定稿日期:2020-02-02
基金项目:国家重点研发计划项目(2016YFC0901902)
丁泽源等:基于深度学习的中文生物医学实体关系抽取系统71 5期
取出实体之间的关系。如今实体识别和关系抽取越
来越多地被应用于专业领域,如医疗、教育、生物等
领域。由于生物医学与人类的健康密切相关,因此 该领域的信息抽取技术也受到学界的广泛关注。然 而生物医学领域中有大量的专业名词的缩写,并且 名词与名词之间也存在着不同种类的关系,这给生
物医学领域的信息抽取任务带来了挑战。基于此,本文构建了一个基于深度学习的中文生物医学实体关系抽取系统,该系统可以自动地识别中文生物医
学文献中的实体以及实体间关系。
生物医学命名实体识别(b i o m e d i c a l n a m e d
天然气英语
e n t i t y r e c o g n i t i o n,B i o-N E R)是生物医学文本挖掘
的基本步骤,B i o-N E R任务的目标是从给定的非结构化医学文本中识别出相关的实体(如疾病、药物、蛋白质、症状等)。由于生物医学领域的以下特性:(1)在生物医学领域常常出现专业名词的缩写。不 同的实体常常对应着同一个缩写,这些缩写会导致歧义问题。(2)在生物医学领域,同一个实体可能有不同的命名方式,这些实体缺乏统一的命名方式,导致实体名的稀疏,给实体识别带来了很多困难。以上的这些特性使得生物医学领域的实体识别具有很大的挑战性。
生物医学领域的关系抽取(r e la tio n e x t r a c t i o n,R E)是要实现从生物医学文本中识别出生物医学实体(如疾病、药物、基因、蛋白质等)之间的语义关系并形成关系网络。当前,生物医学领域的关系抽取研究主要集中在基因与基因的关系、蛋白质与蛋白质互相作用关系、基因与疾病的关系、基因与治疗药物之间的关系等方面。
本文提出的基于深度学习的中文生物医学实体关系抽取系统是流水线结构。首先利用公开的英文生物医学实体关系标注语料,结合翻译技术和人工标注方法构建中文生物医学实体关系语料;然后将预训
练好的E L M o m作为新的特征输人到B i L S T M +C R F模型中[2],与现有的中文实体识别模型相比,我们的模型可以很好地缓解专业名词缩写引起的歧义问题和实体名稀疏的问题,从而提高实体识别的性能。为了捕获的语义信息,本文使用结合注意力(A t t e n t i o n)机制的双向长短期记忆网络(B i L S T M)抽取实体间的关系[3]。不同于英文,汉 字往往具有很强的语义信息。本文对笔画信息进行建模,将其作为中文独有的特征加人关系抽取的模型中,以此来提高关系抽取的性能。1生物医学语料构建
1.1语料库的标注体系
语料库标注是对原始语料进行预处理,使用便于
计算机存储以及读取的标注格式,并结合语料本身特page turner
殊需求进行标注。T E I(t e x t e n c o d i n g i n i t i a t i v e)是机
器可读文本的国际信息编码规范u]。T E1标注模式
是由计算语言学学会、文学与语言学计算协会和计算
机与人文科学学会三家学术团体共同参与制订的。目前许多大型语料库都是基于T E1标注准则的,如 “英国国家语料库”等。
本文结合生物医学语料本身特点以及T E I便 于计算机存储及读取等特点,采用T E I标注与自定
义标注相结合的方式进行标注。标注体系包括以下
内容:蛋白质(p r o t e i n s)、化学物(c h e m i c a l s)、疾病(d i s e a s e s)、药名(d r u g)、脱氧核糖核酸(D N A)以及 核糖核酸(R N A)。实体间关系标注为存在关系或
者不存在关系。
1.2 语料库的构建
本文构建的中文生物医学语料来源于英文生物
医学实体关系标注语料B io C r e a tiv e C D R (C h e m i c a l-D is e a s e R e l a t i o n,C D R)■语料和 J N L P B A (I n t e r n a-t io n a l J o i n t W o r k s h o p o n N a t u r a l L a n g u a g e P r o c e s s i n g in B io m e d icin e a n d I t s A p p l i c a t io n s)16]语料。B io C re a tiv e 评测是国际上用于生物自然语言处理研究的重要评测。B io C rea tiv e任务中化学物-疾病关系(C D R)语
料作为本系统中的英文语料库来源之一。j N L P B A是 与国际计算语言学会议同时召开的公开评测会议,其 主要评测任务是生物命名实体识别。
本文结合翻译技术和人工标注方法构建中文生物医学实体关系语料。在使用翻译技术构建语料的过程中,主要遇到以下两个问题:①确定译文中实体位置的问题。在翻译过程中,原文中的实体位置与译文中实体位置不是相对应的,因此如何确定译文中实体的位置就成了一个难点。②实体翻译不准确问题。在生物医学实体中包含着大量的缩写、特殊符号和数字,这些符号对英文翻译的质量造成很大影响。统计 发现,常常由于D N A、R N A等缩写的翻译不准确,导致 得到的中文生物医学实体关系语料质量不高。
因此,本文在构建中文生物医学的实体关系语料过程中,采用以下方式解决上文描述的问题:由
72中文信息学报2021年
于生物医学语料中的实体都是专有名词,如果将这些实体用特殊符号代替,并不会对句子产生很大影响。经过人工检查发现,这种方法不仅能确定译文中的实体位置.还能改善由缩写、符号和数字带来的翻译不准确问题。所以问题①的解决方法为:先将 英文语料中的实体用特殊字符代替,然后单独处理实体,最后将处理好的实体代替译文中的特殊符号。针对“实体翻译不准确”的问题,本文通过百度文库、博客和人工积累的英文实体,建立了一个包含3 291 个中英文医学实体的对照表。后续用到的英文实体直接进行查表,这样不仅提高翻译的准确度,还进一 步改善了中文生物医学语料的质量。翻译好的中文数据集与英文数据集对比如表1所示,中英文实体对照表如表2所示。
表I中英文生物医学数据集对比
数据集关系句子(加粗字体为实体)
中文无关在为服用伐地昔布的妇女选择口服避孕药时,应考虑到正炔诺酮和炔雌醇暴露量的增加。
数据集有关阿那格雷可能加剧具有类似性质的药品如米索酮.依诺苷酮.氨力农,奥普力酮和西洛他唑等药物的作用。
英文Fal
the incread exposures of norethindrone and ethinyl estradiol should be taken into consideration when lecting an oral contraceptive for women taking valdecoxih.
数据集
True the effects of medicinal products with similar propertie.s such as inotropes milrinone, enoximone. amrinone, ol- prinone and cilostazol may be exacerbated by anagrelide.
表2中英文实体对照表
英文实体中文实体缩写alkaline phosphata碱性磷酸酶AKP
acid phosphata酸性磷酸酶ACP
alanimine peptida丙氨酸氨基肽酶AAP
2 生物医学实体识别
生物医学命名实体识别(B ioN E R)是指从给定的非结构化医学文本中识别出相关的实体(例如疾病、药物、蛋白质、症状等)。生物医学实体识别过程主要包括以下两个部分:①实体边界识别;②实体类 别确定。命名实体识别通常是知识挖掘、信息抽取的第一步,被广泛应用在自然语言处理领域。
由于词嵌人(word embedding)在自然语言处理任务中普遍获得很好的效果[8],所以几乎所有的自然语言处理任务中都会添加word embedding。目前常用的获取word em bedding方法都是通过训练语言模型(language model),将语言模型中预测的隐层状态(hidden state)作为词的表不,在给定N 个字的序列(Z,,r2,…,r v)中,前向语言模型就是通过前々一1个输人序列(£1山,…山-I)的hidden 表示,预测第A个位置的字,这种做法的缺点是对于每一■个字都有唯一■的em bedding表示,因此word em bedding不能解决一词多义的问题。而在生物医学领域中同一个实体常常会具有不同的缩写和不同
的命名方式。如果只使用word em bedding作为模型的输人,这将会引起歧义,从而导致模型对于专业名词识别的效果不理想。所以本文在模型中添加了E L M o向M解决歧义问题。由于E L M o只预训练language model,word embedding 是通过输入的句子实时输出的,所以E L M o可以根据上下文单词的语义去调整单词的word embedding表示,经过调整后的word embedding能表达单词在上下文中的具体含义,从而缓解歧义问题,如图1所示。
T't2tn L S T M)—M L S T M ,:L S T M)(L S T M%-~(L S T M <L S丁 ~-^L S T M}——^L S T M)(L S T M>~~(L S T M
^2... E n
图1E L M o 模型
丁泽源等:基于深度学习的中文生物医学实体关系抽取系统73 5期
本文在网上爬取大量的中文生物医学文本预训练中文EL M o。训练好网络后,输入的句子中的每一个字都有对应的二.个embedding。
E L M o用到图1所示的双向语言模型,对于给定一个句子(h,/2,…,/v),前向计算方法,language m o d e l通过给定前面的々一1个位置的字序列计算第々个字的出现概率,如式(1)所示。
N
欧美,〇,•••,/N)=|/,,/2,•••)(1)
*= 1
后向的计算方法与前向相似,如式(2)所示。
N
,•••,,v) =|,~+2,•••,/.v)(2)
务
b iL M训练的目标就是最大化下面的最大似然函数,如式(3)所示。
V—
X)(log/?(G U l 山,…山-1 ;U lstm,义)+
* = 1
l〇g/)(/* |/山+2,...".V ;沒了,0|_sTM,沒..))(3)
E L M o对于每个字,通过一个L层的b iL M计 算出2L+1个表示,如式(4)所示。
&=U i.心i'” 七U= 1,…,L }
… (4) ={a i.”U =〇,…,[}
其中,x P是对每个字直接编码的结果,/=
i s]代表l i M的每个b iL M的输出结果。
具体应用时,将E L M o中所有层的输出K压缩 为单个向量,通过一些参数来联合所有层的信息,如 式(5)所示。
morldI.
ELM〇r k=E(,R k ;6>,a5k)(5)
>=〇
其中,是s o ftm a x的结果,y I a s k是一个与具体任务相关的参数。
对于输人句子X,先将句子X输人预训练好的E L M o中,句子X中每个字在E L M o网络中都能获得对应的三个词嵌人,之后给予这三个词嵌人中的每一个词嵌人一个权重,这个权重可以学习得来。然后通过各自权重累加求和,将三个词嵌人整合成一个词嵌入。最后将整合后的这个词嵌人作为句子X在命名实体识别任务的网络结构中对应字的输人,本文将得到的词嵌人作为补充的新特征输人到BiLSTM+C R F模型中。
本文的命名实体工作,首先将句子X输人预训练好的E L M o,得到句子的向量表示,然后将其作为特征与句子的向量序列一起输入到Bi-L S T M中,用神经网络自动学习前向及后向的上下文特征,最后在B iL S T M后面增加一个条件随机场层进行句子级的序列标注。C R F层的参数是一个(A+2)X (々+2)的矩阵A®,A…表示的是从第/个标签到第j 个标签的转移得分,进而在为一个位置进行标注的时候可以利用此前已经标注过的标签。结合了BiLSTM 和 CRF 的命名实体识别.可以充分学习每个字的上下文信息及标签,从局部和全局两个层面,对词标签的分类实现更好优化,达到良好的实体识别效果。
toe3生物医学关系抽取
生物医学关系抽取(relation extraction,R E)是 指从一段生物医学文本中抽取出关系三元组(entity1,relation,entity2)。以“利多卡因诱导的心脏停博”为例。其中“利多卡因”是实体1,实体类型为药物心脏
停搏”是实体2,实体类型为疾病,实体之间的关系是“导致”关系,那么抽取的三元组为(利多卡因,导致,心脏停搏)。关系抽取是构建复杂知识库系统的重要步骤之一.它解决了原始文本中目标实体之间的关系分类问题。在传统方法中.大多数研究依赖一些现有的词汇资源(如WordNet)或手工提取的特征[91°],这样的方法可能导致计算复杂度的增加,并 且特征提取工作本身会耗费大量的时间和精力,特征 提取质量对实验的结果也有很大的影响。由于注意力机制能够自动发现对分类起到关键作用的词,使 模型可以从每个句子中捕获最重要的语义信息,并且 不依赖于任何外部的知识。因此,本文使用基于注意力机制的双向L S T M神经网络模型完成关系抽取任务。为了更好地提高关系抽取的结果,本文在模型的输人层添加了笔画特征,与词向量一起送人神经网络进行训练。模型结构如图2所示。
生物医学关系抽取任务使用到的模型为长短期记忆模型(long short-term m em ory,L S T M)1.11-,LSTM 是循环神经网络(recurrent neural n etw o rk,R N N)的一种。L S T M可以接受序列输入,产生对应的序列输出。不同时刻的输人之间存在着依赖关系。当前时刻的输出不仅取决于当前时刻的输入,还和上一时刻的输出有关。L S T M具有门控机制,可以很好地解决R N N长距离依赖、梯度消失和梯度爆炸问题。双向长短期记忆循环模型由两个不同
①之所以要加2是因为要为句子首部添加一个起始转移状态 以及为句子尾部添加一个终止转移状态
74中文信息学报2021 年
方向的L S T M组成,两个L S T M分别从前向和后向学习单词的上下文信息,再将二者拼接起来,作为 当前时刻的输出。
本文中关系抽取的具体工作步骤如下:首先使用预先训练好的词向量将词映射为100维词向量,随 后将句子中的每个词与句子中的实体计算相对位置,从而得到位置信息。接着将句子的词向量、位置信息与笔画特征进行拼接,将得到的向量序列输人到BiLSTM中,用神经网络自动学习前向及后向的上下文特征。随后使用注意力机制.给重要的词较大的权重。最后在输出层使用Softmax来预测标签。
4 实验与结果分析
综上所述,本文构建了中文生物医学实体关系语料,并且人工校正2 000多条语料作为实验的测试集。数据集的统计信息如表3所示。除此之外,在中文生物医学的命名实体识别任务上,对比了几种模型的识别结果,本系统选择使用在Bi LST M+
curfewC F R模型上加E L M o特征作为最终的中文命名实体识别模型。
表3中文数据集统计信息
数据集句子数量实体数M 实体识別数据集
训练集 4 92673 891
测试集123218 474关系抽取数据集
训练集9 76823 240
测试集1824 4 473
命名实体识别模型的超参数设置如表4所示。实验结果如表5所示。从实验结果可以看出,基于 ELM o+BiLSTM+C R F的方法命名实体识别的F,值可以达到85.00%,在中文的数据集上,ELMo+ BiLSTM+C R F比0前最好的中文实体别模型Lattice LSTM[12]识别的效果要好,主要原因在于
E L M o解决了一词多义的问题,使得性能提升。与 加了 BERT:13]的模型相比,也有一定的提升。主要 原因在于B E R T是使用通用语料进行训练的,缺乏 生物医学领域的领域知识,而E L M o是使用大量的生物医学文本进行训练的,所以对于生物领域识别
的结果会更好。从结果分析,所有的模型在疾病、化 学物实体上识别的结果比D N A、R N A等实体上识别效果更好。归其原因还是由于D N A实体的特殊符号、字符和数字太多,导致模型识别的效果不佳。
pandareader
表4中文实体识别超参设置
参数设置值参数设置值Char emb size100LSTM hidden100
Char dropout0.5Sentence len400
LSTM layer1regularization le-8
Learning rate0.015Lr decay0.05
表5中文实体识别与关系抽取结果
任务
模型
准确率召回率F丨值类型/%/%/%
BiLSTM-hCRF82.1181.8081.96
实体
Lattice LSTM84.3383.3483.83
识別B ER T-f BiLSTM + CRF84.8584.7184.78
E L M o+B iL ST M + CRF84.3185.7085.00
关系
BiLSTM +A T T E N T I O N79.3078.6278.96
抽取BiISTM+ ATTENTK )N + (特征)81.3080.3280.81
在生物医学实体关系抽取任务上,本文使用目前流行的结合注意力(attention)机制的双向长短期记忆网络(BiLSTM),并在输人层添加笔画特征,以提高关系抽取的性能。实体关系抽取模型超参设置如表6所示。最终的实验结果如表5所示。对于 二分类的关系抽取,I3iL S T M+A T T E N T I()N+(特 征)模型的F,值可以达到80.81%,比不加特征的模型提高了将近两个百分点。结果表明.我们设计的笔画特征确实可以提升模型在中文语料上的性能
。