第29卷第2期 2021年4月
Vol.29 No.2Apr. 2021
电脑与信息技术Computer and Information Technology
文章编号:1005-1228(2021)02-0008-04
一种基于BiLSTM-CRF 的命名实体识别方法研究
赵理金
(中国电子科技集团第二十八研究所,江苏 南京 210007)
摘 要:针对目前从开源数据中挖掘结构化数据存在的数据繁复,新词多等问题,提出了一种命名实体识别的方法。该方法将文本进行实体规范、去停用词和加入词典特征等数据预处理后形成的信息作为输入,通过BiLSTM-CRF 算法实现命名实体的识别。最后通过三种不同的语料对该方法进行了验证,实验结果表明了融合领域特征的命名实体识别达到了91.63%。
关键词:命名实体识别;BiLSTM-CRF;实体知识库;开源数据中图分类号:TP391 文献标识码:A
A Method of Building Entity Knowledge Ba Bad on Bilstm-crf
ZHAO Li-jin 1
(The 28th Institute of China Electronics Technology Group Corporation,Nanjing 210007,China)
Abstract:Aiming at the problems of complex data and many new words in mining structured data from open source data, a method of named entity recognition is propod. In this method, the information formed after data preprocessing, such as entity specification, removing stop words and adding dictionary features, is ud as input, and named entity recognition is realized by BiLSTM-CRF algorithm. Finally, three different corpora are ud to verify the method. The experimental results show that the named entity recognition of fusion domain features reaches 91.63%, and the automatic expansion of weapon equipment entity databa is realized.
Key words: NER; BiLSTM-CRF; entity knowledge ba; open source data
收稿日期:2020-09-03
作者简介:赵理金(1998-),男,江苏宿迁人,工程师,硕士,主要研究方向:自然语言处理,知识图谱构建。
随着互联网信息量爆炸式增长,从非结构化的数据中自动抽取命名实体受到了广泛的关注[1]。网络中蕴含的丰富开源信息,如博客、微博、新闻和评论文本等都成为了获取开源情报的数据源,构建开源的实体库为关联分析等应用提供基础。
命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体。NER 在知识图谱构建、信息抽取、信息检索、机器翻译、自动问答和舆情监测等任务中都有广泛应用,是自然语言处理NLP (Natural Language Processing)技术的基础之一[2],在自然语言处理技术走向实用化的过程中占有重要地位。随着NLP 技术的发展,目前对不同领域的命名实体识别都得到了较快的发展。1991年Rau 在第7届IEEE 人工智能应用会议上发表了“抽取和识别公司名称”的有关研究文章,首次描述了抽取和识别公司名称的系
统, 该系统主要采用启发式算法和手工编写规则的方法[3]。1996年命名实体评测作为信息抽取的一个子任务被引入MUC-6,命名实体识别被作为其中的一项指定任务[9]。国外公开文献中对命名实体的研究集中在人名、地名和机构名上。命名实体识别方法主要包含基于规则和词典的方法、统计学习方法和深度学习方法。何彬[3]等人通过机器学习和深度学习的方法对医学领域的命名实体进行了识别。周晓辉[4]基于隐式马尔科夫模型对法律领域的命名实体进行了识别。魏笑[5]基于部件CNN 方法对网络安全领域的命名实体进行了识别。雷树杰[6]、单义栋[7]等对军事领域的命名实体识别方法进行了研究,取得了不错的效果。张磊[8]研究了特定领域的命名实体识别通用技术。
基于规则和词典的方法需要先设定实体词的规则和收集领域相关的实体词,对符合规则和已知的实体词有较好的效果,但是扩展性差,不能发现未登录
第29卷第2期·9·
词。统计学习方法利用统计学找出文本中存在的规律。基于深度神经网络的命名实体识别方法在通用领域以及法律、医学、生物化学、金融等特定领域取得了突破性的进展。军事领域的实体识别研究由于需要专业知识背景,总体上滞后于其他领域的发展。
本文基于BiLSTM-CRF 算法对互联网开源数据进行命名实体识别,研究了基于实体知识库的开源数据自动化抽取实体知识的方法,为后续的知识图谱或者实体分类等应用提供实体。
1 命名实体识别框架
命名实体识别框架如图1所示,主要包括:数据预处理和实体抽取。首先通过数据预处理对开源数据语料进行处理,得到的语料字向量作为实体抽取算法的输入,完成序列标注计算。将神经网络的输出作为CRF 的输入计算最优标签序列完成识别过程。抽取的命名实体与实体库中的实体信息进行融合更新,存储的实体知识库提供给后续的知识图谱和实体分类等进行应用。
数据源实体抽取数据预处理
应用
图1 实体知识库构建框架
1.1 数据预处理
1.1.1实体规范化
描述某一种武器装备时一般会提及对应的国家,如F-22战斗机百科词条中就多次提及美国。由于每个国家使用的命名规则不同,确定所属国家就可以确定武器装备命名的规范,就可以极大的提高识别的准确性。但是在实际的新闻报道中一般都使用简称来指代具体的国家,如美国简称为“美”,俄罗斯简
称为“俄”。
本文采用如下方法对国家名称进行了规范。(1)建立国家名称的简称映射表。唯一对应关系的映射通过此方法进行规范化。
(2)正则表达式确定映射关系。通过判断是否满足“%方”模式,如日方,美方等,如满足,则取第一个字作为国家名称。
(3)简称与文章中国家集合进行对比。印度和
印尼通常都被简称为“印”,进行规范化时无法通过字面意思判断是印度还是印尼。一般文章在第一次时会使用国家的全称然后才会使用简称。利用这一特性,通过记录文章中国家名称集合,简称与记录的全集进行对照,判断“印”指代的国家。
1.1.2去停用词
停用词是指在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。这些停用词一般是由人工输入或者半自动化生成,百度、哈工大和四川大学都提供了停用词表;但是在NLP 处理过程中没有一个明确的停用词表可以使用,需要根据实际情况建立自己的停用词表。维基百科语料中包含大量的繁体资源,需要通过工具将繁体字统一转化为简体
字。停用词一般包含以下几种类型:
(1)高频词。在文本中经常出现,但不包含什么实际含义的词语;如“这个”、“等”和“若”等;
(2)符号类。在中文中出现的一些希腊字符、数学字符或标点符号等,如“”;一些特殊的符号,如“……”、“//”和“Ψ”等。数字符号如“[①①]”等。
在训练模型时并不是停用词越多越好,相反应该尽量减少停用词,LSTM 模型采用的是字向量,去掉某些词语会改变上下文的语境,从而导致机器理解出现偏差。
1.1.3词典特征
使用词典作为先验信息可以提高新词的识别效率,减少模型训练的时间,减少所需的训练集数据量。通过配置动态字典,模型可以充分利用动态词典的先验信息,加速模型收敛。
前向最大匹配算法,从左到右将待分词文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词。句子s=[c1,c2,c3…cn],ci 表示第i 个字符。字典中字向量定义xi 为fi=[fi1,fi2,fi3…fin]。提取字ci 上下文序列[ci-3,ci-2,ci-1,ci,ci1,ci+2,ci+3],将ci 的上下文序列和字典中fi 的向量进行融合,得到字的融合向量,
作为LSTM 的输入。融合算法参考了禤镇宇[13]和尹学振[14]中提出的基于多特征的向量拼接方式。
2 命名实体识别算法模型
2.1 BiLSTM-CRF 模型
基于 BiLSTM-CRF 的命名实体识别模型主要包含数据预处理层、字向量转换层、BiLSTM 层、CRF 层和模型输出等5层,如图2所示。
赵理金:一种基于BiLSTM-CRF 的命名实体识别方法研究
电脑与信息技术 2021年4月
·10·数据预处理层对原语料进行实体规范化、去停用词、词典特征。文本标注层通过人工标注的方法,明确特定领域的命名实体的类型和标记符号,将标注的文本转换成字符串序列,解决垂直领域语料缺少的问题。字向量转换主要是用开源语料预训练生成word embedding 表;人工标注领域文本生成的标记序列通过word embedding 查找表转换为对应词的字向量序列,后续的训练和学习不断更新语料的字向量序列,并作为BiLSTM 的输入。
BiLSTM 层由前向LSTM 和后向LSTM 组成,前者用于学习前向的序列信息,后者用于学习后向的序列信息,二者考虑了句子前后的信息,充分结合上下文的特征。前向LSTM 的输入是正序的文本词向量,后向LSTM 的输入是倒序的文本词向量。输入层预处理形成的拼接字特征向量Ei 作为双向神经网
络各个时间步的输入。前向神经网络隐藏层的输出序列为
和后向 LSTM 隐藏层的输出序列为 ,两个方向LSTM 得到Bi-LSTM 层的输出序列作为隐含层的输出;计算完整的隐状态输出序列 特征矩阵 。
CRF 层从训练数据中获取约束性的规则来保证预测标签的合法性,降低标签序列预测中非法序列出现的概率。P 作为CRF 层的输入,用以生成标签序列,CRF 层通过相邻标签的关系获得全局最优标记序列。
图2 基于BiLSTM-CRF 命名实体识别模型
2.2 LSTM 算法
长短期记忆网络(LSTM,Long Short-Term Memory)是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的。LSTM 在标准RNN 相同的重复神经元计算结构基础上对神经元的内部计算增加多个控制门(gate),用于控制信息的计算和传输。
LSTM 包含输入(t-1时刻的隐藏层h t-1和t 时刻
的特征向量x t )、输出(h t )和主线/记忆(c t-1和c t )三
个重要变量。h t-1和x t 作为唯一的输入来源联合控制
f(t),i(t)和0(t);c t-1和c t 始终与外界隔离,作为LSTM
的记忆。主线进来后,首先受到遗忘门的衰减作用,接着输入门控制“补给大小”给主线补充能量生成全新的主线。这一衰一补的过程完成了主线的更新。接着在输出门的控制下生成新的输出h t 。tanh 奇函数作为激励函数采用,均值为0。
其中:
遗忘门决定了上一时刻的单元状态 c t-1 有多少保留到当前时刻 c t
f(t)=σ(U f h t-1+W f x t +b f )k t =c t-1·f t
输入门决定了当前时刻网络的输入 xt 有多少保存到单元状态 c t
i t =σ(U i h t-1+W i x t +b f )g t =tanh(U g h t-1+W g x t )j t =g t ·i t c t =j t +k t
输出门控制单元状态 c t 有多少输出到 LSTM 的当前输出值 h t
o t =σ(U o h t-1+W 0x t +b f )ht=tanh·o t
W f 是的权重矩阵,b f 是遗忘门的偏置项,σ是 sigmoid 函数。
图3 LSTM 神经元
2.3 CRF 算法
CRF (Conditional Random Field)条件随机域,在观测序列的基础上对目标序列进行建模,解决序列化标注的问题。
设T(Y|X)为线性链条件随机场,在随机变量 X 取值为 x 的条件下,随机变量 Y 取值为 y 的条件概率具有如下形式:
1,,1
()(,,,)(,,)()k k i i j j i i k i j T y x exp t y y x i u S y x i z x λ− =+
∑∑
第29卷第2期·11·
赵理金:一种基于BiLSTM-CRF 的命名实体识别方法研究其中Z(x)为归一化项:
t k 和s l 是特征函数,一个是转移特征,一个状态特征;λk 和u i 是对应的权值;x=(x1,x2,...,xn)为观察变量,y=(y1,y2,...,yn)为隐含变量。
LSTM 的输出矩阵S TXn 作为CRF 的输入,S iXj 为第i 个词被预测为实体j 的分数, 输出具有最大T(y|X)条件概率的标记序列y,获取最优的路径:y *=argmax p(s ij ,y)。
2.3 武器装备BIO 标注体系
武器装备的命名都有一套命名规范,武器装备需要系统化的军事知识作为基础,不能仅仅依靠语言规律。武器装备名称一般由字母和数字组成装备型号,汉字表示的装备类型组成。如M-1A1坦克,M-1A1表示型号,坦克表示装备类型。微博、新闻中,武器装备会有多种不同的表述方式,如F-22战斗机,通常直接简称为F-22,绰号为Raptor,通称为通称:洛克希德·马丁F-22“猛禽”。因此武器装备的实体知识库增加军事背景的特征。
本文结合军事领域的知识,采用BIO 标注法标注。其中“B”表示实体起始位置,“I”表示实体内容位置,“O”示非实体。
标注a:将通用武器类型如飞机、战斗机、火炮、步枪等标注为实体;将战斗机(Fighter) 取首字母F,加数字,加武器类型,简称为F-数字,标注为武器装备实体;
标注b:增加10个构成要素作为军事领域特征。判断每一个词是否属于构成要素,如果是则增加为词的特征标签,如果不属于则标注为“O”。
表1 武器装备领域特征
序号领域特征特征示例
1武器类型装甲运输车,步兵战车,坦克
2武器参数100mm
3兵种摩托化步兵、机械化步兵
4公司格鲁门,通用动力5国家美国,俄罗斯
6动力类型核动力7型号F-22战斗机
8杀伤程度大规模杀伤武器、常规武器9功能战略武器、战役武器、战术武器
10
简称
F-22
3 实验结果与分析
3.1 实验语料
本文的NER 实验数据采用:北京大学提供的现代汉语多级加工语料库,该语料库实现词语切分并标注词类的基本标注语料库,其中精加工的有5200万字(《人民日报》1998年和2000年 两年的全部原始语料),标注义项的有2800万字(1998年1月份的和2000年全年的);维基百科提供的开源词条数据,数据量为200万词条数;从互联网搜集的100万条微博数据。3.2 实验设置
深度学习的框架采用Tensorflow14;CRF 采用开源的CRF++-0.58;Word2Vec 训练字向量;批处理参数batch-size 设置为16,字向量纬度设置为300,学习率为learning rate10-3,dropout 为0.5,LSTM 长度 (LSTM size) 为128,双向长短时记忆网络层数为2。分别对人民日报、微博和维基百科等语料进行了三组对比实验。3.3 评测指标
本文选择精度(Precision)、召回率(Recall)和 F1 值(F1-score)作为实验结果的评测指标,计算公式如下:
其中,P 为精度,R 为召回率,F1 为精准率和召回率的调和平均值;TP 为正类预测为正类的实例个数;FP 为负类预测为正类的实例个数;FN 为正类预测为负类的实例个数。3.4 实验分析
为了验证实体知识库构建方法的性能,分别对人民日报、微博和维基百科等语料进行了三组对比实验,见表2。从表中可以看出不同语料的命名实体识别精度会有不同,人民日报的识别精度比微博和维基百科的精度高;同一语料的不同实体类型识别精度也存在不同,人名的识别精度最高,机构名的识别精度最低。
表2 基于BiLSTM-CRF 算法不同语料的命名实体识别结果
语料实体类型精度(P)召回率(R)F1 值(F1)人民日报
人名
91.63%91.29%91.46%地名91.28%91.06%91.17%机构名
85.61%
86.49%
86.04%
1,,()(,,,)(,,)k k i i j j i y i k i j Z x t y y x i u S y x i λ− +
∑∑∑21TP
P TP FP TP R TP FN P R
F P R
=+=
+∗∗=+(下转第19页)
第29卷第2期·19·
兰胜坤:基于Adaboost算法的人脸检测实现
[4] 毕萍. 基于分类器融合的人脸检测算法研究[D]. 西安电子
科技大学,2006.
[5] 王映辉.人脸识别-原理、方法与技术[M].北京:科学
出版社,2010.
[6] 李刚,高政、人脸自动识别方法综述、计算机应用研究、
2003( 8):4-9.
[7] 周杰,卢春雨,张长水.人脸识别方法综述[J].电子学报,
2000.28(4):102-106.
[8] 黄福珍,苏剑波.人脸检测[M].上海:上海交通大学出
版社,2006.
[9] 赵楠,基于AdaBoost 算法的人脸检测[D].北京大学,2005.
[10] 蔡亦铮,基于 AdaBoost的人脸检测系统设计与实现[D].
河南工业大学,2006。
语料实体类型精度
(P)
召回率
(R)
F1 值
(F1)
微博
人名90.61%90.86%90.73%地名89.36%89.02%89.19%机构名84.22%84.92%84.57%
维基百科
人名90.17%90.46%90.31%地名89.50%89.04%89.23%机构名83.72%84.48%84.09%
4 结束语
本文提出了一种基于BiLSTM-CRF模型结合领域知识库的命名实体识别方法。该方法充分考虑武器装备命名规范和军事领域的特征,结合了混合长短时记忆网络和条件随机场的优点,分别对人民日报、微博和维基百科等语料中的军事命名实体进行了识别,有助于形成规范的、规模化的军事武器装备实体知识库,下一步需要增加训练数据和优化算法,进一步丰富识别的军事领域实体类型,增加抽取命名实体的上下文的属性功能。
参考文献:
[1] 肜博辉,付琨,黄宇,等. 基于多通道卷积神经网的实体
关系抽取[J].计算机应用研究,2017(3): 34-36. [2] 李妮,关焕梅,杨飘.基于BERT_IDCNN_CRF的中文命
名实体识别方法[J].山东大学学报(理学报),2020,55(1):102-109.
[3] 何彬.面向临床文本的医学经验知识抽取研究[D].哈尔滨
工业大学, 2018.
[4] 周晓辉.基于隐式马尔科夫模型的法律命名实体识别模
型的设计与应用模型的设计与应用[D].华南理工大学,
2017.
[5] 魏笑,秦永彬,陈艳平.一种基于部件 CNN 的网络安全
命名实体识别方法[J].计算机与数字工程.2020:48(1):106-111.
[6] 雷树杰. 英文武器装备名构造规律与自动识别研究[D]. 战
略支援部队信息工程大学.2019.
[7] 单义栋,王衡军,王娜. 基于多标签的军事领域命名实
体识别[J].中国人民解放军战略支援部队信息工程大学.
2019,46(S2):9-12.
[8] 张磊. 特定领域命名实体识别通用方法的研究[D].北京交
通大学, 2018.
[9] 王惠临.命名实体识别研究进展综述[J]. 现代图书情报技
术. 2010(06):42-47.
[10] 胡芳槐.基于多种数据源的中文知识图谱构建方法研究
[D].华东理工大学. 2014.
[11] 赵瑜.基于开源数据的军事领域知识图谱构建方法[J].指
挥信息系统与技术.2019(03):64-69.
[12] 吴云超.面向仿真推演的领域知识图谱构建技术[J]. 指挥
信息系统与技术,2019(6):32-36+82.
[13] 禤镇宇,蒋盛益.基于多特征Bi-LSTM-CRF的影评人名
识别研究[J].中文信息学,2019(03):94-102.
[14] 伊学振.多神经网络协作的军事领域命名实体识别[D].清
华大学学报.2020,60(8):648-655.
[15] 孙雅铭.基于文本表示学习的实体消歧研究[D].哈尔滨工
业大学,2017.
[16] 冯骁骋.基于表示学习的信息抽取技术研究[D].哈尔滨工
业大学,2018.
(上接第11页)