一种在线医疗社区问答文本实体识别方法——基于卷积神经网络和双向长短期记忆神经网络

更新时间:2023-06-02 17:26:06 阅读: 评论:0

2021年第8期
科技管理研究
Science and Technology Management Rearch2021 No. 8
doi: 10.3969/j .issn. 1000-7695.2021.08.023
笔记本如何分盘
一种在线医疗社区问答文本实体识别方法
—基于卷积神经网络和双向长短期记忆神经网络
廖开际,邹珂欣,席运江
(华南理工大学工商管理学院,广东广州510641 )
摘要:针对在线医疗社区问答文本复杂程度高、结构化程度低的特点,结合卷积神经网络(C N N)和双向长短期记忆神经网络(BiLSTM)两种深度学习模型以及条件随机场(CRF)模型,提出一套适用于在线医疗问答文本的实体识别方法并进行验证。将问答文本进行清洗和BIO标注后,分别用C N N和BiLSTM进行字级别的特征抽取,将通过两种模型抽取到的特征进行融合后放入CRF中训练出实体预测模型,再
将问答文本放入训练好的模型中,得到最终的实体识别结果。以关于乳腺癌疾病问答文本为例,研究结果表明,运用该方法得到的识别结果优于其他
模型,且识别准确率达到92.3%、召回率达到89.3%、F值达到90.8%。
音乐之父是谁啊
关键词:实体识别;深度学习;卷积神经网络;双向长短期记忆神经网络;条件随机场
中图分类号:TP391.1; F224; G301 文献标志码:A 文章编号:1000-7695 ( 2021 ) 08-0173-07
A n Online Medical Community Q&A Text Entity Recognition Method:
Bad on C N N and B i L S T M
Liao Kaiji, Zou Kexin, Xi Yunjiang
(School of Business Administration, South China University of Technology, Guangzhou 510641, China)
A bstract: In respon to the characteristics o f high com plexity and low structure in the online medical com m unity
Q&A text, this paper propos and verifies an entity recognition m ethod combined with tw o deep learning models o f convolutional neural network (C N N), bi-directional long short-term memory (BiLSTM) and conditional random field (CRF), to promote the developm ent o f medical entity identification rearch for the online medical community.
After the Q&A texts are cleaned and BIO labeled, feature extraction is respectively performed in word—level by C N N and BiLSTM, then the features are fud and the results are put into the C R F to train the entity prediction m odel, finally the question and answer text are put into the trained m odel to get the final entity recognition result. Taking the question—and—answer text on breast cancer as an example, the results show that the recognition results obtained by this method are superior to tho o f other models, and the recognition accuracy rate reaches 92.3%, the recall rate reaches
89.3%, and the F value reaches 90.8%.
K ey w ords:entity recognition; deep learning; convolutional neural network; bi-directional long short-term memory;
conditional random field
1研究背景
自2012年谷歌提出了 “知识图谱”的概念至今, 知识图谱这一领域一直是科学研究和科技应用的前 沿热点,其应用也涉及了从搜索到推荐等众多领域。目前,医学是知识图谱应用最广的垂直领域之一,也 是国内外人工智能领域研究的热点,在如疾病风险 评估、智能辅助诊疗、医疗质量控制及医疗知识问 答等智慧医疗领域都有着很好的发展前景[1]。构建医疗领域的知识图谱可以分为3个步骤:医疗实体 识别、实体关系抽取、实体对齐与知识融合,其中 医疗实体识别一直是构建知识图谱过程中的重难点。
在医疗领域,随着互联网的快速普及,网络技 术的创新与发展已逐渐影响医患双方的行为方式,越来越多的病人在网上寻医问药,医生和医院也更 加重视通过互联网进行医患之间的交流和沟通[2],例如寻医问药网等用户规模较大的在线医疗社区中,
收稿日期:2020-06-28,修回日期:2020-11 -01
基金项目:国家自然科学基金项目“基于超网络的企业微博知识挖掘及整合方法研究”(71371077)
174廖开际等:一种在线医疗社区问答文本实体识别方法一基于卷积神经网络和双向长短期记忆神经网络
已积累了大量医患问答文本,若能通过这些问答文 本进行医疗实体识别,便可以更准确且更加深层次 地挖掘患者的需求,清晰地展现患者所关心的医疗 问题,从而推动医疗行业进一步发展。然而,此类 在线医疗社区问答文本不仅具有传统社区类文本体 量大、数据稀疏的特点,还具有医疗文本的专业性 和复杂性,同时由于个人语言习惯不同,医患问答 文本中还有大量简写、略写甚至模糊的表达,给医 疗实体识别工作带来了巨大的挑战。
2相关研究
命名实体识别(n a m e d entity recognition,N E R)是指识别文本中具有特定意义的实体。医疗实体识 别,就是从文本中识别出具有医学意义的实体,如 疾病名称、治疗手段、检查方法、药物名称等。对 于医疗实体识别,目前采用较多的有基于词典和规 则的识别方法、基于浅层机器学习的识别方法以及 基于深层神经网络的识别方法。
《春秋》
早期的医疗实体识别,多采用基于词典的方法。基于词典的方法是原理比较简单但也是最有效的方 法之一,其基本思路是通过遍历词典进行字符串匹 配而实现实体识别[3]。如,Kristina等[4]结合来自 U M L S、M e S H等医学平台的信息,开发了用于识别 文本中的小分子和药物的词典,并将其予以应用于 识别医疗实体;宁时贤[5]通过生物医学词典识别了 医学实体,经过实验验证表明,词典特征有助于生物 医学实体的识别。上述基于词典的方法虽然能对医学 实体进行有效识别,但由于对医学词典和医疗知识库 的依赖程度较高,导致该方法的灵活程度较低。
近几年,随着人工智能与其相关技术的快速发展,“机器学习”这一概念逐渐进人人们的视野,基于浅层机器学习的实体识别方法也随之得到 快速发展。浅层机器学习方法主要包括条件随机场 (conditional r a n d o m fields,C R F)模型、隐马尔可 夫模型(H M M)、最大熵(M E)模型、支持向量机 (S V M)等[6]。王若佳等[7]针对电子病历分词后 的文本,采用条件随机场机器学习算法进行实体识 别,结果表示该算法对医疗实体中“检查”和“疾病”两类实体的识别效果较好。龚乐君等[8]基于领域词 典和条件随机场模型,从中文电子病历文本中识别 出了4类医疗实体,该模型在测试数据中的精确率 达到了 96.7%
2006年H i n t o n等[9]创建了一种多层次的神经 网络训练方法,完成了神经网络从浅层到深层的转 变,深度学习由此诞生。基于深度神经网络的实体 识别方法在近几年成为了实体识别领域的热点,如曹明宇等[1°]使用双向长短期记忆神经网络模型(bi-directional long short-term m e m o r y,B i L S T M)对医学药物类实体进行了识别,结果明显优于针对 相同数据集所采用的其他识别方法;李纲等[11]采 用B i L S T M-C R F模型,针对全国知识图谱与语义计算大会(China Conference on Knowledge Gr a p h and Semantic C o m p u t i n g,C C K S)提供的中文电子病历做医疗实体识别,结果表明该方法能够显著提升传 统C R F方法的实体识别效果;李双丽等[6]提出一 种基于卷积神经网络(convolutional neural networks, C N N)-长短期记忆神经网络模型(long short-term m e m o r y,B L S T M)-C R F的医学实体识另丨』方法,通过 卷积神经网络抽取英文的字符特征和单词特征来进 行实体识别,并在 Biocreative II G M和 J N L P B A2004 生物医学语料上验证了该方法的有效性。
虽然采用上述方法均能有效识别有关文本中的 医疗实体,但是以上识别方法大多是针对语言专业 化和结构化程度较高的电子病历文本或者医学语料 库而进行的。相比于去实体医院,目前越来越多的 患者选择直接在医疗社区平台或者社交媒体上进行 在线的专业咨询和健康经验分享[12],此类医患问 答文本数据是患者最真实、最直接的需求和想法反 馈,但针对在线医疗社区中的患者编写文本做医疗 实体识别的研究仍然相对较少。因此,本研究将以 在线医疗社区中的问答作为文本数据源进行医疗实 体识别工作。由于在线医疗社区中的问答文本非结 构化程度高、文字表达因个人语言习惯也有较大差 异,因此本研究提出一种基于C丽和B i L S T M的医 疗实体识别方法。
3基于CNN和BiLSTM的实体识别方法模型
图1为本研究提出的实体识别方法的整体框架 示意图,模型整体可分为3个模块,分别为C N N模 块、B i L S T M模块以及C R F模块。模型先利用字向 量通过C N N识别出中文单个字的汉字级特征,再采 用B i L S T M识别出结合上下文信息的特征,然后将 以上两种特征相结合放人C R F模型中进行训练,最 后采用寻医问药网在线医疗社区中有关乳腺癌的医 患问答对方法的有效性进行验证。
首先对文本数据进行清洗去重等预处理操作,之后选取处理好的部分数据,根据定义好的实体类 别采用B I0标注法对文本数据进行逐字标注,然后 将标注好的数据分为训练集和测试集,其中80%为 训练集,20%为测试集。接下来将训练集中的数据 分别放人C N N和B i L S T M模型中抽取汉字级别的特 征以及结合上下文信息的特征,并将抽取得到的特
廖开际等:一种在线医疗社区问答文本实体识别方法一基于卷积神经网络和双向长短期记忆神经网络175
征利用连接函数融合,放人C R F模型中输出预测结 果,将标注好的测试集的数据对结果进行验证,从 预测结果的准确率、召回率和F值3个指标评价模 型的质量。经过对上述模型中的参数多次设置和调 整,选取预测结果指标最优的模型作为最终的预测 模型,最后将前期未被标注的文本数据放人已训练 好的预测模型中去,经过所选模型的计算,得到最 终的实体识别结果。
3.1 C N N模块
20世纪60年代,科学家们在研究猫的脑皮层 局部的神经元时发现,其独特的网络结构可以有效 地降低反馈神经网络的复杂性,从而提出了 “卷积 神经网络”的概念。卷积神经网络是一类包含卷积 计算且具有深度结构的前馈神经网络[13],是深度学 习的代表算法之一。自提出以来,卷积神经网络已 大量应用于图像、视频等文件的处理领域中。2014 年K i m[141对C N N的输人层做了改进和调整,提出 了适用于文本的处理的模型.,自此C N N也被广泛应 用于对文本的处理中。如,陶源等[15]结合门控线 性单元和卷积神经网络在中文数据集S I G H A N2006 上进行了实体识别,识别准确率达到了 91.05%;曹 依依等[16]采用卷积神经网络针对中文电子病历进 行了实体识别,识别结果F值达到了 90.31%。所以,本研究提出采用卷积神经网络模型来识别文本中的 特征进行医疗实体识别。由于医
患问答文本中可能 由于个人语言习惯导致医疗实体间距离较远,如“我 最近嗓子疼,不光是吃东西的时候疼,有时候就连 喝水的时候也觉得疼,吃了阿莫西林等消炎药之后 感觉好多了”这句话中,疾病实体“嗓子疼”就与 药物实体“阿莫西林”距离较远,而且词向量难以 处理长距离的依赖关系,因此本研究采用字向量与 卷积神经网络结合的方式,首先对在线医疗社区中的问答文本进行特征抽取。
卷积的表达式用矩阵表示见式(1 )。其中:^ 代表卷积函数;*表示卷积操作;尤为输入,W为卷 积核,《代表词的数量。
5(n) = (X*^)(«) (1)
在卷积神经网络中,若是二维的卷积则表示如 式(2)所示。其中:/和/分别代表二维矩阵的长和宽。
s(i,j)=(X*(2)
卷积神经网络可以分为输入层、隐藏层和输出 层。在适用于文本的卷积神经网络中,输入层是句 子中的词对应的词向量或字向量依次排列的矩阵,假设句子有《个词(或字),向量的维数为t那么 输人层的向量矩阵就是《x A:。通常用户图像识别的 卷积神经网络使用的卷积核的宽度和高度是一样的 (见图2),但在处理文本数据卷积神经网络中,卷积核的宽度与词向量或字向量的维度一致(见图 3),只有高度可以任意设置,输人的每一行向量代 表一个词或字。
图3文本处理的CNN卷积核
本研究采用文本的字向量作为输入层。数据通 过输入层后抵达卷积层’模型设置3层卷积,卷积后 的数据将会依次通过归一化处理和R e L U激活函数,后转化形状输出。其中R e L U函数的公式见式(3 ):
(x x> 0 ,、/〇c)=L一(3) M o a:^o
3.2 BiLSTM模块
长短期记忆神经网络模型是为了解决循环神经 网络中的长期依赖问题和梯度消失问题而衍生出来 的模型,而双向长短期记忆神经网络模型包含了两 个方向的长短期记忆神经网络模型,如图4
所示。
176廖开际等:一种在线医疗社区问答文本实体识别方法一基于卷积神经网络和双向长短期记忆神经网络
在B i L S T 模型中,每个细胞内部结构如图5所示。 其中:乂为当前隐藏层状态;x ,为当前输人;c ,为当 前细胞状态;5为S i g moid 激活函数。从R N N 改进而 来的长短期记忆模型利用门机制可以
克服R N N 的缺 点[17],这种门机制即通过遗忘门、输人门和输出门 的引入,可以有效解决梯度消失等问题。V -■ ■A 卜1in  [in it^i [t] v ,一
Vr ^1图5 BiLSTM 的单元内部结构由图5可见:(1 )遗忘门原理:上一阶段的与当前的输
人X ,级联之后,经过S i g m o i d 函数后与相乘。若 <5函数的输出/接近0,则表示这个信息被忘掉了。/的计算公式见式(4),其中F 和6分别为
模型的权重和偏置向量。滕王阁介绍
f  t  = 〇{W  f [h t .^x t] + b f ) (4)
(2) 输人门原理:上一阶段的与当前输
人:c ,级联之后,经过S i g m o i d 函数后与t a n h 的输出
相乘,并与之前的细胞状C q X ,相加,得到c ,。若
,接近〇,则表示此输入被丢弃。
i t  = 〇{W i '[h t .\x t\ + b i ) (5)
C t  = tanh(fT  c  • [h t .\x t] + b c) (6)
(3) 输出门原理:上一阶段的与当前的输
猴子的英语怎么读
人:V ,级联之后,经过S i g m o i d 函数后与tanh  ( c ,)的 输出相乘,得到其中〇代表输出。若〇,接近〇, 则表示输出细胞信息不会进人到隐藏层状态中。〇t  = (y {W 0'[h t .\x t\ + b 0) (7)C t  = tanh(PF  c  • [h f .x x t ] + b c) (8)
3.3 C R F 模块
由于C R F 能更有效地限制输出的序列位置,因
此可以避免前期C N N 和B i L S T M 特征抽取输出的结
构错误,所以在实体识别模型的最后会将数据输入
线性C R F 中。2001年1^知^等[18]首次提出一种
判别式概率——条件随机场模型,是在给定一组输
人序列条件下另一组输出序列的条件概率分布模型,
在自然语言处理中得到了广泛应用。即给出输入序 列「= {vi , V 2,v 3,...,v …},便可以通过线性C R F 得到对
应的序列A / = {m ,w 2,w 3,.",w r t }的概率,即丨《)〇
其概率的计算公式见式(9 ),其中为权重值。
| v ) = ic (m ,v ) (9)综上,本研究提出的基于在线医疗社区问答文 本的医疗实体识别方法的流程可表示为如图6所示。
B i L S r a
图6医疗实体识别方法
流程结构
廖开际等:一种在线医疗社区问答文本实体识别方法——基于卷积神经网络和双向长短期记忆神经网络177 4实验和结果
4.1实验环境
本研究的实验采用P y t h o n语言(版本3.7 ),在 Pytorch深度学习框架下进行〇Pytorch是F a c e h o o k开 源的神经网络框架,相比于其他深度学习的编程框 架而言,具有简洁、高速、易用等特点。
4.2 实验数据
爬取了寻医问药网问答模块中关于乳腺癌的12 000条患者提问及其对应的医生回复,经过清 洗去重等预处理操作后,保留了 10 673条有效问 答文本(以下简称“样本”)(即10 673条提问 和10 673条回复)。为了使数据格式统一规范以及保证问答数据一一对应,将患者提问和对应的医 生回复拼接成一条数据,并将所有拼接后的文本数 据作为实验数据,文本拼接格式为“患者病情描述 (Q)+医生对应回复(A) ”,如表1所示。
表1样本实验数据示例
序号拼接后文本内容
~i~~[Q]右边乳房里有硬块已经好久了,痛也不痛,吃药吃了好多都不好,是乳腺癌吗?[A]建议你做个彩超和钼靶照相,必要
时穿刺检査,取得病理诊断,然后再决定治疗方法
别说不可能2 [Q]胸部里有个小肉球两三年了,也没有感觉疼痛,对生活没
影响,但是害怕它是什么乳腺癌,请医生帮忙看一下,需要动手
术吗?[A]建议您尽早手术治疗切除病理检査的。普外科就诊
^■术
3[ Q]右乳1个小肿块,1年多了无其他症状,是不是就排除乳腺癌。
我很想知道答案。乳腺癌是一种乳腺的恶性肿瘤,早期往往不会
出现任何症状,常常是患者无意间发现的。[A]针对乳腺癌,
病检是明确诊断的“金标准”;但是,这种方法是有创检査。做
一下钼靶照相就可以明确诊断是不是乳腺癌了
4.3实体类别确定
根据I C D-10和各百科网站对医疗实体的划分,并参考杨锦锋等[19]和杨文明等[2〇]对医疗实体的 分类方式,将医疗实体分为疾病(dia)、症状 (s y m p t o m)、药物(medicine)、治疗(treatment)和检查(c h e c k)这5项基础类别。因患者在描述自 身病情和症状时常会提及对应的身体部位,如“胸 部有硬块”“淋巴结那里疼”“手指也有明显的肿胀”,若只将“硬块”“疼”“肿胀”等词标记为症状,则会遗漏部分信息或扭曲患者原有的描述意图,所 以增设身体部位(b o d y)类别,以提高症状类别识 别的精确度。实体细分类别如表2所示。
表2医疗实体细分类别
类别定义
疾病~疾病名词
症状疾病过程中机体内的一系列机能、代谢和形态结构异常变化所引起的病人主观上的异常感觉或某些客观病态改变药物用以治疗及诊断疾病的物质(包括中药和西药)
治疗用于消除、缓解症状或干预改变疾病的方法
检査为验证健康状态和确认疾病或症状的医疗手段
身体部位发生疾病或产生症状的部位和组织____________________________4.4文本标注
采用B I0标注法对预处理好的数据进行实体标 注,随机选取了共计2 000条数据进行标注。B I0标注是将每个文本中的每个字标注为“B-X”“I-X”或者“0”的形式[21]。其中:B即B e g i n,表示开 始;I即Intermediate,表7K实体的中间或结尾;0即Other,表示其他;X表示实体的名称。则“B-X”所标注的字是X类型并且是该实体的开头,“I-X”所标注的字是X类型并且是该实体的中间部分,“0”表示不属于任何类型。如,对于“经过钥靶照 相确诊了乳腺癌,现在在接受化疗”这个短句,根 据BI0标注规则,其标注后的结果如表3所示。其 中“钼靶照相”为检查类的实体,“乳腺癌”为疾 病类的实体,“化疗”为治疗类的实体,其余均不 属于任何实体类别。将标注后的2 000条数据中的 1 600条作为训练集、400条作为测试集,供后续模 型的训练和检验使用。
表3样本BIO标记结果示例
文本B I0标记
经0春色满园中短篇
过0
钥B—C h e c k
靶I-C h e c k
照I-C h e c k
相I-C h e c k
确0
诊0
了0
乳B-D is e a a e
腺I-D i s e a s e
癌I-D i s e a s e
现0
在0
在0
接0
受0
化B-T r e a tm e n t
疗I-T r e a tm e n t
4.5实验结果
在本研究给出的医疗实体识别模型中,样本的参数设置如表4所示。
表4样本医疗实体识别模型参数设置
参数数值
字向量维度/维300
C N N卷积层数/层3
卷积核大小135
每条数据最大长度/字节256
黄芪和什么搭配对补气补肾好
模型隐藏节点/个128
时期(e p o c h) /次25
批大小(b a tc h s iz e)/条32
特征融合算法接触算法

本文发布于:2023-06-02 17:26:06,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/82/835158.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:实体   医疗   文本   识别   神经网络   模型   卷积
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图