小型微型计算机系统
JournalofChineseComputerSystems
2018年5月第5期
Vol.39o.52018
海量法律文书中基于C的实体关系抽取技术
高丹,彭敦陆,刘丛
(上海理工大学光电信息与计算机工程学院,上海200093)
E-mail:pengdl@
摘要:传统文本实体关系抽取算法多数是基于特征向量对单一实体对语句进行处理,缺少考虑文本语法结构及针对多对实
体关系的抽取算法.基于此,提出一种基于C(Convolutionaleuraletwork)和改进核函数的多实体关系抽取技术—KMC-
(Multi-EntityConvolutionaleuraletworkBasedonKernel),并将所提技术运用于海量法律文书的实体关系抽取上.KMC-
从抽取大规模历史法律文书的人物关系出发,构建短语有效子树,采用基于改进的核函数来计算短语有效子树的相似度,
以实现运用C算法对多对实体关系进行挖掘的目标.在真实数据集上的实验表明,所提技术具有较好的抽取效果和较高的
计算效率.
关键词:实体关系抽取;核函数;相似度;C
中图分类号:TP311文献标识码:A文章编号:1000-1220(2018)05-1021-06
EntityRelationExtractionBasedonCinLarge-scaleTextData
GAODan,PEGDun-lu,LIUCong
(SchoolofOptical-ElectricalandComputerEngineering,UniversityofShanghaiforScienceandTechnology,Shanghai200093,China)
Abstract:Mostofthetraditionalentityrelationextractionalgorithmsarebasedonfeaturevectorstoprocesssingle-pairentities,and
therearefewrelationextractionalgorithmstakiperpro-
posesatechnologycalledKMC(Multi-EntityConvolutionaleuraletworkBasedonKernel)whichisbasedonC(Convo-
lutionaleuraletwork)andimprovedbyakernelfunctiontoextracttheentityrelationshipinlarge-scalejudicialtextualdocuments.
Basedoncharacteristicrelationsextractedfromthetextualdata,ilaritybetweenthetrees
eproposedapproach,combinedwithCalgorithm,KMCisdesignedto
ectivenessoftheproposedapproachisverifiedwiththeexperimentswhichwerecon-
ductedonrealjudicialtextualdocuments.
Keywords:entityrelationextraction;kernelfunction;similarity;convolutionalneuralnetwork
1引言
随着计算机技术和人工智能科学发展,使得自然语言的
计算机处理成为现实.近年来,自然语言处理被广泛地应用到
信息检索、文本分类、自动文摘、语音自动识别与合成、机器翻
译及人机对话等领域.作为自然语言理解技术中不可缺少的
重要环节———文本实体关系抽取技术,更是成为近年来的研
究热点.文本实体关系抽取是指根据自由文本的上下文,自动
抽取两个实体之间的关联.譬如,法律文书中句子“李良挑衅
斗殴,致韩寒休克死亡”表明两个人物实体“李良”与“韩寒”
之间构成了“犯罪”关系.
自1998年MUC
1
会议首次正式提出关系抽取任务以来,
实体关系抽取已经被应用到不同的领域.在问答系统或推荐
系统中,实体关系抽取会自动将问题、答案以及相关实体进行
关联.譬如,当用户搜索“姚明”时,系统会快速且准确地返
回、推荐“叶莉”(夫妇关系)、“BA”(雇佣关系).在案由分
1
析系统中,实体关系自动抽取提升了审判人员案由分析的速
度,不仅直接关系到当事人的法律关系.定,还有利于法官对
适用法律的正确选择,形成恰当的判决结果.
迄今,众多国内外研究学者们已经提出了一系列实体关
系抽取方法.ZhouJF等人构建抽取中文实体命名及其关系
的信息抽取系统,利用MBL算法获取规则以达到实体关系
抽取的目的
[5].ZhangZ等人基于SVM分类器以及bootstr-
apping思想,提出一种新的提升算法-BootProject,实现对实体
关系的半监督抽取
[6].SunL和HanX利用特征向量提炼语
法树,基于核函数提出一种名为FTK(Feature-EnrichedTree
Kernel)的实体关系抽取方法[8].针对法律文书的半结构化、
实体类型、实体之间关系单一的语言特点,本文利用语法结构
相似性构建短语有效子树,同时采用余弦相似度计算方法来
改进核函数,求得短语有效子树之间的相似性矩阵,然后结合
C提出一种实现对多对实体之间的关系进行自动抽取的
技术———KMC.
MUC[EB/OL].,2008.
收稿日期:2017-04-03收修改稿日期:2017-06-20基金项目:国家自然科学基金项目(61003031)资助;上海市自然科学基金项目
(10ZR1421100)资助.作者简介:高丹,女,1990年生,硕士研究生,研究方向为自然语言处理;彭敦陆,男,1974年生,博士,教授,CCF会员,
万方数据
、轨迹数据压缩技术、自然语言处理;刘丛,男,1983年生,博士,讲师,研究方向为智能算法、文本挖掘、图像分析.研究方向为大数据管理
本文发布于:2022-08-15 11:40:57,感谢您对本站的认可!
本文链接:http://www.wtabcd.cn/falv/fa/82/75090.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |