175年
本技术公开了一种案情知识图谱自动构建方法及系统及设备及介质,包括:基于专家库预先定义实体关
系;采用Bert分类模型训练裁判文书结构化分类模型;采用模型原型Bert+CRF训练实体识别模型;采用模型原型基于Bert的关系抽取模型训练关系抽取模型;构建案情知识图谱;采用CRF改进实体识别基准模型的编码层得到Bert CRF模型,进一步提升实体识别效果F1值;融合平移嵌入的多任务联合的语义关系抽取模型Bert,提升关系抽取结果F1值。本技术设计了一个融合结构化文本和非结构化文本的案件案情知识图谱自动构建方法,并构建了大规模司法案件的案情知识图谱,为类案精准推送等提供了语义支撑。
权利要求书
1.一种案情知识图谱自动构建方法,其特征在于,所述方法包括:
步骤A:建立专家库,基于专家库预先定义实体关系,其中实体为法律案由涉及的主题,关系为实体之间的关联,预定义的实体关系用于实体识别和关系抽取以及三元组构建;
步骤B:采用Bert分类模型训练裁判文书结构化分类模型;采用模型原型Bert+CRF训练实体
识别模型;采用模型原型基于Bert的关系抽取模型训练关系抽取模型;
即期交易步骤C:构建案情知识图谱,包括:
步骤C1:基于训练后的裁判文书结构化分类模型分类裁判文书的内容,提取案件基本事实和基础事实;
步骤C2:基于训练后的实体识别模型对案件基本事实进行实体识别,抽取案情基本事实
中的各种实体;
步骤C3:基于步骤C2抽取的实体和步骤C1获得的案件基本事实,使用训练后的关系抽取模型抽取实体之间的关系,得到实体关系三元组,三元组的基本形式为:实体1,实体1与实体2之间的关系,实体2;
步骤C4:提取步骤C1得到的基础事实的实体和属性,将得到的实体和属性与步骤C3中得
到的三元组进行知识融合获得完整的案情知识图谱。
2.根据权利要求1所述的一种案情知识图谱自动构建方法,其特征在于,专家库包括若干法学专业专家,专家根据案情具体分析总结司法实务,然后预先定义实体关系。
3.根据权利要求1所述的一种案情知识图谱自动构建方法,其特征在于,基本事实为裁判文书的法院认定事实部分;基础事实是裁判文书的案件基本信息部分,包括:被告、原告的基础信息。
4.根据权利要求1所述的一种案情知识图谱自动构建方法,其特征在于,步骤C3还包括:采用实体对齐和实体链接的方法融合获得的三元组。
5.根据权利要求1所述的一种案情知识图谱自动构建方法,其特征在于,所述步骤C还包括:鲸鱼阅读
步骤C5:采用图数据库存储得到的案情知识图谱;
步骤C6:可视化展示案情知识图谱。
玉米糁的功效与作用6.根据权利要求1所述的一种案情知识图谱自动构建方法,其特征在于,本方法采用CRF改进实体识别基准模型的编码层得到 Bert+CRF模型即实体识别模型。
7.根据权利要求1所述的一种案情知识图谱自动构建方法,其特征在于,本方法中的关系抽取模型为融合平移嵌入的多任务联合的语义关系抽取模型Bert。
8.一种案情知识图谱自动构建系统,其特征在于,所述系统包括:
预定义单元,用于建立专家库,基于专家库预先定义实体关系,其中实体为法律案由涉
孕妇快速缓解胃痛的5个方法及的主题,关系为实体之间的关联,预定义的实体关系用于实体识别和关系抽取以及三元组构建;
模型训练单元,用于采用Bert分类模型训练裁判文书结构化分类模型;采用模型原型
Bert+CRF训练实体识别模型;采用模型原型基于Bert的关系抽取模型训练关系抽取模型;
案情知识图谱构建单元,用于构建案情知识图谱,包括:
基于训练后的裁判文书结构化分类模型分类裁判文书的内容,提取案件基本事实和基础事实;基于训练后的实体识别模型对案件基本事实进行实体识别,抽取案情基本事实中的各种实体;基于抽取的实体和获得的案件基本事实,使用训练后的关系抽取模型抽取实体之
间的关系,得到实体关系三元组,三元组的基本形式为:实体1,实体1与实体2之间的关系,实体2;提取案件基础事实的实体和属性,将得到的实体和属性与三元组进行知识融合获得完整的案情知识图谱。
9.一种案情知识图谱自动构建设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7中任意一个所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,
所述计算机程序被处理器执行时实现如权利要求1-7中任意一个所述方法的步骤。
技术说明书
一种案情知识图谱自动构建方法及系统及设备及介质
技术领域crossfire
本技术涉及人工智能及数据处理领域,具体地,涉及一种案情知识图谱自动构建方法及系统及设备及介质。
背景技术
谷歌公司于2012年正式提出知识图谱概念。现有的具有代表性的知识库包括:Freeba、Wikidata、DBpedia、YAGO等。上述知识库属于通用知识图谱,数据基本来源于开放社区或开放域的数据,对实际垂直领域应用的意义并不大。现有的面向垂直领域的知识图谱,数据来源主要是结构化或类结构化的文本数据。
接着造句法律领域的文本数据以非结构化的文本信息为主,目前对于法律领域的知识图谱构建仍处于探索阶段。
技术内容
本技术为了实现在人工智能推动下的司法改革过程中通过技术让机器认知海量裁判文书资源库;实现机器自动学习与认知案件,为相似案例检索、类案精准推送、裁判文书自动生成等一系列司法应用奠定基础。
为实现上述技术目的,本技术提供了一种案情知识图谱自动构建方法,所述方法包括:
步骤A:建立专家库,基于专家库预先定义实体关系,其中实体为法律案由涉及的主题,关系为实体之间的关联,预定义的实体关系用于后续的实体识别和关系抽取以及三元组构建;
步骤B:采用Bert分类模型训练裁判文书结构化分类模型;采用模型原型Bert+CRF训练实体识别模型;采用模型原型基于Bert的关系抽取模型训练关系抽取模型;
步骤C:构建案情知识图谱,包括:
步骤C1:基于训练后的裁判文书结构化分类模型分类裁判文书的内容,提取案件基本事实和基础事实;
步骤C2:基于训练后的实体识别模型对案件基本事实进行实体识别,抽取案情基本事实
中的各种实体;
崇怎么读步骤C3:基于步骤C2抽取的实体和步骤C1获得的案件基本事实,使用训练后的关系抽取模型抽取实体之间的关系,得到实体关系三元组,三元组的基本形式为(实体1,实体1与实体2之间的关系,实体2);
步骤C4:提取步骤C1得到的基础事实中实体和属性,将得到的实体和属性与步骤C3中得
到的三元组进行知识融合获得完整的案情知识图谱。
优选的,专家库中包括若干法学专业专家,专家根据案情具体分析总结司法实务,然后预先定义实体关系。
优选的,基本事实为裁判文书的法院认定事实部分;基础事实是裁判文书的案件基本信息部分,包括:被告、原告的基础信息。
优选的,步骤C3还包括:采用实体对齐和实体链接的方法融合获得的三元组。