本技术涉及一种法律文件的大数据分析、预测、数据可视化系统及其装置,其中系统包括以
文文技术、语意分析技术、协同过滤技术、信息提取技术、自动断词技术、自然语言处理
技术。采用该种结构的法律文件的大数据分析、预测、数据可视化系统,利用人工智能大量
搜寻与学习法律、法规、行政命令等。本技术让一般民众通过查所有相关法令、类似案件
及诉讼结果,预测可能的诉讼方向与结果诉讼。本技术把法律数据可视化,使法律不再是民
众难以触及的领域,提供给律师事务所、法院、甚至所有民众使用,并配合现代智能型手机
的普及与APP应用的蓬勃发展,发展对应的应用程序平台。
权利要求书
1.一种法律文件的大数据分析、预测、数据可视化系统,其特征在于,包括:
自动推荐类别关键词模块,以协同过滤技术,计算出历史搜寻数据与本次搜寻数据的相似
度,并将与历史搜寻数据中与本次搜寻数据相似度最高的关键词作为所述的自动推荐类别关
键词;
大数据分析与预测模块,通过一直接点击类别关键词模块与所述的自动推荐类别关键词模块
相连接,利用信息提取技术来搜寻与统计历年诉讼审判资料,提取出至少包括人、事、地、
与时间的特定事件,并获得加总后的分析数据;当用户点击所述的自动推荐类别关键词时,
所述的大数据分析与预测模块自动比对历史统计结果,并输出与所述用户点击的自动推荐类
别关键词相对应的预测数据。
2.根据权利要求1所述的法律文件的大数据分析、预测、数据可视化系统,其特征在于,所
述的系统还包括:
语音或文章输入模块,用于输入搜寻数据;
语义解析模块,与所述的语音或文章输入模块和所述的大数据分析与预测模块相连接,使用
以文文技术与语义分析技术,用于解析所述的搜寻数据,并将解析后的数据进一步输出至
所述的大数据分析与预测模块,以进一步分析统计;
所述的搜寻数据为语音数据或文字内容数据。
3.根据权利要求2所述的法律文件的大数据分析、预测、数据可视化系统,其特征在于,所
述的系统还包括:
自然语言处理模块,与所述的语音或文章输入模块以及所述的大数据分析与预测模块相连
接,基于自动断词技术和自然语言处理技术处理所述的搜寻数据以及所述分析统计后的数
据,并输出相对应的回应数据以及预测数据。
4.根据权利要求3所述的法律文件的大数据分析、预测、数据可视化系统,其特征在于,所
述的系统还包括:
数据可视化模块,与所述的自动推荐类别关键词模块和所述的自然语言处理模块相连接,用
于显示自动推荐类别关键词、以及以图像表格方式显示所述的回应数据以及所述的预测数
据;
语音输出模块,与所述的自然语言处理模块相连接,让不识字或有需要的用户可以聆听所述
的回应数据以及所述的预测数据。
5.一种装置,其特征在于,所述的装置应用权利要求1所述法律文件的大数据分析、预测、
数据可视化系统。
6.根据权利要求5所述的装置,其特征在于,所述的装置为便携式移动电子装置、手机、平
板电脑或个人计算机。
技术说明书
法律文件的大数据分析、预测、数据可视化系统及其装置
技术领域
本技术涉及法律和人工智能领域,尤其涉及数据可视化领域,具体是指一种法律文件的大
数据分析、预测、数据可视化系统及其装置。
背景技术
法律用语的艰涩难懂足以使一般民众望而生怯,并阻碍法治教育的推广普及,使法律无法
平民化。而在民众遇到法律纠纷时,法官与律师需要去搜寻法律判决书数据库,参考前辈
处理同类问题的经验。但人类无法在有限的时间内,阅读完大量的判决书,目前法律实务的
作法是使用有限的关键词,来搜寻判决书,关键词的使用需要专业、技巧与经验累积,这对
一般民众而言,望尘莫及。
技术内容
本技术的目的是克服了上述现有技术的缺点,提供了一种能够实现判决书检索分析和展示
的大数据分析、预测、数据可视化系统。
为了实现上述目的,本技术的法律文件的大数据分析、预测和数据可视化系统及其装置如
下:
该以文文技术,用户可以直接把一句话或一段文章直接复制贴上到搜寻列,此技术把整
段文章内容自动转成多个关键词,以便处理。而几乎见于每篇文章的虚词(虚词如中文里的
一,的,你,我,他,一个,可是,所以)都不具独特性的资讯,就可以省略。但是文章有
很多关键字,需要大量计算,所以“以文文”通常只搜寻较小的资料集(例如学术论文或法
院判决书),而不搜寻整个网络。
该语意分析技术(semanticanalysis),配合以文文技术,将一长串的语音或文字内容,分析
整理出摘要与大意,甚至更进一步,将整篇语音或文字内容的文意整理出来。此项技术可
以应用在解读影片、音讯等档案,换句话说,搜索引擎也能搜寻到文字以外的对象,方便
用户省去大量时间观看影片、聆听音讯,并提前了解影片与音讯的内容。
该协同过滤技术(CollaborativeFiltering),计算过去多个用户的历史搜寻与本次用户搜寻的相
似度,通过过去最相似的历史搜寻的统计,出更进一步可能的历史搜寻,作为本次用户
输入下一个关键词的推荐。
该信息提取技术(InformationExtraction),搜寻与统计历年诉讼审判数据,从大量文献数据中
过滤出较为相关的文字片段,分析文句语法(例如出动词、主词、或受词),再提取出特定
事件包括人(Who)、事(What)、地(where)与时间(When)等事实(Fact),并获得加总后的统计结
果。当用户输入特定人、事、地、与时间等事实条件,本技术即自动比对历史统计结果,
并输出用户特定条件下的预测结果。
该自动断词技术,是语言处理不可或缺的技术,因为词是最小、可以自由使用且有意义的
语言单位,任何语言处理的系统都必须先能分辨文本中的词才能进行进一步的处理,例如
机器翻译、语言分析、自然语言处理。基本上自动断词多利用词典中已储存的词和目标字串
做比对,出可能包含的词。
该自然语言处理技术(aturalLanguageProcessing),当用户输入一自然语言字串,此项技术
将自动断词并比较该自然语言字串与词典中已储存字串后,输出相对应的回应字串至该用
户。其常用的领域包括问答系统(QuestionAnswering):用户不需要思考该使用什么样的问法
才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。
而此项技术在了解用户问句后,会非常清楚地回答“×××是美国总统”。
采用了该技术中的法律文件的大数据分析、预测、数据可视化系统及其装置,利用人工智
能大量搜寻与学习法律、法规、行政命令等,甚至千万多笔的判决书数据,当非法律专业
背景的用户输入所需资料,本技术将统计分析所有类似案件的相关法规与审判结果,以简单
的图像表格显示出来。
本技术目的不是要取代法界人士的工作,而是让一般民众通过查所有相关法令、类似案
件及诉讼结果,预测可能的诉讼方向与结果,让民众决定是否诉讼,节省大量法律资源。
本技术把法律资料可视化,使法律不再是民众难以触及的领域,可供律师事务所、法院、
甚至所有民众都可使用,加速全民法律的扩散。并配合现代智能型手机的普及与APP应用的
蓬勃发展,发展对应的应用程序平台。
附图说明
图1为本技术的法律文件的大数据分析、预测、数据可视化系统的总体功能模块架构示意
图。
图2为本技术的具体实施例中的第一范例图表。
图3为本技术的具体实施例中的第二范例图表。
图4为本技术的具体实施例中的第三范例图表。
图5为将本技术的法律文件的大数据分析、预测、数据可视化系统应用在聊天平台上的一种
界面范例示意图。
具体实施方式
为了能够更清楚地描述本技术的技术内容,下面结合具体实施例来进行进一步的描述。
在本技术的具体实施方式中,请参阅图1所示,该法律文件的大数据分析、预测、数据可视
化系统,其中包括:
(1)自动推荐类别关键词模块,以协同过滤技术,计算出历史搜寻数据与本次搜寻数据的相
似度,并将与历史搜寻数据中与本次搜寻数据相似度最高的关键词作为所述的自动推荐类
别关键词;
(2)大数据分析与预测模块,通过一直接点击类别关键词模块与所述的自动推荐类别关键词
模块相连接,利用信息提取技术来搜寻与统计历年诉讼审判资料,提取出至少包括人、
事、地、与时间的特定事件,并获得加总后的分析数据;当用户点击所述的自动推荐类别关
键词时,所述的大数据分析与预测模块自动比对历史统计结果,并输出与所述用户点击的自
动推荐类别关键词相对应的预测数据;
(3)语音或文章输入模块,用于输入搜寻数据;
(4)语义解析模块,与所述的语音或文章输入模块和所述的大数据分析与预测模块相连接,
使用以文文技术与语义分析技术,用于解析所述的搜寻数据,并将解析后的数据进一步
输出至所述的大数据分析与预测模块,以进一步分析统计;
其中,所述的搜寻数据为语音数据或文字内容数据;
(5)自然语言处理模块,与所述的语音或文章输入模块以及所述的大数据分析与预测模块相
连接,基于自动断词技术和自然语言处理技术处理所述的搜寻数据以及所述分析统计后的
数据,并输出相对应的回应数据以及预测数据;
(6)数据可视化模块,与所述的自动推荐类别关键词模块和所述的自然语言处理模块相连
接,用于显示自动推荐类别关键词、以及以图像表格方式显示所述的回应数据以及所述的
预测数据;
(7)语音输出模块,与所述的自然语言处理模块相连接,让不识字或有需要的用户可以聆听
所述的回应数据以及所述的预测数据。