本文作者:kaifamei

一种信息提取方法、装置、电子设备及存储介质与流程

更新时间:2024-11-15 16:37:01 0条评论

一种信息提取方法、装置、电子设备及存储介质与流程



1.本发明实施例涉及自然语言处理技术领域,尤其涉及一种信息提取方法、装置、电子设备及存储介质。


背景技术:

2.表格是人们日常工作生活中十分常用的文件形式。为了更好地利用表格,针对待被人们应用的目标字段,需要从表格中自动提取出目标字段的字段值。
3.在以表格样式为基准进行表格划分的情况下,可以将表格划分为制式表格以及非制式表格。目前常用的信息提取方案,只能从制式表格中提取出字段值,而无法从非制式表格中提取出字段值,通用性较差。


技术实现要素:

4.本发明实施例提供了一种信息提取方法、装置、电子设备及存储介质,以实现从任意表格样式下的表格中自动提取出目标字段的字段值的效果。
5.根据本发明的一方面,提供了一种信息提取方法,可以包括:
6.获取待应用的目标字段以及从表格中提取出来的文本信息;
7.从文本信息中召回与目标字段匹配的键信息,并基于键信息从文本信息中召回至少一个候选信息;
8.针对每个候选信息,确定将候选信息作为与键信息匹配的值信息的可行性,以基于各候选信息的可行性,对各候选信息进行排序;
9.基于各候选信息的排序结果,从各候选信息中确定出目标信息,并将目标信息作为从表格中提取出来的目标字段的字段值。
10.根据本发明的另一方面,提供了一种信息提取装置,可以包括:
11.文本信息获取模块,用于获取待应用的目标字段以及从表格中提取出来的文本信息;
12.候选信息召回模块,用于从文本信息中召回与目标字段匹配的键信息,并基于键信息从文本信息中召回至少一个候选信息;
13.候选信息排序模块,用于针对每个候选信息,确定将候选信息作为键信息匹配的值信息的可行性,以基于各候选信息的可行性,对各候选信息进行排序;
14.字段值提取模块,用于基于各候选信息的排序结果,从各候选信息中确定目标信息,并将目标信息作为从表格中提取出来的目标字段的字段值。
15.根据本发明的另一方面,提供了一种电子设备,可以包括:
16.至少一个处理器;以及
17.与至少一个处理器通信连接的存储器;其中,
18.存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器执行时实现本发明任意实施例所提供的信息提取方法。
19.根据本发明的另一方面,提供了一种计算机可读存储介质,其上存储有计算机指令,该计算机指令用于使处理器执行时实现本发明任意实施例所提供的信息提取方法。
20.本发明实施例的技术方案,通过获取待应用的目标字段以及从表格中提取出来的文本信息;针对每个目标字段,从文本信息中召回与目标字段匹配的键信息,并基于键信息从文本信息中召回至少一个候选信息;进一步,针对每个候选信息,确定将候选信息作为与键信息匹配的值信息的可行性,从而基于各候选信息的可行性,对各候选信息进行排序;这样一来,可以基于各候选信息的排序结果,从各候选信息中确定目标信息,即最有可能与键信息组合为键值对的候选信息,从而将目标信息作为从表格中提取出来的目标字段的字段值。上述技术方案,实现了从任意表格样式下的表格(如制式表格或是非制式表格)中自动提取出目标字段的字段值的效果,具有较大的应用空间。
21.应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或是重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
22.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
23.图1a是本发明任意实施例中提及的非制式表格的第一示意图;
24.图1b是本发明任意实施例中提及的非制式表格的第二示意图;
25.图2是根据本发明实施例提供的一种信息提取方法的流程图;
26.图3是根据本发明实施例提供的另一种信息提取方法的流程图;
27.图4是根据本发明实施例提供的另一种信息提取方法的流程图;
28.图5是根据本发明实施例提供的另一种信息提取方法的流程图;
29.图6a是根据本发明实施例提供的另一种信息提取方法中可选示例的架构图;
30.图6b是根据本发明实施例提供的另一种信息提取方法中可选示例的流程图;
31.图7是根据本发明实施例提供的一种信息提取装置的结构框图;
32.图8是实现本发明实施例的信息提取方法的电子设备的结构示意图。
具体实施方式
33.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
34.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。“目标”、“原始”等的情况类似,在此不再赘述。此外,术语“包
括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
35.在介绍本发明实施例之前,先对本发明实施例的应用场景进行示例性说明:以通过表格形式呈现的食品生产单为例,针对食品生产场景中涉及的一些常规字段,例如保质期、规格和净重等,如果这些常规字段在不同的食品生产公司提供的食品生产单上的位置相同,那么这样的食品生产单即为制式表格;否则,这样的食品生产单即为非制式表格,示例性的,如图1a和图1b所示,这二者是由两个食品生产公司分别提供的食品生产单,显然,保质期、规格和净重等这些常规字段在两个食品生产单中的位置并不相同。基于上述分析可知,制式表格的表格模式是固定的,因此可以基于表格模式从制式表格中提取出字段值;相应的,非制式表格的表格模式并非是固定的且很难穷举,因此无法基于表格模式从非制式表格中提取出字段值。
36.图2是本发明实施例中所提供的一种信息提取方法的流程图。本实施例可适用于从任意表格样式下的表格中自动提取出目标字段的字段值的情况,尤其适用于从非制式表格中自动提取出目标字段的字段值的情况。该方法可以由本发明实施例提供的信息提取装置来执行,该装置可由软件和/或硬件的方式实现,该装置可以集成在电子设备上,该电子设备可以是各种用户终端或是服务器。
37.参见图2,本发明实施例的方法具体包括如下步骤:
38.s110、获取待应用的目标字段以及从表格中提取出来的文本信息。
39.其中,目标字段可以理解为需将其的字段值从表格中提取出来以进行应用的字段,例如上述示例中的保质期、规格和净重等,这里的字段值可以理解为目标字段的具体数值,例如保质期的字段值可以是2022/12/23。在实际应用中,可选的,目标字段的数量可以是一个、两个或多个,在此未做具体限定。在此基础上,在存在至少两个目标字段的情况下,可以针对每个目标字段分别进行下述处理,从而从表格中分别提取出每个目标字段的字段值。
40.文本信息可以理解为对表格中的文本进行提取后得到的信息,其可以表示该文本的实质含义或是在表格中的位置等,在此未做具体限定。结合到本发明实施例可能涉及的应用场景,这里的文本多是文本块的概念,即基于至少两个文本构成的可以表达一定含义的文本块,例如基于保、质和期这三个文本构成的保质期这个文本块。在实际应用中,可选的,可以通过如下步骤提取到文本信息:获取对表格进行图像采集后得到的表格图像;基于光学字符识别(optical character recognition,ocr)技术从表格图像中提取得到文本信息。当然,也可以通过其余方式提取到文本信息,在此未做具体限定。
41.s120、从文本信息中召回与目标字段匹配的键信息,并基于键信息从文本信息中召回至少一个候选信息。
42.其中,从文本信息中召回与目标字段匹配的键信息,该键信息可以理解为目标字段在表格中的具体表现,例如保质期匹配的键信息可以是保质期、保质日期、有效日期、有效期至、保质期至、最佳使用日期或是此日期前最佳等,这如表格的初始设定有关,在此未做具体限定。
43.基于键信息从文本信息中召回候选信息,该候选信息可以理解为文本信息中的可
能作为与键信息匹配的值信息的信息,即可能作为目标字段在表格中的字段值的信息。候选信息的数量可以是一个、两个或多个,在此未做具体限定。
44.s130、针对每个候选信息,确定将候选信息作为与键信息匹配的值信息的可行性,以基于各候选信息的可行性,对各候选信息进行排序。
45.其中,针对每个候选信息,确定将该候选信息作为与键信息匹配的值信息的可行性,即该可行性可以表示出将该候选信息与键信息构成键(key)值(value)对的可能性大小。这样一来,在得到每个候选信息的可行性后,可以基于这些候选信息的可行性,对这些候选信息进行排序,例如按照可行性进行升序排序或是降序排序等,从而得到这些候选信息的排序结果。
46.在实际应用中,可选的,可以通过多种方式确定该候选信息作为与键信息匹配的值信息的可行性,例如确定该候选信息在表格中的候选位置以及键信息在表格中的键位置,然后根据候选位置和键位置间的位置相距距离确定该候选信息的可行性;再如确定该候选信息与键信息在语义或是上下文上的匹配度,然后根据匹配度确定该候选信息的可行性;再如根据位置相距距离和匹配度来综合确定该候选信息的可行性;等等,在此未做具体限定。再可选的,这里的可行性也可以通过评分进行表示,即这里确定该候选信息的可行性的过程,也可以理解为对该候选信息与键信息组合成键值对的可行性进行评分的过程。
47.s140、基于各候选信息的排序结果,从各候选信息中确定目标信息,并将目标信息作为从表格中提取出来的目标字段的字段值。
48.其中,基于各候选信息的排序结果,从各候选信息中确定出目标信息,该目标信息可以理解为这些候选信息中很有可能作为键信息匹配的值信息的候选信息,即很有可能与键信息组合成键值对的候选信息。这样一来,可以将目标信息直接作为从表格中提取出来的目标字段的字段值。在实际应用中,可选的,目标信息的数量可以是一个、两个或是多个,在存在至少两个信息的情况下,这时可以理解为将该至少两个目标信息均作为目标字段的字段值进行返回,以让用户从该至少两个目标信息中选择出一个进行应用。
49.结合到本发明实施例可能涉及的应用场景,为了降低用户的选择工作量,可以快速获取到目标字段的字段值,可以基于各候选信息的排序结果,确定各候选信息中的可行性最高的候选信息,并将该可行性最高的候选信息作为目标信息,即将唯一的目标信息进行返回,从而让用户可以直接获取到字段值。
50.本发明实施例的技术方案,通过获取待应用的目标字段以及从表格中提取出来的文本信息;针对每个目标字段,从文本信息中召回与目标字段匹配的键信息,并基于键信息从文本信息中召回至少一个候选信息;进一步,针对每个候选信息,确定将候选信息作为与键信息匹配的值信息的可行性,从而基于各候选信息的可行性,对各候选信息进行排序;这样一来,可以基于各候选信息的排序结果,从各候选信息中确定目标信息,即最有可能与键信息组合为键值对的候选信息,从而将目标信息作为从表格中提取出来的目标字段的字段值。上述技术方案,实现了从任意表格样式下的表格(如制式表格或是非制式表格)中自动提取出目标字段的字段值的效果,具有较大的应用空间。
51.图3是本发明实施例中提供的另一种信息提取方法的流程图。本实施例以上述各技术方案为基础进行优化。在本实施例中,可选的,从文本信息中召回与目标字段匹配的键信息,可包括:获取预先配置的与目标字段匹配的键模式,并从文本信息中召回与键模式匹
配的键信息;基于键信息从文本信息中召回至少一个候选信息,可包括:从文本信息中召回位于键信息的预设位置上的中间信息;获取预先配置的与目标字段匹配的值模式,并基于值模式从中间信息中召回至少一个候选信息。其中,与上述各实施例相同或相应的术语的解释在此不再赘述。
52.参见图3,本实施例的方法具体可以包括如下步骤:
53.s210、获取待应用的目标字段以及从表格中提取出来的文本信息。
54.s220、获取预先配置的与目标字段匹配的键模式,并从文本信息中召回与键模式匹配的键信息。
55.其中,考虑到目标字段在不同表格中的具体表现可能存在差异,例如上文中举例的保质期这个目标字段在某表格中的具体表现可能是保质期、保质日期、有效日期、有效期至、保质期至、最佳使用日期或此日期前最佳等,因此为了从文本信息中快速并且准确召回与目标字段匹配的键信息,可以预先配置有与目标字段匹配的键模式,例如保质期、保质日期、有效日期、有效期至、保质期至、最佳使用日期以及此日期前最佳等均可以作为与保质期匹配的键模式,从而可以基于键模式从文本信息中召回键信息。
56.s230、从文本信息中召回位于键信息的预设位置上的中间信息。
57.其中,考虑到可与键信息组合为键值对的值信息,通常位于键信息的某些位置上,该位置可以理解为这些信息在表格中的位置,因此可以从文本信息中召回位于键信息的预设位置上的中间信息,该中间信息可以理解为有可能与键信息组合为键值对的值信息。结合到本发明实施例可能涉及的应用场景,这里的预设位置可以理解为右侧和/或下侧,当然,也可以是左侧和/或上侧,这是与表格的初始设定有关,在此未做具体限定。
58.s240、获取预先配置的与目标字段匹配的值模式,并且基于值模式从中间信息中召回至少一个候选信息。
59.其中,类似于键模式,为了从中间信息中快速并且准确召回可能与键信息组合为键值对的候选信息,可以预先配置有与目标字段匹配的值模式,例如与保质期匹配的值模式可以是\d{2}/\d{2}/\d{4}(具体举例是23/12/2022)、\d{4}/\d{2}/\d{2}(具体举例是2022/12/23)、\d{2}/\d{2}/\d{2}(具体举例是22/12/23)、\d{2}\.\d{2}\.\d{2}(具体举例是23.12.22)、\d{2}\.\d{2}\.\d{4}(具体举例是23.12.2022)、\d{4}\.\d{2}\.\d{2}(具体举例是2022.12.23)、\d{4}\-\d{2}\-\d{2}(具体举例是2022-12-23)或是\d{2}\-\d{2}\-\d{4}(具体举例是23-12-2022)等。由于键信息与目标字段匹配,并且值模式也与目标字段匹配,因此可以基于值模式从中间信息中召回可能与值信息配对的候选信息。
60.在实际应用中,可选的,键模式与值模式可以通过正则表达式的方式配置在配置文件中,当然,也可以通过其余方式进行配置,在此未做具体限定。
61.s250、针对每个候选信息,确定将候选信息作为与键信息匹配的值信息的可行性,以基于各候选信息的可行性,对各候选信息进行排序。
62.s260、基于各候选信息的排序结果,从各候选信息中确定目标信息,并将目标信息作为从表格中提取出来的目标字段的字段值。
63.本发明实施例的技术方案,通过预先配置的与目标字段相匹配的键模式,可以从文本信息中召回与目标字段匹配的值信息;进而,考虑到与键信息配对的值信息通常位于键信息的某些位置上,因此可以先从文本信息中召回位于键信息的预设位置上的中间信
息,然后通过预先配置的与目标字段匹配的值模式,从中间信息中召回至少一个候选信息,上述方案利用可以横向扩展的键模式与值模式,由此实现了键信息与候选信息的快速并且准确召回的效果。
64.图4是本发明实施例中提供的另一种信息提取方法的流程图。本实施例以上述各技术方案为基础进行优化。在本实施例中,可选的,确定将候选信息作为与键信息匹配的值信息的可行性,可包括:分别获取包围住候选信息的候选框以及包围住键信息的键框;针对候选框的左框线上的第一点以及键框的右框线上的第二点,确定第一点与第二点间的左右相距距离;针对候选框的上框线上的第三点以及键框的下框线上的第四点,确定第三点与第四点间的上下相距距离;根据左右相距距离和上下相距距离,确定将候选信息作为与键信息匹配的值信息的可行性。其中,与上述各实施例相同或相应的术语的解释在此不再赘述。
65.参见图4,本实施例的方法具体可以包括如下步骤:
66.s310、获取待应用的目标字段以及从表格中提取出来的文本信息。
67.s320、从文本信息中召回与目标字段匹配的键信息,并基于键信息从文本信息中召回至少一个候选信息。
68.s330、针对每个候选信息,分别获取包围住候选信息的候选框以及包围住键信息的键框。
69.s340、针对候选框的左框线上的第一点及键框的右框线上的第二点,确定第一点与第二点间的左右相距距离。
70.其中,结合本发明实施例可能涉及的应用场景,候选框基本位于键框的正右侧、正下侧或是右下侧,因此可以通过两个框的左右相距距离以及上下相距距离来确定将候选信息作为与键信息匹配的值信息的可行性。
71.具体的,第一点可以是候选框的左框线上的点,在实际应用中,可选的,其可以是左框线上的第一上顶点、第一中间点以及第一下顶点中的至少一个,在此未做具体限定。类似的,第二点可以是键框的右框线上的点,在实际应用中,可选的,其可以是右框线上的第二上顶点、第二中间点以及第二下顶点中的至少一个,在此未做具体限定。在此基础上,可以将第一点与第二点之间的相距距离作为左右相距距离,该左右相距距离可通过第一点在表格中第一位置以及第二点在表格中的第二位置间的相距距离进行表示。
72.s350、针对候选框的上框线上的第三点及键框的下框线上的第四点,确定第三点与第四点间的上下相距距离。
73.其中,第三点可以是候选框的上框线上的点,在实际应用中,可选的,其可以是上框线上的第三左顶点、第三中间点及第三右顶点中的至少一个,在此未做具体限定。类似的,第四点可以是键框的下框线上的点,在实际应用中,可选的,其可以是下框线上的第四左顶点、第四中间点及第四右顶点中的至少一个,在此未做具体限定。在此基础上,可以将第三点与第四点间的相距距离作为上下相距距离,该上下相距距离可通过第三点在表格中第三位置以及第四点在表格中的第四位置间的相距距离进行表示。
74.s360、根据左右相距距离和上下相距距离,确定将候选信息作为与键信息匹配的值信息的可行性,以基于各候选信息的可行性,对各候选信息进行排序。
75.其中,根据左右相距距离和上下相距距离,确定候选信息的可行性,例如根据左右
相距距离和上下相距距离确定平均相距距离,然后基于平均相距距离确定候选信息的可行性;再如基于左右相距距离和上下相距距离中的较小相距距离,表示候选信息的可行性;等等,在此未做具体限定。
76.s370、基于各候选信息的排序结果,从各候选信息中确定目标信息,并将目标信息作为从表格中提取出来的目标字段的字段值。
77.本发明实施例的技术方案,通过分别获取包围住候选信息的候选框及包围住键信息的键框,然后确定候选框的左框线上的第一点以及键框的右框线上的第二点间的左右相距距离,以及确定候选框的上框线上的第三点及键框的下框线上的第四点间的上下相距距离,从而可以根据左右相距距离和上下相距距离,确定将候选信息作为与键信息匹配的值信息的可行性,由此实现了候选信息的可行性的准确确定的效果。
78.一种可选的技术方案,第一点包括第一上顶点、第一中间点和第一下顶点,第二点包括第二上顶点、第二中间点和第二下顶点,确定第一点与第二点间的左右相距距离,可以包括:确定第一上顶点和第二上顶点间的上顶点相距距离、第一中间点和第二中间点间的中间点相距距离、以及第一下顶点和第二下顶点间的下顶点相距距离;获取预先设置的上顶点权重、中间点权重及下顶点权重;根据上顶点相距距离以及上顶点权重确定上顶点权重距离,根据中间点相距距离以及中间点权重确定中间点权重距离,并且根据下顶点相距距离以及下顶点权重确定下顶点权重距离;根据上顶点权重距离、中间点权重距离以及下顶点权重距离,确定第一点与第二点间的左右相距距离。
79.为了更加形象地理解如何确定每个候选信息的可行性,下面结合具体示例对其进行示例性说明。示例性的:
80.第一上顶点记为p
v1
,第一中间点记为p
v2
,第一下顶点记为p
v3

81.第二上顶点记为p
k1
,第二中间点记为p
k2
,第二下顶点记为p
k3

82.第三左顶点记为p
v4
,第三中间点记为p
v5
,第三右顶点记为p
v6

83.第四左顶点记为p
k4
,第四中间点记为p
k5
,第四右顶点记为p
k6

84.针对p
k1
和p
v1
、p
k2
和p
v2
、p
k3
和p
v3
、p
k4
和p
v4
、p
k5
和p
v5
及p
k6
和p
v6
分别计算欧式距离,得到的6对欧式距离分别为d
11
,d
22
,d
33
,d
44
,d
55
,d
66
。在此基础上,与这6对欧式距离分别对应的权重记为w
11
,w
22
,w
33
,w
44
,w
55
,w
66

85.那么左右相距距离dr可以通过如下式子计算得到:
86.dr=w
11
*d
11
+w
22
*d
22
+w
33
*d
33
87.上下相距距离db可以通过如下式子计算得到:
88.db=w
44
*d
44
+w
55
*d
55
+w
66
*d
66
89.至此,最小相距距离df可以通过如下式子计算得到,并基于df表示可行性:
90.df=min(dr,db)。
91.图5是本发明实施例中提供的另一种信息提取方法的流程图。本实施例以上述各技术方案为基础进行优化。在本实施例中,可选的,在基于各候选信息的可行性,对各候选信息进行排序之后,上述信息提取方法,还可包括:基于排序后的各候选信息的可行性,从排序后的各候选信息中过滤掉与键信息无关的无关信息,得到保留下来的各候选信息;基于各候选信息的排序结果,从各候选信息中确定目标信息,可以包括:在保留下来的各候选信息非空的情况下,基于保留下来的各候选信息的排序结果,从保留下来的各候选信息中
确定目标信息。其中,与上述各实施例相同或相应的术语的解释在此不再赘述。
92.参见图5,本实施例的方法具体可以包括如下步骤:
93.s410、获取待应用的目标字段以及从表格中提取出来的文本信息。
94.s420、从文本信息中召回与目标字段匹配的键信息,并基于键信息从文本信息中召回至少一个候选信息。
95.s430、针对每个候选信息,确定将候选信息作为与键信息匹配的值信息的可行性,以基于各候选信息的可行性,对各候选信息进行排序。
96.s440、基于排序后的各候选信息的可行性,从排序后的各候选信息中过滤掉与键信息无关的无关信息,得到保留下来的各候选信息。
97.其中,考虑到可能出现召回的至少一个候选信息均不是目标字段的字段值的情况,因此为了保证后续返回的字段值的准确性,可以基于排序后的各候选信息的可行性,从排序后的各候选信息中过滤掉与键信息无关的无关信息,即从排序后的各候选信息中过滤掉明显不是目标字段的字段值的候选信息。至此,保留下来的各候选信息可以认为是有一定可能与键信息成功配对的候选信息,由此保证了后续返回的字段值的准确性。
98.示例性的,假设通过上述示例中的df表示可行性,那么可以预先设定相距距离阈值,在按照df对各候选信息进行升序排序时,可将排序后的各候选信息中的首个大于相距距离阈值的df对应的候选信息以及排序在该候选信息之后的各个候选信息均作为无用信息;在按照df对各候选信息进行降序排序时,可以将排序后的各候选信息中的首个小于相距距离阈值的df对应的候选信息之前的各个候选信息均作为无用信息;等等。
99.s450、在保留下来的各候选信息非空的情况下,基于保留下来的各候选信息的排序结果,从保留下来的各候选信息中确定目标信息,并将目标信息作为从表格中提取出来的目标字段的字段值。
100.其中,经过上述步骤可能出现全部候选信息均过滤掉的情况,因此本步骤可以在确定保留下来的各候选信息非空的情况下,基于保留下来的各候选信息的排序结果,从保留下来的各候选信息中确定目标信息。
101.示例性的,在按照df对各候选信息进行升序排序时,可以将保留下来的各候选信息中的排在首位的候选信息作为目标信息;在按照df对各候选信息进行降序排序时,可以将保留下来的各候选信息中的排在末尾的候选信息作为目标信息;等等,在此未做具体限定。
102.本发明实施例的技术方案,通过排序后的各候选信息的可行性,从排序后的各候选信息中过滤掉与键信息无关的无关信息(即明显不是目标字段的字段值的候选信息),从而可以在保留下来的各候选信息非空的情况下,基于保留下来的各候选信息的排序结果,从保留下来的各候选信息中确定出目标信息,由此保证了返回的字段值的准确性。
103.为了从整体上更好地理解上述的各个技术方案,下面结合具体示例,对其进行示例性说明。参见图6a,上述信息提取方法可以基于信息提取系统实现,该信息提取系统可以包括配置模块、召回模块、排序模块和后过滤模块。其中,配置模块,用于保存键模式和值模式等配置信息;召回模块,用于从ocr结果(即文本信息)中召回与目标字段匹配的键信息以及可能与键信息匹配的至少一个候选信息;排序模块,用于针对召回的键信息以及每个候选信息进行评分计算,从而根据评分结果对各个候选信息进行排序;后过滤模块,用于对排
序结果进行后处理,过滤掉其中明显与键信息不匹配的候选信息。
104.在此基础上,基于如图6b所示的流程,从表格中提取出目标字段的字段值:
105.1.分别为各个目标字段在配置文件中配置键模式(pattern)和值模式;
106.2.通过ocr技术从表格图像中识别出文本信息。接下来几个步骤是针对各个目标字段中当前正在处理的目标字段进行的;
107.3.按照与目标字段匹配的键模式,从文本信息中召回键信息;
108.4.在键信息的右侧和下侧,结合与目标字段匹配的值模式,从文本信息中召回至少一个候选信息:
109.5.针对每个候选信息,对该候选信息与键信息组合为键值对的可行性进行评分,并根据评分结果对各候选信息进行排序,得到排序结果;
110.6.对排序结果进行过滤,例如过滤掉明显与键信息不匹配的候选信息;
111.7.在按照df对各候选信息进行升序排序的情况下,返回过滤后保留下来的各候选信息中的top1。
112.图7为本发明实施例中提供的信息提取装置的结构框图,该装置用于执行上述任意实施例所提供的信息提取方法。该装置与上述各实施例的信息提取方法属于同一个发明构思,在信息提取装置的实施例中未详尽描述的细节内容,可以参考上述信息提取方法的实施例。参见图7,该装置具体可以包括:文本信息获取模块510、候选信息召回模块520、候选信息排序模块530以及字段值提取模块540。
113.其中,文本信息获取模块510,用于获取待应用的目标字段以及从表格中提取出来的文本信息;
114.候选信息召回模块520,用于从文本信息中召回与目标字段匹配的键信息,并基于键信息从文本信息中召回至少一个候选信息;
115.候选信息排序模块530,用于针对每个候选信息,确定将候选信息作为键信息匹配的值信息的可行性,以基于各候选信息的可行性,对各候选信息进行排序;
116.字段值提取模块540,用于基于各候选信息的排序结果,从各候选信息中确定目标信息,并将目标信息作为从表格中提取出来的目标字段的字段值。
117.可选的,候选信息召回模块520,可以包括:
118.键信息召回单元,用于获取预先配置的与目标字段匹配的键模式,并且从文本信息中召回与键模式匹配的键信息;
119.中间信息召回单元,用于从文本信息中召回位于该键信息的预设位置上的中间信息;
120.候选信息召回单元,用于获取预先配置的与目标字段匹配的值模式,并且基于值模式从中间信息中召回至少一个候选信息。
121.可选的,候选信息排序模块530,可以包括:
122.键框获取单元,用于分别获取包围住候选信息的候选框以及包围住键信息的键框;
123.左右相距距离确定单元,用于针对候选框的左框线上的第一点以及键框的右框线上的第二点,确定第一点与第二点间的左右相距距离;
124.上下相距距离确定单元,用于针对候选框的上框线上的第三点以及键框的下框线
上的第四点,确定第三点与第四点间的上下相距距离;
125.可行性确定单元,用于根据左右相距距离以及上下相距距离,确定将候选信息作为与键信息匹配的值信息的可行性。
126.在此基础上,可选的,第一点包括第一上顶点、第一中间点和第一下顶点,第二点包括第二上顶点、第二中间点和第二下顶点,左右相距距离确定单元,可以包括:
127.下顶点相距距离确定子单元,用于确定第一上顶点和第二上顶点间的上顶点相距距离、第一中间点和第二中间点间的中间点相距距离、以及第一下顶点和第二下顶点间的下顶点相距距离;
128.下顶点权重获取子单元,用于获取预先设置的上顶点权重、中间点权重以及下顶点权重;
129.下顶点权重距离确定子单元,用于根据上顶点相距距离及上顶点权重确定上顶点权重距离,根据中间点相距距离以及中间点权重确定中间点权重距离,并且根据下顶点相距距离以及下顶点权重确定下顶点权重距离;
130.左右相距距离确定子单元,用于根据上顶点权重距离、中间点权重距离以及下顶点权重距离,确定第一点与第二点间的左右相距距离。
131.再可选的,可行性确定单元,具体可用于:基于左右相距距离和上下相距距离中的较小相距距离,表示候选信息作为与键信息匹配的值信息的可行性。
132.可选的,字段值提取模块540,可以包括:
133.目标信息第一确定单元,用于基于各候选信息的排序结果,确定各候选信息中的可行性最高的候选信息,并将可行性最高的候选信息作为目标信息。
134.可选的,上述信息提取装置,还可以包括:
135.候选信息过滤模块,用于基于排序后的各候选信息的可行性,从排序后的各候选信息中过滤掉与键信息无关的无关信息,得到保留下来的各候选信息;
136.字段值提取模块540,可以包括:
137.目标信息确定第二单元,用于保留下来的各候选信息非空的情况下,基于保留下来的各候选信息的排序结果,从保留下来的各候选信息中确定目标信息。
138.可选的,上述信息提取装置,还可以包括:表格图像获取模块,用于获取对表格进行图像采集后得到的表格图像;文本信息提取模块,用于基于光学字符识别技术从表格图像中提取出文本信息。
139.本发明实施例提供的信息提取装置,通过文本信息获取模块获取待应用的目标字段及从表格中提取出来的文本信息;通过候选信息召回模块,针对每个目标字段,从文本信息中召回与目标字段匹配的键信息,并基于键信息从文本信息中召回至少一个候选信息;进而,通过候选信息排序模块,针对每个候选信息,确定将候选信息作为与键信息匹配的值信息的可行性,从而基于各候选信息的可行性,对各候选信息进行排序;这样一来,通过字段值提取模块可以基于各候选信息的排序结果,从各候选信息中确定目标信息,即最有可能与键信息组合为键值对的候选信息,从而将目标信息作为从表格中提取出来的目标字段的字段值。上述装置,实现了从任意表格样式下的表格(如制式表格或是非制式表格)中自动提取出目标字段的字段值的效果,具有较大的应用空间。
140.本发明实施例所提供的信息提取装置可执行本发明任意实施例所提供的信息提
取方法,具备执行方法相应的功能模块和有益效果。
141.值得注意的是,上述信息提取装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
142.图8示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
143.如图8所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(rom)12、随机访问存储器(ram)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(rom)12中的计算机程序或从存储单元18加载到随机访问存储器(ram)13中的计算机程序,来执行各种适当的动作和处理。在ram 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、rom 12以及ram 13通过总线14彼此相连。输入/输出(i/o)接口15也连接至总线14。
144.电子设备10中的多个部件连接至i/o接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
145.处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如信息提取方法。
146.在一些实施例中,信息提取方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由rom 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到ram 13并由处理器11执行时,可以执行上文描述的信息提取方法的一个或多个步骤。备选地,在其他实施例中,处理器11可通过其他任何适当的方式(例如,借助于固件)而被配置为执行信息提取方法。
147.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、以及至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、以及该至少一个输出装置。
148.用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或是其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行并且部分地在远程机器上执行或完全在远程机器或服务器上执行。
149.在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
150.为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
151.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)、区块链网络和互联网。
152.计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务中,存在的管理难度大,业务扩展性弱的缺陷。
153.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
154.上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。


文章投稿或转载声明

本文链接:http://www.wtabcd.cn/zhuanli/patent-13-910-0.html

来源:专利查询检索下载-实用文体写作网版权所有,转载请保留出处。本站文章发布于 2022-11-27 21:17:30

发表评论

验证码:
用户名: 密码: 匿名发表
评论列表 (有 条评论
2人围观
参与讨论