本文作者:kaifamei

一种报告结构化处理的方法、装置、设备及存储介质与流程

更新时间:2025-03-26 06:25:11 0条评论

一种报告结构化处理的方法、装置、设备及存储介质与流程



1.本发明涉及计算机技术领域,尤其涉及一种报告结构化处理的方法、装置、设备及存储介质。


背景技术:



2.随着科学技术的进步,医疗和保险领域也在逐渐走向数字化。体检报告的结构化存储对于机构了解用户体检情况,解读用户健康信息具有重要的意义。
3.现有方法需要对不同医疗机构中体检报告的模板进行深度学习,得到不同模板对应的网络模型,然后将体检报告输入到相应的网络模型中,利用模型对报告进行表格的查与内容的解析。
4.由于医疗机构的模板类型众多,对不同医疗机构建立不同的体检报告网络模型,利用模型对体检报告进行结构化的成本较高,效率低下,且兼容性差、通用性不强。


技术实现要素:



5.本发明提供了一种报告结构化处理的方法、装置、设备及存储介质,降低了报告结构化的成本,实现了对各种类型报告进行结构化存储的效果,提高了对报告处理的兼容性以及通用性,同时为后续报告的提取、调用提供了便利。
6.第一方面,本发明实施例提供了一种报告结构化处理的方法,该方法包括:
7.对接收到的待处理报文进行处理,得到目标报告;
8.基于图文识别模块对目标报告进行文本框和文字识别,确定至少一个文本框和与文本框相对应的文本内容;
9.基于预设分区键确定与所述文本框相对应的分区结果,以及与分区结果相应的文本内容,并将除目标分区结果之外的待存储分区结果和相应的文本内容作为第一结构化待存储数据;
10.根据目标分区结果所对应的待处理图像,确定与待处理图像相对应的灰度图;其中,待处理图像中包括与目标分区结果相对应的文本内容;
11.基于灰度图和待处理图像,确定第二结构化待存储数据;
12.基于第一结构化待存储数据和第二结构化待存储数据,确定与待处理报文相对应的目标结构化数据。
13.第二方面,本发明实施例还提供了一种报告结构化处理的装置,应用于报告结构化处理中,该报告结构化处理装置包括:
14.报文处理模块,用于对接收到的待处理报文进行处理,得到目标报告;
15.文本内容确定模块,用于基于图文识别模块对目标报告进行文本框和文字识别,确定至少一个文本框和与文本框相对应的文本内容;
16.第一结构化待存储数据确定模块,用于基于预设分区键确定与文本框相对应的分区结果,以及与分区结果相应的文本内容,并将除目标分区结果之外的待存储分区结果和
相应的文本内容作为第一结构化待存储数据;
17.灰度图确定模块,用于根据目标分区结果所对应的待处理图像,确定与待处理图像相对应的灰度图;其中,待处理图像中包括与目标分区结果相对应的文本内容;
18.第二结构化待存储数据确定模块,用于基于灰度图和待处理图像,确定第二结构化待存储数据;
19.目标结构化数据确定模块,用于基于第一结构化待存储数据和第二结构化待存储数据,确定与待处理报文相对应的目标结构化数据。
20.第三方面,本发明还提供了一种电子设备,该电子设备包括:
21.至少一个处理器;以及
22.与至少一个处理器通信连接的存储器;其中,
23.存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器能够执行本发明任一实施例的报告结构化处理的方法。
24.第四方面,本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使处理器执行时实现本发明任一实施例的报告结构化处理的方法。
25.本发明实施例的技术方案,通过对接收到的待处理报文进行处理,得到目标报告;基于图文识别模块对目标报告进行文本框和文字识别,确定至少一个文本框和与文本框相对应的文本内容;基于预设分区键确定与文本框相对应的分区结果,以及与分区结果相应的文本内容,并将除目标分区结果之外的待存储分区结果和相应的文本内容作为第一结构化待存储数据;根据目标分区结果所对应的待处理图像,确定与待处理图像相对应的灰度图;基于灰度图和待处理图像,确定第二结构化待存储数据;基于第一结构化待存储数据和第二结构化待存储数据,确定与待处理报文相对应的目标结构化数据。解决了对报告结构化成本高、兼容性差、通用性不强的问题,实现了对报告结构化方法进一步的优化,提高了报告结构化的通用性和兼容性,同时降低报告结构化处理的成本。
26.应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
27.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
28.图1是根据本发明实施例一提供的一种报告结构化处理的方法的流程图;
29.图2是根据本发明实施例二提供的一种报告结构化处理方法的流程图;
30.图3是根据本发明实施例三提供的一种报告结构化处理方法的流程图;
31.图4是根据本发明实施例四提供的一种报告结构化处理方法的流程图;
32.图5是根据本发明实施例五提供的一种报告结构化处理方法的流程图;
33.图6是根据本发明实施例六提供的一种报告结构化处理装置的结构示意图;
34.图7是实现本发明实施例的报告结构化处理方法的电子设备的结构示意图。
具体实施方式
35.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
36.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
37.实施例一
38.图1为本发明实施例一提供的一种报告结构化处理的方法的流程图。本实施例可适用于对报告中的表格及文本内容进行分析、处理得到结构化报告的情况,该方法可以由报告结构化处理的装置来执行,该报告结构化处理的装置可以采用硬件和/或软件的形式实现,该报告结构化处理的装置可配置于计算机中。
39.如图1所示,该方法包括:
40.s110、对接收到的待处理报文进行处理,得到目标报告。
41.其中,待处理报文是系统接收到的最原始的报告,可以是纸质报告、pdf报告文件、报告图片等。目标报告是指经过系统对待处理报文进行相关处理得到的图片格式的报告。
42.示例性的,接收到的待处理报文是pdf格式的用户体检报告,可以对用户体检报告进行格式转换、去除水印、删除页眉页脚等操作,得到目标报告。其中,用户体检报告的处理方法,本实施例在此不做限定。
43.s120、基于图文识别模块对目标报告进行文本框和文字识别,确定至少一个文本框和与文本框相对应的文本内容。
44.其中,图文识别模块是可以对图片中的文本框和文字进行定位提取的模块,可以是各种图文识别软件,本实施例在此不做限定。文本框是指报告中的表格框,在表格中可以包含各种文字信息。进一步的,由于报告中的文本框数量可能是一个和/或多个,因此可以确定至少一个文本框和与文本框相对应的文本内容。
45.示例性的,目标报告是用户的体检报告单,由于对各个文本框执行相同的操作,现以其中一个文本框为例,并将这个文本框命名为文本框1,目标报告中文本框1中包含用户的身高信息为160cm,则可以确定文本框1对应的文本内容为160cm。
46.s130、基于预设分区键确定与文本框相对应的分区结果,以及与分区结果相应的文本内容,并将除目标分区结果之外的待存储分区结果和相应的文本内容作为第一结构化待存储数据。
47.其中,预设分区键是指预先设置的某些文字内容对应的区域,如异常情况、建议与指导、健康体检结果等文字内容对应的区域。需要说明的是,预设分区键根据不同的报告可
以有多个,本实施例在此不做限制。将图文识别中提取的文字内容与预设分区键进行特征匹配,匹配结果一致则将该文字内容所在区域作为分区键。分区结果是各个文本框应该划分到的区域。进一步的,由于健康体检结果中有不同项目、测量结果、单位以及参考范围等,所以目标分区结果是指健康体检结果对应的区域。第一结构化待存储数据是指只有一级表头的文本框以及对应的文本内容。
48.示例性的,体检报告有三个区域分别是异常情况、建议与指导和健康体检结果,其中异常情况对应的结果是:未见异常;建议与指导对应的结果是:加强锻炼,多摄入维生素c。用户体检报告单经过图文识别得到文本框1、文本框2、文本框3、文本框4以及相应的文本内容:异常情况、未见异常、建议与指导、加强锻炼,多摄入维生素c。将得到文本内容与预设分区键进行特征匹配,确定异常情况和建议与指导对应的文本框1和文本框3的位置,两个文本框之间的文本框2的分区结果是异常情况,并确定文本框2中相应的文本内容为:未见异常。并将除健康体检结果之外的分区结果,即,异常情况和建议与指导两个分区结果和相应的文本内容:未见异常和加强锻炼,多摄入维生素c作为第一结构化待存储数据。
49.s140、根据目标分区结果所对应的待处理图像,确定与待处理图像相对应的灰度图。
50.其中,待处理图像中包括与目标分区结果相对应的文本内容。
51.其中,待处理图像是指目标分区结果对应的整个区域的图像。灰度图是指与待处理图像尺寸大小相同且图像中像素点的灰度值等于0或225的单通道灰度图,在灰度图中每个像素点的灰度值为0。示例性的,将用户体检单上的健康体检结果区域提取出来,建立一张和健康体检结果区域面积大小相同且灰度值为0的灰度图。
52.s150、基于灰度图和待处理图像,确定第二结构化待存储数据。
53.其中,第二结构化待存储数据是指具有两级表头的文本内容数据。
54.具体的,对灰度图进行像素设置、纵向投影以及相关处理,分析得到目标分区结果中文本框位置、各文本内容对应的文本框结合文本内容,将其作为第二结构化待存储数据。
55.示例性的,将用户体检单上健康体检结果区域对应的灰度图进行分析处理,得到健康体检水平中各个文本框的位置各文本内容对应的文本框结合文本内容,将其确定为第二结构化待存储数据。
56.s160、基于第一结构化待存储数据和第二结构化待存储数据,确定与待处理报文相对应的目标结构化数据。
57.其中,目标结构化数据是指最终得到的用户报告中所有文本数据。
58.具体的,将第一结构化待存储数据和第二结构化待存储数据拼接得到目标结构化数据。示例性的,将异常情况、建议与指导和健康体检结果对应的文本内容进行汇总得到用户体检报告的结构化数据。
59.本发明实施例的技术方案,通过对接收到的待处理报文进行处理,得到目标报告;基于图文识别模块对目标报告进行文本框和文字识别,确定至少一个文本框和与文本框相对应的文本内容;基于预设分区键确定与文本框相对应的分区结果,以及与分区结果相应的文本内容,并将除目标分区结果之外的待存储分区结果和相应的文本内容作为第一结构化待存储数据;根据目标分区结果所对应的待处理图像,确定与待处理图像相对应的灰度图;基于灰度图和待处理图像,确定第二结构化待存储数据;基于第一结构化待存储数据和
第二结构化待存储数据,确定与待处理报文相对应的目标结构化数据,降低了报告结构化的成本,实现了对各种类型报告进行结构化存储的效果,提高了对报告处理的兼容性以及通用性,同时为后续报告的提取、调用提供了便利。
60.实施例二
61.图2为本发明实施例二提供的一种报告结构化处理的方法的流程图,在前述实施例的基础上,可以对基于预设分区键确定与文本框相对应的分区结果,以及与分区结果相应的文本内容,将除目标分区结果之外的待存储分区结果和相应的文本内容作为第一结构化存储数据,进行进一步细化,其具体的实施方式可以参见本发明实施例的详细阐述,其中,与上述实施例相同或者相应的技术术语在此不再赘述。
62.如图2所示,该方法包括:
63.s210、若待处理报文为图像格式,则对待处理报文降噪并方向矫正处理,以得到目标报告。
64.其中,降噪是指减少数字图像中噪声的过程,好处是可以得到质量更高的报文图像。降噪方法在不实施例中不做限定。方向矫正是指通过旋转调整图像的方向,方便后续对文本的精准识别。
65.s220、若待处理报文为非图像格式,则将待处理报文转换为图像格式,并重新执行得到目标报告的步骤。
66.具体的,可以利用格式转换器将非图像格式的待处理报文转换为图像格式,然后执行s210中的操作。
67.s230、基于图文识别模块对目标报告进行文本框和文字识别,确定至少一个文本框和与文本框相对应的文本内容。
68.s240、基于预设分区键的关键词匹配文本内容,得到文本内容所属的预设分区键,并作为分区结果。
69.其中,匹配是指将预设分区键的关键词与文本内容进行对比。
70.示例性的,若预设分区键的关键词为异常情况、建议与指导和健康体检结果,将全部文本内容与异常情况、建议与指导和健康体检结果进行对比,则文本内容中的异常情况、建议与指导和健康体检结果等字段所在区域为文本内容所属的预设分区键,并作为分区结果。
71.s250、将文本内容和相应的待存储分区结果绑定,得到第一结构化存储数据。
72.其中,待存储分区结果是指文本内容所属的预设分区键,具体的,将文本内容所属的预设分区键与预设分区键对应的内容进行绑定,得到第一结构化存储数据。示例性的,以预设分区键异常情况为例,其对应的文本内容为:未见异常,则将预设分区键异常情况与未见异常进行绑定,得到相应的第一结构化存储数据。
73.s260、根据目标分区结果所对应的待处理图像,确定与待处理图像相对应的灰度图。
74.其中,待处理图像中包括与目标分区结果相对应的文本内容。
75.s270、基于灰度图和待处理图像,确定第二结构化待存储数据。
76.s280、基于第一结构化待存储数据和第二结构化待存储数据,确定与待处理报文相对应的目标结构化数据。
77.本发明实施例的技术方案,通过对接收到的待处理报文进行相应的格式、图像降噪、方向矫正等处理,得到目标报告;基于图文识别模块对目标报告进行文本框和文字识别,确定至少一个文本框和与文本框相对应的文本内容;基于预设分区键的关键词匹配文本内容,得到文本内容所属的预设分区键,并作为分区结果;将文本内容和相应的待存储分区结果绑定,得到第一结构化存储数据;根据目标分区结果所对应的待处理图像,确定与待处理图像相对应的灰度图;基于灰度图和待处理图像,确定第二结构化待存储数据;基于第一结构化待存储数据和第二结构化待存储数据,确定与待处理报文相对应的目标结构化数据,利用预设分区键匹配到文本内容中所属的分区键,得到分区结果以及相应的文本内容,将文本内容和分区结果进行绑定,准确的对报告进行分区处理,提高了报告结构化的准确性。
78.实施例三
79.图3为本发明实施例三提供的一种报告结构化处理的方法的流程图,在前述实施例的基础上,可以对根据目标分区结果所对应的待处理图像,确定与待处理图像相对应的灰度图,进行进一步细化,其具体的实施方式可以参见本发明实施例的详细阐述,其中,与上述实施例相同或者相应的技术术语在此不再赘述。
80.如图3所示,该方法包括:
81.s310、对接收到的待处理报文进行处理,得到目标报告。
82.s320、基于图文识别模块对目标报告进行文本框和文字识别,确定至少一个文本框和与文本框相对应的文本内容。
83.s330、基于预设分区键确定与文本框相对应的分区结果,以及与分区结果相应的文本内容,并将除目标分区结果之外的待存储分区结果和相应的文本内容作为第一结构化待存储数据。
84.s340、基于目标分区结果在目标报告中的位置信息,确定与目标分区结果相对应的待处理图像。
85.其中,位置信息是指目标分区结果在图像中的位置相应的坐标信息,如图像的四个顶点a、b、c、d的坐标信息分别是(0,5)(0,0)(6,0)(6,5)。
86.具体的,将目标分区结果区域的图像确定为待处理图像,之后对待处理图像做进一步的结构化存储。在上述示例基础上,可以通过图像处理软件得到健康体检单四个顶点像素点坐标信息,连接四个顶点,得到的封闭区域即为待处理图像。
87.s350、基于待处理图像的尺寸信息,创建预设灰度值所对应的原始灰度图像。
88.其中,尺寸信息是目标分区结果对应的面积大小。预设灰度值是指预先设置的图像的灰度值。原始灰度图像是指重新创建的与待处理图像大小相等且所有像素点的灰度值为0的单通道灰度图像。在本实施例中,原始灰度图像的预设灰度值为0。具体的,创建一张与待处理图像大小相等的且所有像素点灰度值为0的原始灰度图像。
89.s360、基于原始灰度图像和待处理图像中的文本内容,确定灰度图。
90.其中,灰度图是指对原始灰度图像中的部分像素点进行灰度值重新设置得到的灰度图。
91.可选的,根据待处理图像中文本内容所属的文本框,对原始灰度图中对应的位置进行像素值更新处理,得到灰度图。
92.其中,像素值是图像被数字化时由计算机赋予的值,它代表了图像中某一小方块的平均亮度信息,像素值的范围在0-255之间,像素值越接近0的图像部分越暗,像素值越接近255的图像部分越亮,在单通道灰度图中,像素值可以有一个数字表示,此时这个数字等于灰度值。
93.具体的,将初始灰度图像中与待处理图像中文本内容所属的文本框对应的位置上的像素点的像素值设置为255,得到待处理图像对应的灰度图。
94.s370、基于灰度图和待处理图像,确定第二结构化待存储数据。
95.s380、基于第一结构化待存储数据和第二结构化待存储数据,确定与待处理报文相对应的目标结构化数据。
96.本发明实施例的技术方案,通过对接收到的待处理报文进行处理,得到目标报告;基于图文识别模块对目标报告进行文本框和文字识别,确定至少一个文本框和与文本框相对应的文本内容;基于预设分区键确定与文本框相对应的分区结果,以及与分区结果相应的文本内容,并将除目标分区结果之外的待存储分区结果和相应的文本内容作为第一结构化待存储数据;基于目标分区结果在目标报告中的位置信息,确定与目标分区结果相对应的待处理图像;基于待处理图像的尺寸信息,创建预设灰度值所对应的原始灰度图像;基于原始灰度图像和待处理图像中的文本内容,确定灰度图;基于灰度图和待处理图像,确定第二结构化待存储数据;基于第一结构化待存储数据和第二结构化待存储数据,确定与待处理报文相对应的目标结构化数据,对目标分区结果进行进一步的分析处理,得到相应的灰度图,便于后续对目标分区结果中的文本内容进行结构化处理。
97.实施例四
98.图4为本发明实施例四提供的一种报告结构化处理的方法的流程图,在前述实施例的基础上,可以对基于灰度图和待处理图像,确定第二结构化待存储数据,进行进一步细化,其具体的实施方式可以参见本发明实施例的详细阐述,其中,与上述实施例相同或者相应的技术术语在此不再赘述。
99.如图4所示,该方法包括:
100.s410、对接收到的待处理报文进行处理,得到目标报告。
101.s420、基于图文识别模块对目标报告进行文本框和文字识别,确定至少一个文本框和与文本框相对应的文本内容。
102.s430、基于预设分区键确定与文本框相对应的分区结果,以及与分区结果相应的文本内容,并将除目标分区结果之外的待存储分区结果和相应的文本内容作为第一结构化待存储数据。
103.s440、根据目标分区结果所对应的待处理图像,确定与待处理图像相对应的灰度图。
104.其中,待处理图像中包括与目标分区结果相对应的文本内容。
105.s450、根据灰度图中每行像素点所对应的像素值,确定行边界,以基于行边界确定至少一个子区域。
106.其中,行边界是指每行文本内容对应的文本框的上下框线。子区域是指目标分区结果中各个文本内容对应的区域。
107.具体的,将灰度图的像素向纵轴方向投影,即通过对灰度图中像素的水平投影,分
割每一行,获取每一行的像素值分布图,在像素值分布图中能统计到像素值以及每行像素点中不同像素值对应的像素数。需要说明的是,在本实施例中,将像素值为255的像素点称为白像素。然后按行统计白像素的个数。出白像素个数的极大值点,以每个极大值点为中心向两边寻白像素值接近0的行,确定为行分界。进一步的,行分界为待处理图像中表格框线的边界。则在两个行分界之间的区域为子区域。由于目标分区结果中的文本框数量可以是一个和/或多个,所以子区域的数量可能为一个和/或多个。
108.s460、基于预设二级表头键的关键词在待处理图像中的位置信息、至少一个子区域以及相应的文本内容,确定第二结构化待存储数据。
109.其中,预设二级表头键是指预先设置的某些文字内容对应的区域,这些文字是表格中二级表头的内容。
110.具体的,通过将预设二级表头键的关键词与待处理图像中的文本内容进行特征匹配得到待处理图像中的文本内容所属的二级表头键,确定其在待处理图像中的位置信息;结合步骤450中子区域以及相应的文本内容,确定第二结构化待存储数据。
111.示例性的,健康体检结果的表格中对应的一级表头为内科,内科下又分检查项目、测量结果、单位、参考区间等二级表头。则二级表头键可以为检查项目、测量结果、单位、参考区间等文字内容所在区域,二级表头键所在行也可以称为二级表头行。由于对各个二级表头键执行相同的操作,现以其中一个二级表头键为例,检查项目对应的分区结果中的文本内容为:心肺功能、发育及营养、腹部检查三行内容。通过程序的分析可以得到检查项目在待处理图像中所在的位置,结合心肺功能、发育及营养、腹部检查所在行的位置以及相应的文本内容,可以确定第二结构化待存储数据。
112.可选的,确定预设二级表头键的关键词在待处理图像中所对应的行信息;基于行信息的文本框、至少一个子区域所属文本框以及相应的文本内容,确定第二结构化待存储数据。
113.其中,行信息为每一行数据的行坐标信息。具体的,当确定二级表头键的行信息,每个行信息对应的文本框、子区域所属的文本框以及相应的文本内容,可以确定第二结构化待存储数据。
114.s470、基于第一结构化待存储数据和第二结构化待存储数据,确定与待处理报文相对应的目标结构化数据。
115.本发明实施例的技术方案,通过对接收到的待处理报文进行处理,得到目标报告;基于图文识别模块对目标报告进行文本框和文字识别,确定至少一个文本框和与文本框相对应的文本内容;基于预设分区键确定与文本框相对应的分区结果,以及与分区结果相应的文本内容,并将除目标分区结果之外的待存储分区结果和相应的文本内容作为第一结构化待存储数据;根据所述目标分区结果所对应的待处理图像,确定与所述待处理图像相对应的灰度图;根据所述灰度图中每行像素点所对应的像素值,确定行边界,以基于所述行边界确定至少一个子区域;基于预设二级表头键的关键词在所述待处理图像中的位置信息、所述至少一个子区域以及相应的文本内容,确定所述第二结构化待存储数据。基于第一结构化待存储数据和第二结构化待存储数据,确定与待处理报文相对应的目标结构化数据,利用白像素个数分析到行分界,用过预设二级表头键到二级表头的位置,根据各个文本框的行信息已经对应的文字内容确定第二结构化待存储数据,准确的将目标分区结果
中的数据进行结构化存储,得到完整的结构化报告。
116.实施例五
117.图5为本发明实施例提供的一种报告结构化处理方法的流程图,本实施例适用报告中的表格及文本内容进行分析、处理得到结构化报告的情况。其具体的实施方式可以参见本发明实施例的详细阐述,其中,与上述实施例相同或者相应的技术术语在此不再赘述。
118.如图5所示,该方法包括:
119.s501、接收数据,得到目标报告。
120.示例性的,接收报告单,若为图像格式,进行下一步处理;若为pdf文件,转为图像格式,进行下一步处理。
121.s502、对图像做预处理。
122.示例性的,对于图像进行不限于降噪、方向校正等处理。
123.s503、对处理后的图像做ocr提取文本框和文字识别结果,滤除其中的无用文本和对应的文本框,如页眉页脚等。
124.s504、预设分区键,进行分区划分,得到第一结构化待存储数据。
125.示例性的,预设分区键为异常情况、建议与指导、健康体检结果对应的区域等,出预设分区键出现的位置,进行分区划分,得到分区结果。将健康体检结果以外的内容按照分区键和文本内容进行结构化存储,得到第一结构化待存储数据。
126.s505、提取待处理图像,创建灰度图。
127.示例性的,提取出健康体检结果区域,将该区域称为待处理图像,重建一张和待处理图像大小一致的灰度图,像素全部设置为0。
128.s506、将灰度图中与待处理图像出现文本框的对应位置的像素设置为255。
129.s507、将灰度图的像素向纵轴方向投影,按行统计像素值为255的像素数。
130.s508、出白像素个数的极大值点,以每个极大值点为中心,向两边寻像素值255的边界,即为行分界。
131.s509、预设二级表头键,出预设二级表头键所在的行,即为二级表头行。
132.示例性的,预设二级表头键为检查项目、测量结果、单位、参考区间等字段对应的区域,出检查项目、测量结果、单位、参考区间所在的行,即为二级表头行。
133.s510、根据二级表头行的位置定位一级表头行和表体。
134.示例性的,检查项目、测量结果、单位、参考区间所在行的上一行即为一级表头行,二级表头行的下一行到下一个一级表头的上一行或者待处理图像的结束即为表体。
135.s511、根据表头和表体重建表格,结构化数据。
136.示例性的,将二级表头行的文本框和表体中每一行文本框在行方向上计算iou,给每一个文本框赋予表头含义,再结合文本框的文本内容,进行数据结构化,完成后进行存储。
137.本发明实施例的技术方案,通过接收数据,得到目标报告;对图像做预处理;对处理后的图像做ocr提取文本框和文字识别结果,滤除其中的无用文本和对应的文本框,如页眉页脚等;预设分区键,进行分区划分,得到第一结构化待存储数据;提取待处理图像,创建灰度图;将灰度图中与待处理图像出现文本框的对应位置的像素设置为255;将灰度图的像素向纵轴方向投影,按行统计像素值为255的像素数;出白像素个数的极大值点,以每
个极大值点为中心,向两边寻像素值255的边界,即为行分界;预设二级表头键,出预设二级表头键所在的行,即为二级表头行;根据二级表头行的位置定位一级表头行和表体;根据表头和表体重建表格,结构化数据,实现了对各种形式报告结构化处理,提高了对报告结构化处理的通用性和兼容性,为后续报告的提取、调用提供了便利。
138.实施例六
139.图6为本发明实施例六提供的一种报告结构化处理装置的结构示意图。
140.如图6所示,该装置包括:
141.报文处理模块610,用于对接收到的待处理报文进行处理,得到目标报告;文本内容确定模块620,用于基于图文识别模块对目标报告进行文本框和文字识别,确定至少一个文本框和与文本框相对应的文本内容;第一结构化待存储数据确定模块630,用于基于预设分区键确定与文本框相对应的分区结果,以及与分区结果相应的文本内容,并将除目标分区结果之外的待存储分区结果和相应的文本内容作为第一结构化待存储数据;灰度图确定模块640,用于根据目标分区结果所对应的待处理图像,确定与待处理图像相对应的灰度图;其中,待处理图像中包括与目标分区结果相对应的文本内容;第二结构化待存储数据确定模块650,用于基于灰度图和待处理图像,确定第二结构化待存储数据;目标结构化数据确定模块660,用于基于第一结构化待存储数据和第二结构化待存储数据,确定与待处理报文相对应的目标结构化数据。
142.在上述各技术方案的基础上,报文处理模块还包括,
143.报文处理单元,用于若待处理报文为图像格式,则对待处理报文降噪并方向矫正处理,以得到目标报告;报文格式转换单元,用于若待处理报文为非图像格式,则将待处理报文转换为图像格式,并重新执行得到目标报告的步骤。
144.在上述各技术方案的基础上,第一结构化待存储数据确定模块还包括,
145.分区结果确定单元,用于基于预设分区键的关键词匹配文本内容,得到文本内容所属的预设分区键,并作为分区结果;文本和分区结果绑定单元,用于将文本内容和相应的待存储分区结果绑定,得到第一结构化存储数据。
146.在上述各技术方案的基础上,灰度图确定模块还包括,
147.待处理图像确定单元,用于基于目标分区结果在目标报告中的位置信息,确定与目标分区结果相对应的待处理图像;原始灰度图像创建单元,用于基于待处理图像的尺寸信息,创建预设灰度值所对应的原始灰度图像;灰度图像确定单元,用于基于原始灰度图像和待处理图像中的文本内容,确定灰度图。
148.在上述各技术方案的基础上,灰度图像确定单元还包括,
149.像素处理子单元,用于根据待处理图像中文本内容所属的文本框,对原始灰度图进行像素值更新处理,得到灰度图。
150.在上述各技术方案的基础上,第二结构化待存储数据确定模块还包括,
151.子区域确定单元,用于根据灰度图中每行像素点所对应的像素值,确定行边界,以基于行边界确定至少一个子区域;第二结构化待存储数据确定单元,用于基于预设二级表头键的关键词在待处理图像中的位置信息、至少一个子区域以及相应的文本内容,确定第二结构化待存储数据。
152.在上述各技术方案的基础上,第二结构化待存储数据确定单元还包括,
153.行信息确定子单元,用于确定预设二级表头键的关键词在待处理图像中所对应的行信息;第二结构化待存储数据子单元,用于基于行信息的文本框、至少一个子区域所属文本框以及相应的文本内容,确定第二结构化待存储数据。
154.本发明实施例的技术方案,通过对接收到的待处理报文进行处理,得到目标报告;基于图文识别模块对目标报告进行文本框和文字识别,确定至少一个文本框和与文本框相对应的文本内容;基于预设分区键确定与文本框相对应的分区结果,以及与分区结果相应的文本内容,并将除目标分区结果之外的待存储分区结果和相应的文本内容作为第一结构化待存储数据;根据目标分区结果所对应的待处理图像,确定与待处理图像相对应的灰度图;基于灰度图和待处理图像,确定第二结构化待存储数据;基于第一结构化待存储数据和第二结构化待存储数据,确定与待处理报文相对应的目标结构化数据。实现了对各种类型报告进行结构化存储的效果,提高了对报告处理的兼容性以及通用性,同时为后续报告的提取、调用提供了便利。
155.本发明实施例所提供的报告结构化处理的装置可执行本发明任意实施例所提供的报告结构化处理的方法,具备执行方法相应的功能模块和有益效果。
156.实施例七
157.图7示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
158.如图7所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(rom)12、随机访问存储器(ram)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(rom)12中的计算机程序或者从存储单元18加载到随机访问存储器(ram)13中的计算机程序,来执行各种适当的动作和处理。在ram 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、rom 12以及ram 13通过总线14彼此相连。输入/输出(i/o)接口15也连接至总线14。
159.电子设备10中的多个部件连接至i/o接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
160.处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如本发明技术方案的报告结构化处理的方法。
161.在一些实施例中,报告结构化处理的方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由rom 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载
到ram 13并由处理器11执行时,可以执行上文描述的报告结构化处理的方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行报告结构化处理方法。
162.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
163.用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
164.在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
165.为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
166.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)、区块链网络和互联网。
167.计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算
机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务中,存在的管理难度大,业务扩展性弱的缺陷。
168.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
169.上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

技术特征:


1.一种报告结构化处理的方法,其特征在于,包括:对接收到的待处理报文进行处理,得到目标报告;基于图文识别模块对所述目标报告进行文本框和文字识别,确定至少一个文本框和与所述文本框相对应的文本内容;基于预设分区键确定与所述文本框相对应的分区结果,以及与所述分区结果相应的文本内容,并将除目标分区结果之外的待存储分区结果和相应的文本内容作为第一结构化待存储数据;根据所述目标分区结果所对应的待处理图像,确定与所述待处理图像相对应的灰度图;其中,所述待处理图像中包括与所述目标分区结果相对应的文本内容;基于所述灰度图和所述待处理图像,确定第二结构化待存储数据;基于所述第一结构化待存储数据和所述第二结构化待存储数据,确定与所述待处理报文相对应的目标结构化数据。2.根据权利要求1所述的方法,其特征在于,所述对接收到的待处理报文进行处理,得到目标报告,包括:若所述待处理报文为图像格式,则对所述待处理报文降噪并方向矫正处理,以得到所述目标报告;若所述待处理报文为非图像格式,则将所述待处理报文转换为图像格式,并重新执行得到所述目标报告的步骤。3.根据权利要求1所述的方法,其特征在于,所述基于预设分区键确定与所述文本框相对应的分区结果,以及与所述分区结果相应的文本内容,将除所述目标分区结果之外的待存储分区结果和相应的文本内容作为第一结构化存储数据,包括:基于所述预设分区键的关键词匹配所述文本内容,得到所述文本内容所属的预设分区键,并作为所述分区结果;将文本内容和相应的待存储分区结果绑定,得到所述第一结构化存储数据。4.根据权利要求1所述的方法,其特征在于,所述根据所述目标分区结果所对应的待处理图像,确定与所述待处理图像相对应的灰度图,包括:基于所述目标分区结果在所述目标报告中的位置信息,确定与所述目标分区结果相对应的待处理图像;基于所述待处理图像的尺寸信息,创建预设灰度值所对应的原始灰度图像;基于所述原始灰度图像和所述待处理图像中的文本内容,确定所述灰度图。5.根据权利要求4所述的方法,其特征在于,所述基于所述原始灰度图像和所述待处理图像中的文本内容,确定所述灰度图,包括:根据所述待处理图像中文本内容所属的文本框,对所述原始灰度图进行像素值更新处理,得到所述灰度图。6.根据权利要求1所述的方法,其特征在于,所述基于所述灰度图和所述待处理图像,确定第二结构化待存储数据,包括:根据所述灰度图中每行像素点所对应的像素值,确定行边界,以基于所述行边界确定至少一个子区域;基于预设二级表头键的关键词在所述待处理图像中的位置信息、所述至少一个子区域
以及相应的文本内容,确定所述第二结构化待存储数据。7.根据权利要求6所述的方法,其特征在于,所述基于预设二级表头键的关键词在所述待处理图像中的位置信息、所述至少一个子区域以及相应的文本内容,确定所述第二结构化待存储数据,包括:确定所述预设二级表头键的关键词在所述待处理图像中所对应的行信息;基于所述行信息的文本框、至少一个子区域所属文本框以及相应的文本内容,确定所述第二结构化待存储数据。8.一种报告结构化处理的装置,其特征在于,包括:报文处理模块,用于对接收到的待处理报文进行处理,得到目标报告;文本内容确定模块,用于基于图文识别模块对所述目标报告进行文本框和文字识别,确定至少一个文本框和与所述文本框相对应的文本内容;第一结构化待存储数据确定模块,用于基于预设分区键确定与所述文本框相对应的分区结果,以及与所述分区结果相应的文本内容,并将除目标分区结果之外的待存储分区结果和相应的文本内容作为第一结构化待存储数据;灰度图确定模块,用于根据所述目标分区结果所对应的待处理图像,确定与所述待处理图像相对应的灰度图;其中,所述待处理图像中包括与所述目标分区结果相对应的文本内容;第二结构化待存储数据确定模块,用于基于所述灰度图和所述待处理图像,确定第二结构化待存储数据;目标结构化数据确定模块,用于基于所述第一结构化待存储数据和所述第二结构化待存储数据,确定与所述待处理报文相对应的目标结构化数据。9.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的报告结构化处理的方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的报告结构化处理的方法。

技术总结


本发明公开了一种报告结构化处理的方法、装置、设备及存储介质。该方法包括,对待处理报文进行处理,得到目标报告;基于图文识别对目标报告进行识别,确定至少一个文本框和相应的文本内容;基于预设分区键确定与文本框对应的分区结果、与分区结果相应的文本内容,将除目标分区结果外的待存储分区结果和相应文本内容作为第一结构化待存储数据;根据目标分区结果对应的待处理图像,确定与待处理图像对应的灰度图;基于灰度图和待处理图像,确定第二结构化待存储数据;基于第一结构化待存储数据和第二结构化待存储数据,得到目标结构化数据,实现了对各种类型报告结构化存储的效果,提高了对报告处理的兼容性及通用性。了对报告处理的兼容性及通用性。了对报告处理的兼容性及通用性。


技术研发人员:

聂金苗

受保护的技术使用者:

联仁健康医疗大数据科技股份有限公司

技术研发日:

2022.10.25

技术公布日:

2023/1/17


文章投稿或转载声明

本文链接:http://www.wtabcd.cn/zhuanli/patent-1-85007-0.html

来源:专利查询检索下载-实用文体写作网版权所有,转载请保留出处。本站文章发布于 2023-01-28 17:00:05

发表评论

验证码:
用户名: 密码: 匿名发表
评论列表 (有 条评论
2人围观
参与讨论