大批量多格式文件信息提取方法、存储介质与流程

更新时间:2025-03-26 15:00:43 0条评论

默认

大批量多格式文件信息提取方法、存储介质与流程

1.本技术涉及文件信息处理领域，具体涉及一种大批量多格式文件信息提取方法、存储介质。

背景技术：

2.如今是数据洪流的时代，企事业单位，特别是一些具有信息安全性要求的企事业单位，都具有大批量多格式文件信息处理和结构化统一存储的需求。然而，现有技术中针对大批量多格式文件信息的统一处理和存储技术尚不成熟，大批量不同数据结构和不同数据格式的文件信息给上述企业事业的信息管理带来了阻碍，进而导致了数据无法实现快速、高效应用，数据应用价值低，阻碍了数据的有效利用。

技术实现要素：

3.鉴于上述问题，本技术提供了一种大批量多格式文件信息提取方法、存储介质，能够高效而准确地将非结构化的数据文件转化为结构化数据。
4.为实现上述目的，发明人提供了一种大批量多格式文件信息提取方法，包括：
5.逐一获取大批量多格式文件集中的文件；
6.若所获取的文件为pdf文件或ppt文件，则判断其形式内容；
7.若所述pdf文件或ppt文件为纯文本信息，则提取其中的文本信息；
8.若所述pdf文件或ppt文件为扫描件或图片，则先经过图片处理和图片识别，再经过ocr识别提取其中的信息。
9.区别于现有技术，上述技术方案能够针对目前存在较高信息提取难度的pdf文件和ppt文件，根据其形式内容自动切换不同的识别路径采用相适宜的信息提取方式进行信息识别和提取，将其转换为结构化信息进行存储，大大提高信息提取的准确性和识别效率。
10.在一些实施例中，优选地，所述逐一获取大批量多格式文件集中的文件，之后，还包括：
11.若所获取的文件为纯文本文件，则提取其中的文本信息；
12.若所获取的文件为ofd文件，则将所述ofd文件解析为xml文件，提取所述xml文件中的文本信息。
13.优选地，所述图片处理包括：模糊图片清晰化处理、图片中扭曲文字纠正处理、图片盖章水印处理、压缩处理和多图片拼接处理中的一种或多种；
14.所述图片识别包括：表格识别、盖章识别、无效信息识别和模糊图片识别中的一种或多种。
15.优选地，所述盖章识别包括：
16.逐页识别所述pdf文件或ppt文件是否包含盖章；
17.若当前页识别到盖章，则停止对下一页进行盖章识别。
18.优选地，所述方法还包括：
19.预设矫正库，所述矫正库包括错误词语与正确词语的对应关系；
20.依据矫正库对所提取的文字信息进行矫正。
21.优选地，所述方法还包括：
22.对提取的文字信息和/或信息进行风险评估，得出评估结果。
23.优选地，所述评估结果包括是否存在盖章及盖章所在位置、是否存在敏感文字及敏感文字所在位置、是否存在重要信息及重要信息所在位置。
24.优选地，所述经过ocr识别提取其中的信息，包括：
25.若所获取的pdf文件为印刷体文件或企业章程文件，则使用paddleocr模型识别提取其中的信息；
26.若所获取的pdf文件为合同文件，则使用trocr模型识别提取其中的信息；
27.若系统为arm架构的cpu处理器，则使用pytesseract模型识别提取其中的信息。
28.优选地，若所述pdf文件或ppt文件为纯文本信息，则使用pdf2txt函数或ppt2txt函数转换得到文字信息；
29.若所获取的文件为纯文本结构文件，则使用word2txt函数转换得到文字信息。
30.上述这些实施例不仅能够针对不同文件格式自动切换不同识别路径进行信息结构化提取和保存，实现高效精确地识别和提取信息；而且针对pdf文件和ppt文件的形式内容包含图片或扫描件的情况，将先经过图片质量优化后再使用ocr识别，以此进一步提高信息识别和提取的准确性；再有，在使用ocr识别时，还支持针对不同业务场景灵活切换所使用的ocr模型，以实现更具针对性、更高效、更精准地识别特定文件内容；进一步地，还能批量识别文件中的多种风险，以便更好地用于国资监管中对各类风险文件的识别。
31.发明人还提供一种计算机可读存储介质，其上存储有计算机程序，所述程序在被处理器执行时，能够实现如上述大批量多格式文件信息提取方法所包含的步骤。
32.上述发明内容相关记载仅是本技术技术方案的概述，为了让本领域普通技术人员能够更清楚地了解本技术的技术方案，进而可以依据说明书的文字及附图记载的内容予以实施，并且为了让本技术的上述目的及其它目的、特征和优点能够更易于理解，以下结合本技术的具体实施方式及附图进行说明。
附图说明
33.附图仅用于示出本技术具体实施方式以及其他相关内容的原理、实现方式、应用、特点以及效果等，并不能认为是对本技术的限制。
34.在说明书附图中：
35.图1为一实施例所述一种大批量多格式文件信息提取方法的流程示意图；
36.图2为一具体实施方式所述一种大批量多格式文件信息提取方法的流程示意图；
37.图3为一具体实施方式所述多格式文件分类处理流程示意图；
38.图4为一具体实施方式所述针对pdf文件的形式内容为图片或扫描件时的信息提取流程示意图。
具体实施方式
39.为详细说明本技术可能的应用场景，技术原理，可实施的具体方案，能实现目的与
效果等，以下结合所列举的具体实施例并配合附图详予说明。本文所记载的实施例仅用于更加清楚地说明本技术的技术方案，因此只作为示例，而不能以此来限制本技术的保护范围。
40.在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中各个位置出现的“实施例”一词并不一定指代相同的实施例，亦不特别限定其与其它实施例之间的独立性或关联性。原则上，在本技术中，只要不存在技术矛盾或冲突，各实施例中所提到的各项技术特征均可以以任意方式进行组合，以形成相应的可实施的技术方案。
41.除非另有定义，本文所使用的技术术语的含义与本技术所属技术领域的技术人员通常理解的含义相同；本文中对相关术语的使用只是为了描述具体的实施例，而不是旨在限制本技术。
42.在本技术的描述中，用语“和/或”是一种用于描述对象之间逻辑关系的表述，表示可以存在三种关系，例如a和/或b，表示：存在a，存在b，以及同时存在a和b这三种情况。另外，本文中字符“/”一般表示前后关联对象是一种“或”的逻辑关系。
43.在本技术中，诸如“第一”和“第二”之类的用语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何实际的数量、主次或顺序等关系。
44.在没有更多限制的情况下，在本技术中，语句中所使用的“包括”、“包含”、“具有”或者其他类似的表述，意在涵盖非排他性的包含，这些表述并不排除在包括所述要素的过程、方法或者产品中还可以存在另外的要素，从而使得包括一系列要素的过程、方法或者产品中不仅可以包括那些限定的要素，而且还可以包括没有明确列出的其他要素，或者还包括为这种过程、方法或者产品所固有的要素。
45.与《审查指南》中的理解相同，在本技术中，“大于”、“小于”、“超过”等表述理解为不包括本数；“以上”、“以下”、“以内”等表述理解为包括本数。此外，在本技术实施例的描述中“多个”的含义是两个以上(包括两个)，与之类似的与“多”相关的表述亦做此类理解，例如“多组”、“多次”等，除非另有明确具体的限定。
46.在本技术实施例的描述中，所使用的与空间相关的表述，诸如“中心”“纵向”“横向”“长度”“宽度”“厚度”“上”“下”“前”“后”“左”“右”“竖直”“水平”“垂直”“顶”“底”“内”“外”“顺时针”“逆时针”“轴向”“径向”“周向”等，所指示的方位或位置关系是基于具体实施例或附图所示的方位或位置关系，仅是为了便于描述本技术的具体实施例或便于读者理解，而不是指示或暗示所指的装置或部件必须具有特定的位置、特定的方位、或以特定的方位构造或操作，因此不能理解为对本技术实施例的限制。
47.除非另有明确的规定或限定，在本技术实施例的描述中，所使用的“安装”“相连”“连接”“固定”“设置”等用语应做广义理解。例如，所述“连接”可以是固定连接，也可以是可拆卸连接，或成一体设置；其可以是机械连接，也可以是电连接，也可以是通信连接；其可以是直接相连，也可以通过中间媒介间接相连；其可以是两个元件内部的连通或两个元件的相互作用关系。对于本技术所属技术领域的技术人员而言，可以根据具体情况理解上述用语在本技术实施例中的具体含义。
48.本技术的最关键技术构思在于，能根据不同文件格式切换不同识别路径处理多格
式文件，特别是pdf文件和ppt文件，还能进一步依据其形式内容切换不同识别路径进行处理，从而转换为结构化信息进行保存。
49.请参阅图1至图3，本技术的实施例一提供一种大批量多格式文件信息提取方法，如图2所示，可以包括以下步骤：
50.s1：批量文件输入系统；
51.大批量多格式文件输入至系统，文件格式包括：pdf、word、txt、ofd、ppt等。
52.s2：依据文件格式分类处理；
53.作为一具体实施方式，该步骤具体可以包括：
54.s201：逐一获取大批量多格式文件集中的各个文件，然后判断其文件格式；
55.可参阅图3，分类处理流程如下：
56.s202：若所获取的文件为纯文本文件，如word、txt格式，则直接进行文件转文字处理，提取其中的文本信息；可选的，若为word文件，可以使用word2txt函数进行处理。
57.s203：若所述获取的文件为ofd文件，则将所述ofd文件解析为xml文件，再提取所述xml文件中的文本信息，即根据xml结构与规则提取相关信息。
58.可参阅图1和图4，针对pdf文件或ppt文件的处理流程如下：
59.s204：若所获取的文件为pdf文件或ppt文件，则判断其形式内容；其中，所述形式内容包括纯文本信息、扫描件、图片等；作为一具体实施方式，可以通过文本形式内容判断函数判断文件的形式内容。
60.s205：若所述pdf文件或ppt文件的形式内容为纯文本信息，则提取其中的文本信息；具体通过文件转文字处理，如通过pdf2txt函数或ppt2txt函数转换得到文字信息；
61.s206：若所述pdf文件或ppt文件的形式内容为扫描件或图片，则文件将先经过图片处理和图片识别，再经过ocr识别提取其中的信息，然后执行s3；
62.在一些具体实施方式中，所述图片处理包括：模糊图片清晰化处理、图片中扭曲文字纠正处理、图片盖章水印处理、压缩处理和多图片拼接处理中的一种或多种；所述图片识别包括：表格识别、盖章识别、无效信息识别和模糊图片识别中的一种或多种。
63.通过图片处理(特指进行模糊图片清晰化处理、图片中扭曲文字纠正处理、图片盖章水印处理)能够优化图片质量，提高信息识别的准确度；通过图片处理(特指进行压缩处理和多图片拼接处理)，还能够提高图片识别的效率。其中，所述多图片拼接处理即将一份文件中的所有图片拼接起来再进行ocr识别，可以避免逐页识别的低效率；所述压缩处理即将文件的图片进行压缩处理后再输入系统中进行ocr识别。上述两种图片处理方式均能一定程度上提高识别运算的效率。
64.通过图片识别，能够具有针对性的对特定信息进行精准识别，做到准确、全面且高效地识别文件信息。
65.特别地，所述盖章识别包括：逐页识别所述pdf文件或ppt文件是否包含盖章；若当前页识别到盖章，则停止对下一页进行盖章识别。即言，在识别到盖章页后，将立即停止盖章识别流程，因为一般是在文末盖章且盖章页只有一页，如此，便可以避免无效识别，节省资源；同时，盖章识别也是批量识别，即批量图片以张量的形式输入至盖章识别模型中进行识别。
66.由上述可知，通过图片处理和图片识别，能够显著提高识别运算效率和识别准确
性。
67.在另外一些具体实施方式中，如图3所示，在执行所述经过ocr识别提取其中的信息步骤时，还将根据业务需求的不同，即文件业务类型的不同切换不同的ocr识别模型进行更高效且准确地识别。
68.具体而言，可以预先设定不同文件业务类型与ocr识别模型的对应关系，包括：印刷体文件或企业章程文件对应paddleocr模型；合同文件对应trocr模型。则在进行ocr识别提取信息时，便可以依据当前所获取的pdf文件的业务类型，使用更具针对性的ocr模型进行更精准的识别。
69.具体的ocr识别过程可以包括：
70.若所获取的pdf文件为印刷体文件或企业章程文件，则根据所述对应关系，使用paddleocr模型识别提取其中的信息；
71.若所获取的pdf文件为合同文件，则根据所述对应关系，使用trocr模型识别提取其中的信息。
72.特别地，针对系统为arm架构的cpu处理器，则可以使用与系统更加匹配的pytesseract模型进行ocr识别，以获取更稳定和更高效的ocr识别效果。
73.在一些具体实施方式中，如图3所示，本实施例的方法在将多格式文件的信息提取出来以后，还将对所提取的文字信息进行矫正，以进一步提高识别的准确率。
74.具体而言，首先将预设矫正库，所述矫正库包括错误词语与正确词语的对应关系。作为一具体示例，所述错误词语可以是在识别过程中收集到的容易识别错误的词语，即历史识别错误词语；当然，也可以是依据经验自定义设置的容易识别错误的词语。然后，在提取出不同格式文件的文本信息之后，还包括：
75.s3：依据矫正库对所提取的文字信息进行矫正。
76.通过预先将所述对应关系入库管理，而在提取多格式文件的文本信息后，能够与所述对应关系逐一进行对比，判断所提取的文本信息中是否存在对应关系中的错误词语，如果是则将错误词语替换成矫正库中与其对应的正确词语以实现文本信息纠错。
77.当然，也可以直接利用bilstm-crf模型进行文本信息纠错。
78.作为本实施例的一些具体实施方式中，所述方法还将对所提取的文本信息在结构上做优化处理，更方便管理和运用。
79.s4：文本信息处理。
80.文本信息处理过程将采用文本分段技术，识别换行空格等特征，进行标记，通过识别段落标记进行分段。不同页面的信息处理采用语句断句拼接技术，可以通过多页逐一识别，进行文本集中拼接，再采用文本分段技术进行分段处理。
81.在本实施例的另外一些实施方式中，所述方法还包括：
82.s5：风险识别输出结果。
83.即对从多格式文件中提取的文字信息和/或信息(若包括上一步骤的文本信息处理，则未经过文本信息处理后的信息)进行风险评估，得出评估结果。
84.所述评估结果包括是否存在盖章及盖章所在位置、是否存在敏感文字及敏感文字所在位置、是否存在重要信息及重要信息所在位置等其他风险累类型。
85.作为上述实施方式的一些具体示例，针对不同风险类型，系统将通过相似度匹配
算法处理后返回给用户需要的结果，例如返回相应的文字段落详情，这段文字所属的章节、文件是否存在盖章、文件ocr识别结果、文件是否存在重要信息不存在的风险等。
86.本实施例通过支持对批量多格式文件的识别结果进行风险评估，从而扩展了信息安全性检测功能，可以更好地用于具有安全性要求的文件数据管理，特别是可以更好地用于国资监管中对文件各类风险的识别。
87.作为本实施例的优选实施方式，将在效率方面采用深度学习mkldnn底层库来提升神经网络在intel cpu以及gpu下的推理速度。
88.具体而言，在使用mkldnn进行训练或者推理时，可以使用jit(just in time)代码生成技术，根据神经网络op的参数以及后端硬件支持的指令集，生成优化后的代码，来提高神经网络在硬件上的执行速度。而目前paddleocr里面已经集成了mkldnn加速技术功能，因此只需在编译时加入编译选项，便能使用该库对深度神经网络的训练以及推理进行加速。
89.作为本技术的另外一个实施例，其提供一种计算机可读存储介质，其上存储有计算机程序，所述程序在被处理器执行时，能够实现如上述实施例任一具体实施方式所述一种大批量多格式文件信息提取方法所包含的步骤。具体的步骤内容在此不进行复述，详细请参阅上述实施例的记载。
90.本技术提供一种大批量多格式文件信息提取方法，可根据不同文件格式切换不同的识别路径处理多格式文件，并能够针对不同业务场景实现ocr模型的切换，以此实现高效且准确地处理不同格式的文件信息。进一步地，本技术将先经过图片处理和图片识别之后再进行ocr识别，通过优化图片质量，提高ocr识别的准确率和运算效率；更进一步地，本技术还将通过文本处理技术进行信息结构化提取与保存，以优化管理和便于运用；同时，在文件风险识别效率方面将采用深度学习mkldnn底层库来提升神经网络在intel cpu以及gpu下的推理速度。由此可见，本技术能够极好地用于国资监管中批量处理多种格式文件，批量识别文件中的多种风险，并提高识别效率。
91.最后需要说明的是，尽管在本技术的说明书文字及附图中已经对上述各实施例进行了描述，但并不能因此限制本技术的专利保护范围。凡是基于本技术的实质理念，利用本技术说明书文字及附图记载的内容所作的等效结构或等效流程替换或修改产生的技术方案，以及直接或间接地将以上实施例的技术方案实施于其他相关的技术领域等，均包括在本技术的专利保护范围之内。

技术特征：

1.一种大批量多格式文件信息提取方法，其特征在于，包括：逐一获取大批量多格式文件集中的文件；若所获取的文件为pdf文件或ppt文件，则判断其形式内容；若所述pdf文件或ppt文件为纯文本信息，则提取其中的文本信息；若所述pdf文件或ppt文件为扫描件或图片，则先经过图片处理和图片识别，再经过ocr识别提取其中的信息。2.如权利要求1所述的一种大批量多格式文件信息提取方法，其特征在于，所述逐一获取大批量多格式文件集中的文件，之后，还包括：若所获取的文件为纯文本文件，则提取其中的文本信息；若所获取的文件为ofd文件，则将所述ofd文件解析为xml文件，提取所述xml文件中的文本信息。3.如权利要求1所述的一种大批量多格式文件信息提取方法，其特征在于，所述图片处理包括：模糊图片清晰化处理、图片中扭曲文字纠正处理、图片盖章水印处理、压缩处理和多图片拼接处理中的一种或多种；所述图片识别包括：表格识别、盖章识别、无效信息识别和模糊图片识别中的一种或多种。4.如权利要求3所述的一种大批量多格式文件信息提取方法，其特征在于，所述盖章识别包括：逐页识别所述pdf文件或ppt文件是否包含盖章；若当前页识别到盖章，则停止对下一页进行盖章识别。5.如权利要求1所述的一种大批量多格式文件信息提取方法，其特征在于，所述方法还包括：预设矫正库，所述矫正库包括错误词语与正确词语的对应关系；依据矫正库对所提取的文字信息进行矫正。6.如权利要求1所述的一种大批量多格式文件信息提取方法，其特征在于，所述方法还包括：对提取的文字信息和/或信息进行风险评估，得出评估结果。7.如权利要求6所述的一种大批量多格式文件信息提取方法，其特征在于，所述评估结果包括是否存在盖章及盖章所在位置、是否存在敏感文字及敏感文字所在位置、是否存在重要信息及重要信息所在位置。8.如权利要求1所述的一种大批量多格式文件信息提取方法，其特征在于，所述经过ocr识别提取其中的信息，包括：若所获取的pdf文件为印刷体文件或企业章程文件，则使用paddleocr模型识别提取其中的信息；若所获取的pdf文件为合同文件，则使用trocr模型识别提取其中的信息；若系统为arm架构的cpu处理器，则使用pytesseract模型识别提取其中的信息。9.如权利要求1所述的一种大批量多格式文件信息提取方法，其特征在于，若所述pdf文件或ppt文件为纯文本信息，则使用pdf2txt函数或ppt2txt函数转换得到文字信息；若所获取的文件为纯文本结构文件，则使用word2txt函数转换得到文字信息。
10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述程序在被处理器执行时，能够实现如上述权利要求1至9任意一项所述一种大批量多格式文件信息提取方法所包含的步骤。

技术总结

本申请提供大批量多格式文件信息提取方法、存储介质，方法包括：逐一获取大批量多格式文件集中的文件；若所获取的文件为pdf文件或ppt文件，则判断其形式内容；若所述pdf文件或ppt文件为纯文本信息，则提取其中的文本信息；若所述pdf文件或ppt文件为扫描件或图片，则先经过图片处理和图片识别，再经过OCR识别提取其中的信息。本申请能够高效而准确地将非结构化的数据文件转化为结构化数据，大大提高信息提取的准确性和识别效率。提取的准确性和识别效率。提取的准确性和识别效率。