基于文本结构的数据自动提取处理方法、装置及系统
1.本发明属于电数字数据处理技术领域,具体涉及一种基于文本结构的数据自动提取处理方法、装置及系统。
背景技术:
2.web of science是独立于出版商的全球著名引文数据库,索引和存档记录可以追溯至1900年,收录了21100多种经过同行评审的高质量期刊,内容涵盖250多个自然科学、技术、社会科学、生物医学、化学、人文艺术等领域。其sci-e数据库被国内很多学校、医院等单位作为个人或机构科研评价的重要参考数据来源,通过sci-e数据库统计并分析论文发表情况是图情人员或科研管理工作者的重要工作内容。单位人才聘用、科研考核及奖励,同时精准定位重点学科/优势学科,发展潜力学科,挖掘高影响力、高潜力研究人员等,均需要以第一作者或通讯作者为论文为分析基础,但是web of science数据库检索后无法直接进行筛选,需要人工对检索结果进行筛选后统计,费时费力且不准确。
3.因此,现阶段需设计一种基于文本结构的数据自动提取处理方法、装置及系统,来解决以上问题。
技术实现要素:
4.本发明目的在于提供一种基于文本结构的数据自动提取处理方法、装置及系统,用于解决上述现有技术中存在的技术问题,web of science数据库检索后无法直接进行筛选,需要人工对检索结果进行筛选后统计,费时费力且不准确。本发明在web of science检索得到的文本数据基础上实现文本数据读取、自动提取、统一存储与展示,精准呈现发表的论文情况,形成结构化数据库。
5.为实现上述目的,本发明的技术方案是:基于文本结构的数据自动提取处理方法,包括以下步骤:s1、文本数据读取:根据检索目的设定检索策略后对数据库进行检索,将检索到的文献信息导出,形成纯文本文件,并以行方式读取数据,将行原文存储至临时空间;s2、文本数据自动提取:使用关键字识别对存储至临时空间的文本内容进行处理;根据数据结构的定义自动提取数据字段值,将自动提取的数据字段值加入预设结构的识别字符后重新组合,形成带有结构化标识的数据集合;s3、统一存储与展示:最后将自动提取的关键数据、数据集合集中存储,形成sci论文结构化数据库,实现对第一作者或通讯作者为论文精准统计及分析管理。
6.进一步的,步骤s1中文献信息导出项包括但不限于:作者、标题、来源出版物、地址、文献类型、所属机构、wos类别。
7.进一步的,步骤s1中具体如下:按照检索目的生成纯文本文件,纯文本文件内容包括“标题、作者、来源出版物、地址、通讯作者地址、文献类型、入藏号、wos类别”,确定一篇完整文章的最后一行为“wos类别”;定义自动提取的结果数据结构,论文数据集合为:、论文作者集合为:、作者地址集合为:、上述三者关系为:;并按文本文件的行方式读取数据,将行原文存储至临时空间等待数据分析处理。
8.进一步的,步骤s2中的使用关键字识别对存储至临时空间的文本内容进行处理包括但不限于:定义关键字符、分析内容数据、识别文本数据特征、分类处理文本数据。
9.进一步的,步骤s2中带有结构化标识的数据集合包括但不限于:文章作者集、作者地址集、通讯作者集合、通讯作者地址。
10.进一步的,步骤s2具体如下:根据自动提取数据结构的值定义文本处理识别字符集为,定义文本内容识别字符集为,定义文本内容类别识别字符集为分别用来识别多行作者地址与多行通讯作者地址;读取的文本行按定义的文本内容类别为以下四种方式识别处理,并统一至数据集合按时间存储;(1)文本行中包含标题、来源出版物、文献类型、入藏号、wos类别的内容,使用识别后,存储至对应的字段;(2)文本行中包含“作者”的内容,使用识别处理后的内容再使用识别得到带用的临时作者集合,集合中第一个为第一作者,存储至对应的第一作者字段,然后遍历临时作者集合过程中使用识别符格式化作者名称,将作者结果集合存储至作者集合中;(3)文本行中首个包含“地址”的内容,使用识别处理后增加识别字符用于对“地址”内容后的多行含有作者地址内容识别处理,再使用识别得到作者地址,存储至对应的第一作者地址字段中,同时存储至作者地址集合中,并使用集合值与作者地址内容比较,若包含则将对应的字段值置为true,否则为false;若文本行中不包含集合中的值则使用集合的值来识别,包含集合值则说明该行是作者地址内容,并按前面的步骤处理;从中获取第一作者,再使用集合识别判断是否为第一作者地址并处理;
(4)文本行中包含“通讯作者地址”的内容,使用识别处理后的内容存储至对应的字段的值,再使用集合值与作者地址内容比较若包含则将对应的字段值置为true,否则为false;并存储至对应的字段中。
11.进一步的,步骤s3具体如下:完成文本文件的读取与处理后将存储在、、三个结构化存储集合中的数据统一存储至数据库中,并将数据集中每个字段的含义结构化输出,展示自动提取与统计后的结果内容。
12.基于文本结构的数据自动提取处理装置,用于采用如上述的基于文本结构的数据自动提取处理方法进行数据自动提取处理。
13.基于图像识别的食品包装实时检测系统,包括如上述的基于文本结构的数据自动提取处理装置,还包括云计算服务器,所述数据自动提取处理装置与所述云计算服务器之间进行数据交互。
14.与现有技术相比,本发明所具有的有益效果为:本方案其中一个有益效果在于,本发明开发了一种基于web of science文献信息文本结构的数据自动提取和处理方法,首先按行处理模式读取数据,在定义文本内容识别字符集、文本内容类别识别字符集及识别字符集基础上自动提取数据字段值,加入了预设结构的识别字符识别多行作者地址用以确定第一作者的所有地址,对自动提取的数据字段值重新组合以形成结构化的数据集合并统一存储展示。本发明突破了web of science平台无法筛选所属机构第一作者或通讯作者的限制,通过开发一种数据自动提取和处理方法,有效解决了人工处理费时费力且不准确的问题,同时构建了所属单位精准的论文数据库以便后续分析与管理。
附图说明
15.图1为本技术实施例的步骤流程示意图。
具体实施方式
16.为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
17.因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
18.而且,术语“包括”,“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程,方法,物品或者设备不仅包括那些要素,而且还包括没有明确列
出的其他要素,或者是还包括为这种过程,方法,物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程,方法,物品或者设备中还存在另外的相同要素。
19.以下结合实施例对本发明的特征和性能作进一步的详细描述。
20.web of science数据库检索后无法直接进行筛选,需要人工对检索结果进行筛选后统计,费时费力且不准确。本发明在web of science检索得到的文本数据基础上实现文本数据读取、自动提取、统一存储与展示,精准呈现发表的论文情况,形成结构化数据库。
21.如图1所示,提出一种基于web of science文本结构的数据自动提取处理方法,包括文本数据读取、文本数据处理自动提取关键数据、统一存储与展示。
22.文本数据读取是根据检索目的设定检索策略后对数据库进行检索,将检索到的文献信息导出,文献信息导出项主要包括“作者、标题、来源出版物、地址、文献类型、所属机构、wos类别”等,形成纯文本文件,并以行方式读取数据,将行原文存储至临时空间。
23.文本数据处理是使用关键字识别对存储至临时空间的文本内容进行处理,主要包括定义关键字符、分析内容数据、识别文本数据特征、分类处理文本数据。
24.根据数据结构的定义自动提取数据字段值,将自动提取的数据字段值加入预设结构的识别字符后重新组合,形成文章作者集、作者地址集、通讯作者集合、通讯作者地址等带有结构化标识的数据集合。最后将自动提取的关键数据、数据集合集中存储,形成sci论文结构化数据库,实现对第一作者或通讯作者为论文精准统计及分析管理。
25.第一步:文本数据读取按照检索目的生成纯文本文件,纯文本文件内容包括“标题、作者、来源出版物、地址、通讯作者地址、文献类型、入藏号、wos类别”,确定一篇完整文章的最后一行为“wos类别”;定义自动提取的结果数据结构,论文数据集合为:、论文作者集合为:、作者地址集合为:、上述三者关系为:;并按文本文件的行方式读取数据,将行原文存储至临时空间等待数据分析处理。
26.第二步:文本数据自动提取根据自动提取数据结构的值定义文本处理识别字符集为,定义文本内容识别字符集为,定义文本内容类别识别字符集为分别用来识别多行作者地址与多行通讯作者地址;读取的文本行按定义的文本内容类别为以下四种方式识别处理,并统一至数据集合按时间存储;(1)文本行中包含标题、来源出版物、文献类型、入藏号、wos类别的内容,使用识别后,存储至对应的字段;
(2)文本行中包含“作者”的内容,使用识别处理后的内容再使用识别得到带用的临时作者集合,集合中第一个为第一作者,存储至对应的第一作者字段,然后遍历临时作者集合过程中使用识别符格式化作者名称,将作者结果集合存储至作者集合中;(3)文本行中首个包含“地址”的内容,使用识别处理后增加识别字符用于对“地址”内容后的多行含有作者地址内容识别处理,再使用识别得到作者地址,存储至对应的第一作者地址字段中,同时存储至作者地址集合中,并使用集合值与作者地址内容比较,若包含则将对应的字段值置为true,否则为false;若文本行中不包含集合中的值则使用集合的值来识别,包含集合值则说明该行是作者地址内容,并按前面的步骤处理;从中获取第一作者,再使用集合识别判断是否为第一作者地址并处理;(4)文本行中包含“通讯作者地址”的内容,使用识别处理后的内容存储至对应的字段的值,再使用集合值与作者地址内容比较若包含则将对应的字段值置为true,否则为false;并存储至对应的字段中。
27.第三步:统一存储与展示完成文本文件的读取与处理后将存储在、、三个结构化存储集合中的数据统一存储至数据库中,并将数据集中每个字段的含义结构化输出,展示自动提取与统计后的结果内容。
28.综上所述,本发明开发了一种基于web of science文献信息文本结构的数据自动提取和处理方法,首先按行处理模式读取数据,在定义文本内容识别字符集、文本内容类别识别字符集及识别字符集基础上自动提取数据字段值,加入了预设结构的识别字符识别多行作者地址用以确定第一作者的所有地址,对自动提取的数据字段值重新组合以形成结构化的数据集合并统一存储展示。本发明突破了web of science平台无法筛选所属机构第一作者或通讯作者的限制,通过开发一种数据自动提取和处理方法,有效解决了人工处理费时费力且不准确的问题,同时构建了精准的论文数据库以便后续分析与管理。
29.以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。