一种基于LP技术的企业自动打标签模型生成方法、系统、设备以及存储介质与流程

更新时间:2025-02-22 23:56:30 0条评论

默认

一种基于LP技术的企业自动打标签模型生成方法、系统、设备以及存储介质与流程

一种基于nlp技术的企业自动打标签模型生成方法、系统、设备以及存储介质
技术领域
1.本发明涉及人工智能技术领域，具体涉及一种基于nlp技术的企业自动打标签模型生成方法、系统、设备以及存储介质。

背景技术：

2.目前对于企业进行分类、打标签通常都依赖于传统人工选择的方式，利用业务专家的经验进行打标签。存在效率低、人工成本高以及专家主观因素占比过高等缺点。并且随着时代的发展，越来越多的企业会出现多个标签的情况，而人工选择的方式非常容易出现遗漏、误判等情况的出现。而且目前需要打标签的企业数据越来越多，这就对传统的人工打标签方式造成了很大的困难。
3.综上所述，现有打标签方式存在的缺陷为：由于依赖于人工，存在效率低、正确率低、人工成本高以及专家主观因素占比过高。

技术实现要素：

4.本发明解决了现有打标签方式由于依赖于人工，存在效率低、正确率低、人工成本高以及专家主观因素占比过高的问题。
5.本发明所述的一种基于nlp技术的企业自动打标签模型生成方法，包括以下步骤：
6.步骤s1,抓取互联网企业信息，将其形成基础数据源；
7.步骤s2,对基础数据源进行相应处理，利用nlp技术从处理后的基础数据源中提取企业关键信息；
8.步骤s3,结合企业原有的标签数据，将企业关键信息和标签数据进行模型训练；
9.步骤s4,结合模型训练结果，调整模型参数和变更输入数据，对模型进行多次迭代，生成训练模型；
10.步骤s5,结合实际情况进行补充模型规则，生成自动打标签模型。
11.进一步地，在本发明的一个实施例中，所述的步骤s1中，所述的抓取互联网企业信息的方式包括网络爬虫采集和历史企业标签库数据。
12.进一步地，在本发明的一个实施例中，所述的步骤s2中，所述的基础数据源进行相应处理，包括以下步骤：
13.步骤s201，将基础数据源中的数据进行数据清洗，去除数据中的干扰项；
14.步骤s202，将清洗后的基础数据源中的数据进行分词；
15.步骤s203，根据步骤s202分词结果进行专业词汇和停用词汇的管理补充。
16.进一步地，在本发明的一个实施例中，所述的步骤s2中，所述的利用nlp技术从处理后的基础数据源中提取企业关键信息的部分专业词汇进行权重调整。
17.进一步地，在本发明的一个实施例中，所述的步骤s3中，所述的模型训练采用xgboost算法。
18.进一步地，在本发明的一个实施例中，所述的步骤s3中，所述的将企业标签数据进行模型训练，包括以下步骤：
19.步骤s301，将企业标签数据作为结果集，利用nlp技术提取企业标签数据的向量化数据；
20.步骤s302，结合结果集进行训练集、验证集和交叉验证集的切割后，进行模型训练。
21.本发明所述的一种基于nlp技术的企业自动打标签模型生成系统，所述系统包括以下模块：
22.抓取模块,抓取互联网企业信息，将其形成基础数据源；
23.处理模块,对基础数据源进行相应处理，利用nlp技术从处理后的基础数据源中提取企业关键信息；
24.模型模块,结合企业原有的标签数据，将企业关键信息和标签数据进行模型训练；
25.迭代模块,结合模型训练结果，调整模型参数和变更输入数据，对模型进行多次迭代，生成训练模型；
26.生成模块,结合实际情况进行补充模型规则，生成自动打标签模型。
27.本发明所述的一种电子设备，、包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；
28.存储器，用于存放计算机程序；
29.处理器，用于执行存储器上所存放的程序时，实现上述方法中任一所述的方法步骤。
30.本发明所述的一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述方法中任一所述的方法步骤。
31.本发明解决了现有打标签方式由于依赖于人工，存在效率低、正确率低、人工成本高以及专家主观因素占比过高的问题。具体有益效果包括：
32.1、本发明所述的一种基于nlp技术的企业自动打标签模型生成方法，首先通过抓取企业基本信息，形成企业基本信息数据库，通过数据清洗以及迭代的分词方式，使用nlp技术进行关键数据提取，并且在中文文本向量化之前引入和专业词汇加权的方式，使得数据模型计算更为精准。同时采用效果最好的模型计算方法，反复迭代训练数据模型，最后增加业务规则模型，提供更满足业务需求也更加精准的企业自动打标签服务，从而有效的解决了现有打标签方式由于依赖于人工，存在效率低、正确率低、人工成本高以及专家主观因素占比过高的问题。
33.2、本发明所述的一种基于nlp技术的企业自动打标签模型生成方法，企业基本信息数据进行数据清洗，去除数据中的干扰项，删除部分不适合参与模型的数据字段，提高了数据的准确度。
34.3、本发明所述的一种基于nlp技术的企业自动打标签模型生成方法，生成的训练模型结合业务数据以及专家建议，建立规则模型，进行补充训练模型，保证使用模型输出的结果是满足业务相关需要的。
附图说明
35.本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：
36.图1是具体实施方式所述的一种基于nlp技术的企业自动打标签模型生成方法流程图。
37.图2是具体实施方式所述的基础数据模块图。
38.图3是具体实施方式所述的企业基本信息数据处理流程图。
具体实施方式
39.下面结合附图将对本发明的多种实施方式进行清楚、完整地描述。通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。
40.本实施方式所述的一种基于nlp技术的企业自动打标签模型生成方法，包括以下步骤：
41.步骤s1,抓取互联网企业信息，将其形成基础数据源；
42.步骤s2,对基础数据源进行相应处理，利用nlp技术从处理后的基础数据源中提取企业关键信息；
43.步骤s3,结合企业原有的标签数据，将企业关键信息和标签数据进行模型训练；
44.步骤s4,结合模型训练结果，调整模型参数和变更输入数据，对模型进行多次迭代，生成训练模型；
45.步骤s5,结合实际情况进行补充模型规则，生成自动打标签模型。
46.本实施方式中，所述的步骤s1中，所述的抓取互联网企业信息的方式包括网络爬虫采集和历史企业标签库数据。
47.本实施方式中，所述的步骤s2中，所述的基础数据源进行相应处理，包括以下步骤：
48.步骤s201，将基础数据源中的数据进行数据清洗，去除数据中的干扰项；
49.步骤s202，将清洗后的基础数据源中的数据进行分词；
50.步骤s203，根据步骤s202分词结果进行专业词汇和停用词汇的管理补充。
51.本实施方式中，所述的步骤s2中，所述的利用nlp技术从处理后的基础数据源中提取企业关键信息的部分专业词汇进行权重调整。
52.本实施方式中，所述的步骤s3中，所述的模型训练采用xgboost算法。
53.本实施方式中，所述的步骤s3中，所述的将企业标签数据进行模型训练，包括以下步骤：
54.步骤s301，将企业标签数据作为结果集，利用nlp技术提取企业标签数据的向量化数据；
55.步骤s302，结合结果集进行训练集、验证集和交叉验证集的切割后，进行模型训练。
56.本实施方式所述的一种基于nlp技术的企业自动打标签模型生成系统，所述系统包括以下模块：
57.抓取模块,抓取互联网企业信息，将其形成基础数据源；
58.处理模块,对基础数据源进行相应处理，利用nlp技术从处理后的基础数据源中提取企业关键信息；
59.模型模块,结合企业原有的标签数据，将企业关键信息和标签数据进行模型训练；
60.迭代模块,结合模型训练结果，调整模型参数和变更输入数据，对模型进行多次迭代，生成训练模型；
61.生成模块,结合实际情况进行补充模型规则，生成自动打标签模型。
62.本实施方式所述的一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；
63.存储器，用于存放计算机程序；
64.处理器，用于执行存储器上所存放的程序时，实现上述实施方式中任一所述的方法步骤。
65.本实施方式所述的一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施方式中任一所述的方法步骤。
66.本实施方式基于本发明所述的一种基于nlp技术的企业自动打标签模型生成方法，结合图1能更好的理解本实施方式，提供一种实际的实施方式：
67.步骤s1：建立基础数据源：抓取互联网企业信息，形成基础数据源；
68.步骤s2：提取关键信息：利用nlp技术进行企业关键信息提取；
69.步骤s3：初级模型训练：结合标签数据，进行模型训练；
70.步骤s4：迭代模型：结合模型参数以及数据情况，对模型进行迭代；
71.步骤s5：补充模型规则：结合业务专家建议，补充模型规则；
72.步骤s6：生成最终自动打标签模型。
73.基础数据主要分为两部分，第一是通过网络爬虫采集的企业基本信息数据，第二是历史企业标签库数据。如图2所示，然后通过nlp技术对相关企业基本信息进行分词、关键信息提取以及向量化；结合公司原有的相关企业标签数据，将相关关键信息和标签数据训练成模型；
74.企业基本信息数据是不能直接输入到模型训练的，如图3所示，首先需要进行数据清洗，去除数据中的干扰项，删除部分不适合参与模型的数据字段，提高数据的准确度；然后进行分词，该部分是一个迭代的过程，需要根据分词结果进行专业词汇以及停用词汇的管理补充；然后通过nlp技术提取各个行业的关键信息；然后适当调节部分专业词汇的权重，使得数据更适用于模型计算，然后通过相关算法进行中文文本向量化。
75.企业信息打标签本质上是一个多分类任务，所以这里采用xgboost算法进行模型训练。将企业标签数据作为结果集，利用nlp模块提取的向量化数据，结合结果集进行训练集、验证集、交叉验证集的切割，然后进行模型训练；通过模型训练结果，适当调参以及变更输入数据，进行模型迭代，生成训练模型。
76.结合业务数据以及专家建议，建立规则模型，进行补充训练模型，保证使用模型输出的结果是满足业务相关需要的。最后提供模型服务，输入是企业基本信息，输出是企业标签，完成企业自动化打标签。
77.综上，本发明首先是抓取企业基本信息，形成企业基本信息数据库；通过数据清洗以及迭代的分词方式，使用nlp技术进行关键数据提取，并且在中文文本向量化之前引入和
专业词汇加权的方式，使得数据模型计算更为精准。同时采用效果最好的模型计算方法，反复迭代训练数据模型；最后增加业务规则模型，提供更满足业务需求也更加精准的企业自动打标签服务。
78.以上对本发明所提出的一种基于nlp技术的企业自动打标签模型生成方法、系统、设备以及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。