本文作者:kaifamei

用于生成规则集的方法及装置与流程

更新时间:2025-03-26 18:04:26 0条评论

用于生成规则集的方法及装置与流程



1.本说明书实施例涉及人工智能的技术领域,具体地,涉及用于生成规则集的方法及装置。


背景技术:



2.在人工智能领域中,用于决策的规则因为其具有可解释性以及有效性的特点,被广泛应用于分类场景中,尤其是在金融领域中的风险控制。对于所应用的规则来说,需要挖掘出若干个规则组成规则集,规则集作为一个模型被应用在场景中。一般来说,对于规则集模型的优劣判断标准是分类准确率,当分类准确率高时,则认为该规则集模型好。


技术实现要素:



3.鉴于上述,本说明书实施例提供了用于生成规则集的方法及装置。通过本说明书实施例的技术方案,基于约束指标类型的约束条件生成规则集,使得所生成的规则集满足约束指标类型的约束条件。
4.根据本说明书实施例的一个方面,提供了一种用于生成规则集的方法,包括:根据约束指标类型的第一约束条件构建适应所述第一约束条件的决策树;基于所述决策树确定包括多个规则的待选规则集;按照以下方式针对所得到的待选规则集中的各个规则子集计算对应的后验概率:针对所述各个规则子集,确定该规则子集对应的先验概率,其中,每个规则子集包括所得到的待选规则集中的部分规则;基于所述约束指标类型的第二约束条件确定该规则子集对应的似然概率;根据所述先验概率和所述似然概率计算该规则子集对应的后验概率;以及根据所述各个规则子集对应的后验概率得到作为模型的规则集。
5.根据本说明书实施例的另一方面,还提供一种用于生成规则集的装置,包括:决策树构建单元,根据约束指标类型的第一约束条件构建适应所述第一约束条件的决策树;待选规则集确定单元,基于所述决策树确定包括多个规则的待选规则集;先验概率确定单元,针对所述各个规则子集,确定该规则子集对应的先验概率,其中,每个规则子集包括所得到的待选规则集中的部分规则;似然概率确定单元,基于所述约束指标类型的第二约束条件确定该规则子集对应的似然概率;后验概率确定单元,根据所述先验概率和所述似然概率计算该规则子集对应的后验概率;以及规则集得到单元,根据所述各个规则子集对应的后验概率得到作为模型的规则集。
6.根据本说明书实施例的另一方面,还提供一种用于生成规则集的装置,包括:决策树构建单元,根据约束指标类型的第一约束条件构建适应所述第一约束条件的决策树;待选规则集确定单元,基于所述决策树确定包括多个规则的待选规则集;目标规则子集选取单元,从所得到的待选规则集中选取规则作为目标规则子集;操作方式确定单元,确定针对所述目标规则子集的操作方式,所述操作方式包括增加、删除和替换中的一种;新规则子集生成单元,根据所确定的操作方式对所述目标规则子集进行操作以得到操作后的另一个规则子集,所述另一个规则子集不同于已生成过的规则子集;后验概率计算单元,针对所述目
标规则子集和所述另一个规则子集计算对应的后验概率;规则子集比较单元,根据所计算的后验概率对所述目标规则子集和所述另一个规则子集进行评价,以确定出评价高的规则子集;目标规则子集确定单元,在循环未结束时,将所述评价高的规则子集确定为下一循环中的目标规则子集,并触发所述操作方式确定单元;以及规则集确定单元,在循环结束时,将所确定出的评价高的规则子集确定为作为模型的规则集。
7.根据本说明书实施例的另一方面,还提供一种电子设备,包括:至少一个处理器,与所述至少一个处理器耦合的存储器,以及存储在所述存储器上的计算机程序,所述至少一个处理器执行所述计算机程序来实现如上述任一所述的用于生成规则集的方法。
8.根据本说明书实施例的另一方面,还提供一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的用于生成规则集的方法。
9.根据本说明书实施例的另一方面,还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上任一所述的用于生成规则集的方法。
附图说明
10.通过参照下面的附图,可以实现对于本说明书实施例内容的本质和优点的进一步理解。在附图中,类似组件或特征可以具有相同的附图标记。
11.图1示出了根据本说明书实施例的用于生成规则集的方法的一个示例的流程图。
12.图2示出了根据本说明书实施例的构建决策树的一个示例的流程图。
13.图3示出了根据本说明书实施例的用于计算后验概率的一个示例的流程图。
14.图4示出了根据本说明书实施例的用于生成规则集的方法的另一个示例的流程图。
15.图5示出了根据本说明书实施例的规则集生成装置的一个示例的方框图。
16.图6示出了根据本说明书实施例的规则集生成装置的另一个示例的方框图。
17.图7示出了根据本说明书实施例的决策树构建单元的一个示例的方框图。
18.图8示出了根据本说明书实施例的规则集生成装置的一个示例的方框图。
19.图9示出了本说明书实施例的用于实现规则集生成方法的电子设备的方框图。
具体实施方式
20.以下将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本说明书实施例内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。另外,相对一些示例所描述的特征在其它例子中也可以进行组合。
21.如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。
22.在本说明书中,术语“模型”是指被应用于业务场景中来进行业务预测服务的机器学习模型,比如,用于分类预测、业务风险预测等等的机器学习模型。机器学习模型的示例可以包括但不限于:线性回归模型、逻辑回归模型、神经网络模型、决策树模型、支持向量机等。神经网络模型的示例可以包括但不限于深度神经网络(dnn,deep neural network)模型、卷积神经网络(cnn,convolutional neural network)模型、bp神经网络等。
23.模型的具体实现形式取决于所应用的业务场景。例如,在模型应用于对用户进行分类的应用场景,则模型被实现为用户分类模型。相应地,可以根据该模型来对待分类用户的用户特征数据进行用户分类预测。在模型应用于对业务系统上发生的业务交易进行业务风险预测的应用场景,则模型被实现为业务风险预测模型。相应地,可以根据该模型来对该业务交易的业务交易特征数据进行业务风险预测。
24.随着人工智能技术的发展,机器学习技术被作为模型广泛地应用于各种业务应用场景来进行各种业务预测服务,比如,分类预测、业务风险预测等等。例如,模型在金融欺诈、推荐系统、图像识别等领域具有广泛的应用。为了实现更好的模型性能,需要使用更多的训练数据来训练模型。在例如医疗、金融等应用领域,不同的企业或机构拥有不同的数据样本,一旦将这些数据进行联合训练,将极大提升业务模型的模型精度,从而给企业带来巨大的经济效益。
25.在人工智能领域中,用于决策的规则因为其具有可解释性以及有效性的特点,被作为模型广泛应用于分类场景中,尤其是在金融领域中的风险控制。对于所应用的规则来说,需要挖掘出若干个规则组成规则集,规则集作为一个模型被应用在场景中。一般来说,对于规则集模型的优劣判断标准是分类准确率,当分类准确率高时,则认为该规则集模型好。
26.然而,在许多应用场景中,所使用的规则集模型除了要求分类准确率高以外,还会有其他的约束条件,比如,分类的准确率需要达到80%。目前的规则集生成方式中均没有考虑预设的约束条件,从而导致所使用的规则并不满足该约束条件。
27.鉴于上述,本说明书实施例提供了用于生成规则集的方法及装置。在该方法中,根据约束指标类型的第一约束条件构建适应第一约束条件的决策树;基于决策树得到包括多个规则的待选规则集;按照以下方式针对所得到的待选规则集中的各个规则子集计算对应的后验概率:针对各个规则子集,确定该规则子集对应的先验概率;基于约束指标类型的第二约束条件确定该规则子集对应的似然概率;根据先验概率和似然概率计算该规则子集对应的后验概率;以及根据各个规则子集对应的后验概率得到作为模型的规则集。通过本说明书实施例的技术方案,基于约束指标类型的约束条件生成规则集,使得所生成的规则集满足约束指标类型的约束条件。
28.下面结合附图对本说明书实施例提供的用于生成规则集的方法及装置进行详细说明。
29.图1示出了根据本说明书实施例的用于生成规则集的方法的一个示例100的流程图。
30.如图1所示,在110,可以根据约束指标类型的第一约束条件构建决策树。
31.在一个示例中,约束指标类型包括准确率、召回率、召回数以及稳定性中的一种类型。对于每一种约束指标类型,可以设置该约束指标类型的约束条件。例如,针对准确率,可
以设置准确率的第一约束条件为:准确率大于80%。
32.基于约束指标类型的第一约束条件可以根据待生成的规则集所应用的业务场景中的业务确定。当业务要求较高时,对规则集的要求也较高,相应地,第一约束条件设置的更严苛。例如,在风控业务领域中,业务要求风控门槛设置得较高,则可以将第一约束条件中的准确率要求设置的较高,比如,设置的第一约束条件为准确率大于90%。当业务要求较低时,对规则集的要求也较低,相应地,第一约束条件可以设置的更宽松,比如,设置的第一约束条件为准确率大于60%。
33.在本说明书实施例中,第一约束条件可以用来约束所构建出的决策树,以使得决策树适应第一约束条件,即满足第一约束条件。
34.在决策树的构建过程中,每个节点根据分裂属性进行分裂,以分裂成相应的多个子节点,由各个节点和子节点构成决策树。在本说明书实施例中,每个节点分裂时同时考虑了纯度和对第一约束条件的约束适应度两个维度的因素,约束适应度用于表示节点分裂时对于第一约束条件的适应程度。即,可以根据纯度和约束适应度来确定各个节点进行分裂的分裂属性。针对各个节点,为该节点所确定的分裂属性使得该节点分裂成子节点时对应的纯度和约束适应度的综合指数最佳。
35.图2示出了根据本说明书实施例的构建决策树的一个示例200的流程图。
36.如图2所示,在111,在决策树的构建过程中,针对各个节点的各个分裂属性,根据约束指标类型的第一约束条件确定该节点根据该分裂属性分裂成子节点时对应的纯度以及针对第一约束条件的约束适应度。
37.决策树由若干个节点构成,节点可以分为根节点、内部节点和叶节点。根节点是起始节点,根节点对应待分类的样本全集。叶节点对应决策结果,根节点和内部节点中的每个节点对应一个分裂属性,每个节点对应包含的样本集合根据分裂属性进行划分,不同的结果被划分到对应的子节点中。
38.在该示例中,针对待分裂成若干子节点的各个节点,每个节点对应有至少一种分裂属性,属于同一节点的不同分裂属性可以将该节点分裂成不同的子节点。针对每个分裂属性,按照该分裂属性可以将节点分裂成至少两个子节点。在一个节点分裂成至少两个子节点的分裂方式中,可以计算出该分裂方式对应的纯度和针对第一约束条件的约束适应度。
39.一个方面,纯度可以用于表示经过分裂后的各个子节点中包含的样本属于同一类别的比例,各个子节点中包含的样本属于同一类别的比例越高,则纯度越高。纯度可以用信息熵、信息增益、信息增益率、基尼指数等指标来度量。例如,当使用信息增益时可以采用id3算法,当使用信息增益率时可以采用c4.5算法,当使用基尼指数时可以采用cart算法。
40.对于各个分裂属性对应的分裂方式来说,纯度越高,则该分裂方式的分裂效果越好,进而对应的分裂属性更适宜对当前所针对的节点进行分裂。
41.在一个示例中,可以用以下方式计算各个节点分裂成子节点时的分裂方式的纯度:
[0042][0043]
其中,s表示分裂属性,t表示特征分裂点,φ(s,t)表示分裂方式对应的纯度函数,
d表示父节点,d
l
和dr表示分裂后的子节点,表示父节点的纯度函数,和表示对应子节点的纯度函数。
[0044]
另一个方面,针对每个节点根据每个分裂属性分裂成多个子节点的分裂方式,还可以计算该分裂方式对应的约束适应度,即,该分裂方式对第一约束条件的适应程度。约束适应度越高,则对应的分裂方式所得到的样本越适应第一约束条件,满足第一约束条件的样本比例越高。
[0045]
在一个示例中,每个节点可以对应至少一个分裂属性,每个分裂属性对应一种分裂方式,从而每个节点可以按照对应的每个分裂属性分别进行分裂。每个节点的分裂方式的数量可以是该节点对应的分裂属性的数量。
[0046]
针对各个节点的各个分裂属性,根据约束指标类型的第一约束条件确定该节点根据该分裂属性所分裂成的各个子节点对应的子约束适应度。在该示例中,每个节点按照一个分裂属性可以分裂成至少两个子节点,每个子节点中包括的样本相对于第一约束条件的适应程度是该子节点对应的子约束适应度。由同一节点分裂成的不同子节点对应的子约束适应度可以不同。子约束适应度越高,对应的子节点中的样本符合第一约束条件的样本比例越高。
[0047]
在一个示例中,约束指标类型是准确率,从而第一约束条件可以是准确率的阈值范围。在该示例中,针对各个节点的各个分裂属性,可以确定该节点根据该分裂属性所分裂成的各个子节点对应的准确率。
[0048]
在一个示例中,针对各个节点的各个分裂属性,该节点可以按照该分裂属性分裂成至少两个子节点,从而该节点中的样本可以按照该分裂属性进行分类,得到每个子节点对应的分类类别,每个子节点中包括所属分类类别的样本。针对每个子节点,可以计算该子节点中的样本的准确率。
[0049]
在确定各个子节点对应的准确率后,可以根据针对准确率的第一约束条件和各个子节点对应的准确率确定各个子节点对应的子约束适应度。在一个示例中,可以将每个子节点对应的准确率与第一约束条件进行比较,以确定各个子节点对应的子约束适应度。
[0050]
在一个示例中,子节点对应的准确率与第一约束条件之间可以呈现不同的比较关系,可以预设每种比较关系与子约束适应度的对应关系。在一个示例中,当子节点对应的准确率满足第一约束条件时,可以得到第一子约束适应度;当子节点对应的准确率不满足第一约束条件时,可以得到第二子约束适应度,其中,第一子约束适应度大于第二子约束适应度。例如,第一子约束适应度是0,第二子约束适应度是子节点对应的准确率与第一约束条件中的阈值之间的差值,该差值为负值。
[0051]
例如,第一约束条件是:准确率>0.2,一个节点按照一个分裂属性分裂成左右两个子节点,其中,左子节点对应的准确率是0.1,右子节点对应的准确率是0.3。将左右两个子节点分别与第一约束条件中的阈值0.2进行比较,则右子节点样本的准确率0.3》0.2,满足第一约束条件,从而可以确定该右子节点对应的子约束适应度为0。左子节点对应的准确率0.1<0.2,不满足第一约束条件,则可以确定该左子节点对应的子约束适应度为:0.1-0.2=-0.1。
[0052]
针对各个节点,在确定出该节点分裂得到的各个子节点对应的子约束适应度后,该节点所分裂得到的每个子节点对应有一个子约束适应度,可以根据各个子节点对应的子
约束适应度确定该节点对应的针对第一约束条件的约束适应度。
[0053]
在一个示例中,可以将由同一个节点所分裂的各个子节点对应的子约束适应度进行比较,以确定出数值最大的子约束适应度。可以将最大的子约束适应度确定为该节点对应的针对第一约束条件的约束适应度。
[0054]
回到图2,在113,针对各个节点的各个分裂属性,可以根据所确定的针对该节点按照该分裂属性进行分裂的纯度和约束适应度可以确定该分裂属性对应的自适应度分值。
[0055]
在该示例中,分裂属性对应的自适应度分值可以用于表征该分裂属性对于第一约束条件的适应程度。自适应度分值越高,则分裂属性的适应程度越高,按照该分裂属性所分裂的各个子节点对样本的分类更适应于第一约束条件,从而分类效果越好。
[0056]
在一个示例中,针对每个分裂属性,可以将该分裂属性进行的分裂对应的纯度和约束适应度的和作为该分裂属性对应的自适应度分值。在另一个示例中,可以为纯度和约束适应度设置对应的权重。在该示例中,针对各个节点的各个分裂属性,可以将该分裂属性对应的纯度乘以对应设置的第一权重,将该分裂属性对应的约束适应度乘以对应设置的第二权重,其中,第一权重和第二权重够可以不同。再将加第一权重后的纯度与加第二权重后的约束适应度之和确定为该分裂属性对应的自适应度分值。
[0057]
在115,针对各个节点,根据该节点的多个分裂属性对应的自适应度分值,从该多个分裂属性中确定用于将该节点进行分裂的分裂属性。
[0058]
在一个示例中,针对各个节点,可以从该节点的多个分裂属性对应的自适应度分值中确定出最大的自适应度分值,将最大的自适应度分值对应的分裂属性确定为用于将该节点进行分裂的分裂属性。
[0059]
在117,针对各个节点,按照所确定的该节点对应分裂属性对该节点进行分裂,以得到由各个节点以及子节点构成的决策树。
[0060]
在本说明书中,所得到的决策树可以对数据进行分类,决策树所执行的分类适应第一约束条件,并且经由该决策树分类所得到的数据也适应第一约束条件。
[0061]
回到图1,在120,可以基于决策树确定包括多个规则的待选规则集。
[0062]
在本说明书中,利用适应第一约束条件的决策树可以生成规则,所生成的规则适应第一约束条件。由决策树所生成的多个规则可以构成一个待选规则集,可以按照本说明书中的实施例对待选规则集进行进一步地筛选,以得到满足第一约束条件的更优化的规则集。
[0063]
在本说明书实施例的一个示例中,在确定待选规则集之后,在执行130之前,可以按照指定评价指标对待选规则集进行筛选,以得到筛选后的待选规则集。
[0064]
在该示例中,指定评价指标可以一种或多种指标,当指定评价指标包括多种指标时,可以利用该多种指标依次对待选规则集进行筛选。在一个示例中,指定评价指标可以包括应用表现、冗余度以及应用稳定性等中的至少一种指标。
[0065]
在该示例中,在对待选规则集进行筛选时,可以从待选规则集中选择部分规则构成规则子集,确定各个规则子集的指定评价指标。每个规则子集包括至少一个规则,根据待选规则集可以构成若干个不同的规则子集。还可以对待选规则集中的每条规则进行评价,以确定每条规则的指定评价指标。
[0066]
应用表现可以采用指定的指标进行评价。在一个示例中,应用表现可以根据准确
率和/或召回率来确定。例如,针对一个规则子集,可以使用数据样本集对该规则子集进行评价。具体地,利用该规则子集对该数据样本集进行分类处理,得到相应的分类结果。根据分类结果确定该规则子集的应用表现。比如,当应用表现用准确率来表征时,可以根据分类结果确定该规则子集的准确率,该准确率可以表征该规则子集的应用表现。
[0067]
在一个示例中,应用表现可以用加权相对精度指标(weighted relative accuracy,wracc)来评价,加权相对精度指标可以是根据准确率得到的。加权相对精度指标可以用以下公式来表示:
[0068][0069]
其中,p表示数据样本中的正样本,n表示数据样本中的负样本数,|p|+|n|表示全体数据样本,表示准确率,表示全体数据样本中的正样本比例。
[0070]
上述公式由两部分构成,第一部分表示在全体数据样本中预测的正样本的覆盖比例,第二部分是准确率与全体数据样本中的正样本比例的差值,该差值可以表示所应用的规则子集的分布异常性。通过加权相对精度指标,对规则进行筛选时可以平衡准确率和正样本的覆盖率。
[0071]
当指定评价指标包括冗余度时,可以利用冗余度对待选规则集进行筛选。各个规则的冗余度可以根据该规则所命中的样本与其他规则所命中的样本之间的重合度来确定,重合度越高,则对应的规则的冗余度越高;重合度越低,则对应的规则的冗余度越低。
[0072]
在一个示例中,使用待选规则集中的各个规则对预设的样本集进行分类处理。可以确定每个规则所命中的样本,以及每个样本对应命中的规则,每个规则可以命中多个样本,每个样本可以被多个规则命中。这里的命中是指样本满足规则的要求或条件。通过利用各个规则对样本集中的样本进行分类,可以确定各个样本与各个规则之间的命中关系。根据各个样本与各个规则之间的命中关系,可以确定各个样本的命中分数。每个样本的命中分数可以表示该样本所命中的规则的数量,命中分数越高,则样本所命中的规则的数量越多。在一个示例中,可以将样本所命中的规则的数量确定为命中分数。例如,一个样本命中待选规则集中的3个规则,则该样本对应的命中分数是3。
[0073]
然后,针对各个规则,根据该规则所命中的样本对应的命中分数确定该规则对应的样本独享率。当该规则命中多个样本时,则可以根据该多个样本对应的命中分数来确定该规则对应的样本独享率。样本独享率与样本对应的命中分数呈反比,样本对应的命中分数越高,则样本独享率越低。
[0074]
在一个示例中,针对各个规则,可以计算该规则所命中的各个样本对应的命中分数之和,根据命中分数之和确定规则对应的样本独享率。在一个示例中,可以将命中分数之和的倒数确定为规则对应的样本独享率。在另一个示例中,还可以预设命中分数之和与样本独享率之间的反比关系,根据该反比关系确定命中分数之和对应的样本独享率。
[0075]
在另一个示例中,针对各个规则,可以计算该规则所命中的各个样本对应的命中分数均值,根据命中分数均值确定规则对应的样本独享率。在一个示例中,可以将命中分数均值的倒数确定为规则对应的样本独享率。在另一个示例中,还可以预设命中分数均值与
样本独享率之间的反比关系,根据该反比关系确定命中分数均值对应的样本独享率。
[0076]
在确定各个规则的样本独享率后,可以根据各个规则的样本独享率对待选规则集进行筛选,以得到筛选后的待选规则集。在本说明书中,一个规则对应的样本独享率越高,则表示该规则所命中的样本与其他规则所命中的样本的重合度越低,从而该规则的冗余度越低。可以选取样本独享率较高的若干规则构成筛选后的待选规则集。在一个示例中,可以设置样本独享率阈值,可以将样本独享率大于该样本独享率阈值的规则筛选出,以构成筛选后的待选规则集。
[0077]
当指定评价指标包括应用稳定性时,可以利用应用稳定性对待选规则集进行筛选。应用稳定性是指规则对数据进行分类时的分类效果的稳定性,规则的应用稳定性越高越好。当一个规则的应用稳定性较低时,该规则应用于不同的数据集所呈现的分类效果差异较大。
[0078]
在一个示例中,为了评估待选规则集中的各个规则的应用稳定性,可以使用两个不同的数据集。比如,训练集和验证集,训练集和验证集中包括的数据不同或有差异。
[0079]
在该示例中,针对各个规则,可以根据该规则分别在训练集和验证集上的应用表现确定该规则对应的稳定程度。在一个示例中,可以将规则分别应用于训练集和验证集上,以得到该规则在训练集和验证集上的分类结果。根据训练集和验证集上的分类结果分别计算该规则针对训练集和验证集的在指定指标上的指标值,指定指标可以包括准确率、召回率和加权相对精度指标等指标中的任一个。
[0080]
然后,可以根据训练集和验证集上的指标值,计算两者之间的差异。该差异可以用来表示规则对应的稳定程度,差异越大,则稳定程度越低;差异越小,则稳定程度越高。在一个示例中,可以将训练集的指标值与验证集的指标值之间的差值作为规则在两次应用之间的差异。在另一个示例中,可以将训练集的指标值与验证集的指标值之间的商值作为规则在两次应用之间的差异。在另一个示例中,可以将训练集的指标值与验证集的指标值中较大的指标值除以较小的指标值,以得到对应的商值。将商值减去1所得到的值作为规则在两次应用之间的差异。
[0081]
在根据差异确定规则对应的稳定程度后,可以根据各个规则的稳定程度对待选规则集进行筛选,以得到筛选后的待选规则集。在一个示例中,可以将稳定程度高的规则筛选出,以构成筛选后的待选规则集。
[0082]
在本说明书实施例的另一个示例中,可以在确定待选规则集之后,直接执行130的操作。
[0083]
在130,针对所得到的待选规则集中的各个规则子集计算对应的后验概率。
[0084]
在本说明书中,所针对的待选规则集可以是使用决策树直接确定出的待选规则集,还可以是利用指定评价指标筛选后的待选规则集。
[0085]
针对各个规则子集,可以利用贝叶斯预测方式来计算该规则子集的后验概率。该规则子集中的各个规则满足先验分布和后验分布,并可以计算出对应的似然概率。根据贝叶斯预测,根据先验信息和似然概率,可以得到对应的后验概率。
[0086]
图3示出了根据本说明书实施例的用于计算后验概率的一个示例300的流程图。
[0087]
如图3所示,在131,针对各个规则子集,可以确定该规则子集对应的先验概率。
[0088]
在本说明书实施例中,每个规则子集可以包括所得到的待选规则集中的部分规
则,不同的规则子集中包括的规则可以不同。
[0089]
在本说明书中,可以设定先验信息为规则集中的规则数量少且规则短小,规则数量少且规则短小可以使得规则集具有强解释性。对于每个规则子集,可以将该规则子集中的各个规则与先验信息进行匹配,以确定该规则子集与先验信息的匹配度。该匹配度可以用先验概率来表示,先验概率越高,表示规则子集与先验信息的匹配度越高,越符合先验信息所规定的规则数量少且规则短小的条件。
[0090]
在一个示例中,可以根据以下公式计算先验概率:
[0091][0092]
其中,ρ表示计算出的先验概率,rs表示定义的规则集中的规则数量,rc表示待选规则集,ci表示每条规则中的条件数量,条件数量可以用来表示规则长度,r表示每条规则,σ和是定义的参数。上述公式包括三个分布,第一个分布poisson(|rs||σ)用于限定规则集中的规则数量,第二个分布用于限定每条规则中的条件数量,第三个分布定义了相同长度的规则被选取的概率符合均匀分布。
[0093]
在133,可以基于约束指标类型的第二约束条件确定该规则子集对应的似然概率。
[0094]
在该示例中,约束指标类型可以包括准确率、召回率、召回数以及稳定性中的一种。第二约束条件不同于第一约束条件。通过设置第二约束条件,使得似然概率与第二约束条件关联。越适应于第二约束条件,则对应的似然概率越高。
[0095]
针对本说明书中的规则子集,可以认为规则子集符合伯努利分布。在似然概率的计算中,需要满足的其中一个条件包括准确率越高越好,即,准确率越高,则对应的似然概率越大。为了满足该条件,可以将似然概率的计算公式中的参数设置为:其中,α
+
和β
+
均为似然概率的计算公式中的参数。
[0096]
此外,还需要满足的一个条件包括真反例tn与似然概率正相关,即,tn越大,似然概率越大。为了满足该条件,可以将似然概率的计算公式中的参数设置为:其中,α-和β-均为似然概率的计算公式中的参数。
[0097]
在一个示例中,当约束指标类型包括准确率时,第二约束条件可以包括:真正例tp(true positives)的权重大于假正例fp(false positives)、假反例fn(false negatives)以及真反例tn(true negatives)的权重。在一个示例中,tp的权重可以远远大于fp、fn以及tn的权重。通过设置tp的权重大于fp、fn以及tn的权重,使得tp在似然概率的计算中的影响加强,通过tp能够影响似然概率。
[0098]
在该示例中,可以根据tp的权重、fp的权重、fn的权重以及tn的权重构造一个综合权重,该综合权重可以应用于似然概率的计算公式中。在一个示例中,可以将tp的权重、fp的权重、fn的权重以及tn的权重的乘积确定为综合权重,因为tp的权重大于fp、fn以及tn的权重,使得tp的权重占综合权重的比例更大,从而tp的权重对综合权重的影响最大。例如,定义综合权重为w,则其中,表示tp的权重,表示
fp的权重,表示fn的权重,表示tn的权重。
[0099]
在该示例中,针对各个规则子集,可以根据综合权重确定该规则子集对应的似然概率。在一个示例中,可以按照以下公式计算似然概率:
[0100][0101]
其中,pw表示计算的似然概率,θ
+
和θ-分别表示伯努利分布的参数。参数θ
+
和θ-可以分别根据参数α
+
和β
+
得到。在一个示例中,θ
+
~beta(α
+

+
),beta表示beta分布。即,θ
+
满足beta分布,可以根据beta(α
+

+
)得到。θ-~beta(α
+

+
),即,θ-满足beta分布,可以根据beta(α
+

+
)得到。
[0102]
在上述似然概率的计算方式中,似然概率与综合权重相关联,在综合权重中tp的比例更大,因此,似然概率受tp的影响,且似然概率与tp正相关。此外,能够增大作为优化目标的召回率,加强作为优化目标的召回率与似然概率的正向关系。
[0103]
在一个示例中,当约束指标类型包括准确率时,第二约束条件可以包括:准确率大于指定阈值。在一个示例中,当第一约束条件也是针对准确率的约束条件时,第二约束条件中的指定阈值与第一约束条件中的阈值可以相同。
[0104]
在该示例中,可以根据第二约束条件设置惩罚项函数。惩罚项函数可以根据第二约束条件中的准确率和指定阈值来确定。惩罚项函数可以被定义为:在满足第二约束条件时得到第一数值以及在不满足第二约束条件时得到第二数值,第一数值大于第二数值。惩罚项函数用于影响似然概率的计算,当惩罚项函数输出的数值大时,计算得到的似然概率大;当惩罚项函数输出的数值小时,计算得到的似然概率小。
[0105]
在惩罚项函数中,当满足第二约束条件时输出的第一数值大于不满足第二约束条件时输出的第二数值,这样使得满足第二约束条件时得到的似然概率更大,从而在规则筛选时强关联第二约束条件,使得筛选出的规则更适应于第二约束条件。
[0106]
在一个示例中,可以设置如下形式的惩罚项函数:
[0107][0108]
其中,p
con
表示惩罚项函数,α1表示第一数值,α2表示第二数值,conf(rs)表示规则子集的准确率,δ表示第二约束条件中的指定阈值。
[0109]
在一个示例中,可以设定第一数值为1,第二数值为0,则惩罚项函数为:
[0110][0111]
在该示例中,当不满足第二约束条件时,通过惩罚项函数使得输出为0,进而可以使得似然概率的计算结果为0。这样,不满足第二约束条件的规则子集不会被确定为作为模型的规则集,从而确保了最后输出的作为模型的规则集满足第二约束条件。
[0112]
在确定惩罚项函数后,针对各个规则子集,可以基于惩罚项函数确定该规则子集对应的似然概率。在一个示例中,可以将惩罚项函数与似然概率的计算公式相乘,所得到的结果即为计算得到的似然概率。似然概率的计算公式可以表示为:p
adapt
=p
×
p
con
,其中,p表示似然概率的计算公式,p
adapt
表示增加惩罚项函数后的似然概率的计算公式。
[0113]
在一个示例中,当约束指标类型包括准确率时,第二约束条件可以包括:真正例tp
的权重大于假正例fp、假反例fn以及真反例tn的权重,以及准确率大于指定阈值。
[0114]
在该示例中,似然概率的计算同时满足上述两个条件。似然概率的计算公式可以表示为:p
adapt
=pw×
p
con

[0115]
在135,可以根据先验概率和似然概率计算规则子集对应的后验概率。
[0116]
在一个示例中,针对各个规则子集,可以将先验概率和似然概率相乘以得到该规则子集对应的后验概率。后验概率p
posterior
可以表示为:p
posterior
=p
prior
×
p
adapt
,其中,p
prior
表示先验概率。
[0117]
在一个示例中,针对各个规则子集,可以将先验概率和似然概率的乘积求对数,以得到后验概率的对数。即,log p
posterior
=log p
prior
+log p
adapt

[0118]
回到图1,在140,根据各个规则子集对应的后验概率得到作为模型的规则集。
[0119]
在一个示例中,可以将后验概率最大的规则子集确定为作为模型的规则集。在另一个示例中,可以根据后验概率对各个规则子集进行评价,后验概率越大则评价越高,可以将评价最高的规则子集确定为作为模型的规则集。
[0120]
图4示出了根据本说明书实施例的用于生成规则集的方法的另一个示例400的流程图。
[0121]
如图4所示,在410,根据指定约束类型的第一约束条件构建决策树。
[0122]
在420,基于决策树确定待选规则集。
[0123]
在该示例中,410和420的操作与110和120的操作相同,可以参考上述110和120的操作说明。
[0124]
在430,从所得到的待选规则集中可以选取规则作为目标规则子集。
[0125]
在该示例中,选取的规则数量可以一个或多个,选取的方式可以是随机选取,还可以是按照指定规律选取。例如,当选取一个规则作为目标规则子集时,可以从待选规则集中任意选取一个规则作为目标规则子集。
[0126]
在440,可以确定针对目标规则子集的操作方式。
[0127]
在该示例中,操作方式可以包括增加、删除和替换中的一种。增加的操作方式是从待选规则集中选取一个或多个规则增加至目标规则子集中。删除的操作方式是从目标规则子集中选择一个或多个规则将其从目标规则子集中删除。替换的操作方式是从目标规则子集中选择一个或多个规则作为待替换规则,然后从待选规则集中选取相同数量的规则增加至目标规则子集中,同时删除目标规则子集中的待替换规则。
[0128]
在该示例中,操作方式的确定可以是随机确定,即,可以从三种操作方式中随机选取一种操作方式作为针对目标规则子集的操作方式。
[0129]
在一个示例中,当目标规则子集中包括的规则仅有一个时,可以仅从增加和替换的操作方式中确定一种操作方式。在另一个示例中,当目标规则子集中包括的规则数量较少时,可以仅从增加和替换的操作方式中确定一种操作方式。例如,当目标规则子集中包括的规则数量小于指定数量时,可以仅从增加和替换的操作方式中确定一种操作方式。
[0130]
在450,根据所确定的操作方式对目标规则子集进行操作以得到操作后的另一个规则子集。
[0131]
在该示例中,所得到的另一个规则子集不同于已生成过的规则子集。例如,经过增加操作后的另一个规则子集相比于目标规则子集增加一个或多个规则,经过删除操作后的
另一个规则子集相比于目标规则子集减少一个或多个规则,经过替换操作后的另一个规则子集相比于目标规则子集替换了其中的一个或多个规则。
[0132]
在460,针对目标规则子集和另一个规则子集计算对应的后验概率。
[0133]
可以按照图3所示的方法计算目标规则子集和另一个规则子集的后验概率。
[0134]
在470,根据所计算的后验概率对目标规则子集和另一个规则子集进行评价,以确定出评价高的规则子集。
[0135]
在该示例中,可以将后验概率高的规则子集确定为评价高的规则子集。
[0136]
在480,判断循环是否结束。如果否,执行490的操作。如果是,执行500的操作。
[0137]
循环结束的判断条件可以包括循环次数、目标规则子集的数量等。在一个示例中,当循环次数达到指定次数阈值时,可以判定循环结束;当循环次数未达到指定次数阈值时,可以判定循环未结束。在另一个示例中,当作为目标规则子集的规则子集数量达到指定子集数量阈值时,可以判定循环结束;当作为目标规则子集的规则子集数量未达到指定子集数量阈值时,可以判定循环未结束。
[0138]
在490,将评价高的规则子集确定为下一循环中的目标规则子集,并返回执行440的操作。
[0139]
在500,将所确定出的评价高的规则子集确定为作为模型的规则集。
[0140]
通过本说明书的各个实施例所确定出的规则集,适应于第一约束条件和第二约束条件,从而使得由该规则集分类的数据满足第一约束条件和第二约束条件,实现了满足约束条件的规则集。此外,还能够增大作为优化目标的召回率。
[0141]
图5示出了根据本说明书实施例的规则集生成装置500的一个示例的方框图。
[0142]
如图5所示,规则集生成装置500包括:决策树构建单元510、待选规则集确定单元520、先验概率确定单元530、似然概率确定单元540、后验概率确定单元550和规则集得到单元560。
[0143]
决策树构建单元510,可以被配置为根据约束指标类型的第一约束条件构建适应第一约束条件的决策树。
[0144]
在一个示例中,约束指标类型包括准确率、召回率、召回数以及稳定性中的一种类型。
[0145]
待选规则集确定单元520,可以被配置为基于决策树确定包括多个规则的待选规则集。
[0146]
先验概率确定单元530,可以被配置为针对各个规则子集,确定该规则子集对应的先验概率,其中,每个规则子集包括所得到的待选规则集中的部分规则。
[0147]
似然概率确定单元540,可以被配置为基于约束指标类型的第二约束条件确定该规则子集对应的似然概率。
[0148]
在一个示例中,约束指标类型包括准确率,第二约束条件包括:tp的权重大于fp、fn以及tn的权重。似然概率确定单元540还可以被配置为:根据综合权重确定该规则子集对应的似然概率,其中,综合权重根据tp的权重、fp的权重、fn的权重以及tn的权重得到。
[0149]
在一个示例中,约束指标类型包括准确率,第二约束条件包括:准确率大于指定阈值。似然概率确定单元540还可以被配置为:根据第二约束条件设置惩罚项函数,其中,惩罚项函数被定义为:在满足第二约束条件时得到第一数值以及在不满足第二约束条件时得到
第二数值,第一数值大于第二数值;以及基于惩罚项函数确定该规则子集对应的似然概率。
[0150]
后验概率确定单元550,可以被配置为根据先验概率和似然概率计算该规则子集对应的后验概率。
[0151]
规则集得到单元560,可以被配置为根据各个规则子集对应的后验概率得到作为模型的规则集。
[0152]
图6示出了根据本说明书实施例的规则集生成装置500的另一个示例的方框图。
[0153]
如图6所示,规则集生成装置500还可以包括待选规则集筛选单元570。待选规则集筛选单元570,可以被配置为按照指定评价指标对待选规则集进行筛选,以得到筛选后的待选规则集,其中,指定评价指标包括以下中的至少一个:应用表现、冗余度以及应用稳定性。
[0154]
在一个示例中,应用表现根据准确率和/或召回率确定。
[0155]
在一个示例中,指定评价指标包括冗余度。待选规则集筛选单元570还可以被配置为:根据各个样本与各个规则之间的命中关系,确定各个样本的命中分数;针对各个规则,根据该规则所命中的样本对应的命中分数确定该规则对应的样本独享率;以及根据各个规则的样本独享率对待选规则集进行筛选,以得到筛选后的待选规则集。
[0156]
在一个示例中,指定评价指标包括应用稳定性。待选规则集筛选单元570还可以被配置为:针对各个规则,根据该规则分别在训练集和验证集上的应用表现确定该规则对应的稳定程度;以及根据各个规则的稳定程度对待选规则集进行筛选,以得到筛选后的待选规则集。
[0157]
图7示出了根据本说明书实施例的决策树构建单元510的一个示例的方框图。
[0158]
如图7所示,决策树构建单元510可以包括:约束适应度确定模块511、自适应度分值确定模块513、分裂属性确定模块515和节点分裂模块517。
[0159]
约束适应度确定模块511,可以被配置为在决策树的构建过程中,针对各个节点的各个分裂属性,根据约束指标类型的第一约束条件确定该节点根据该分裂属性分裂成子节点时对应的纯度以及针对第一约束条件的约束适应度。
[0160]
在一个示例中,约束适应度确定模块511还可以被配置为:针对各个节点的各个分裂属性,根据约束指标类型的第一约束条件确定该节点根据该分裂属性所分裂成的各个子节点对应的子约束适应度;以及根据各个子节点对应的子约束适应度确定该节点对应的针对第一约束条件的约束适应度。
[0161]
在一个示例中,约束指标类型包括准确率。约束适应度确定模块511还可以被配置为:针对各个节点的各个分裂属性,确定该节点根据该分裂属性所分裂成的各个子节点对应的准确率;以及根据针对准确率的第一约束条件和各个子节点对应的准确率确定各个子节点对应的子约束适应度。
[0162]
自适应度分值确定模块513,可以被配置为根据所确定的纯度和约束适应度来确定该分裂属性对应的自适应度分值。
[0163]
分裂属性确定模块515,可以被配置为针对各个节点,根据该节点的多个分裂属性对应的自适应度分值,从该多个分裂属性中确定用于将该节点进行分裂的分裂属性。
[0164]
节点分裂模块517,可以被配置为针对各个节点,按照所确定的该节点对应分裂属性对该节点进行分裂,以得到由各个节点以及子节点构成的决策树。
[0165]
图8示出了根据本说明书实施例的规则集生成装置800的一个示例的方框图。
[0166]
如图8所示,规则集生成装置800包括:决策树构建单元810、待选规则集确定单元820、目标规则子集选取单元830、操作方式确定单元840、新规则子集生成单元850、后验概率计算单元860、规则子集比较单元870、目标规则子集确定单元880和规则集确定单元890。
[0167]
决策树构建单元810,可以被配置为根据约束指标类型的第一约束条件构建适应第一约束条件的决策树。
[0168]
待选规则集确定单元820,可以被配置为基于决策树确定包括多个规则的待选规则集。
[0169]
目标规则子集选取单元830,可以被配置为从所得到的待选规则集中选取规则作为目标规则子集。
[0170]
操作方式确定单元840,可以被配置为确定针对目标规则子集的操作方式,操作方式包括增加、删除和替换中的一种。
[0171]
新规则子集生成单元850,可以被配置为根据所确定的操作方式对目标规则子集进行操作以得到操作后的另一个规则子集,另一个规则子集不同于已生成过的规则子集。
[0172]
后验概率计算单元860,可以被配置为针对目标规则子集和另一个规则子集计算对应的后验概率。
[0173]
规则子集比较单元870,可以被配置为根据所计算的后验概率对目标规则子集和另一个规则子集进行评价,以确定出评价高的规则子集。
[0174]
目标规则子集确定单元880,可以被配置为在循环未结束时,将评价高的规则子集确定为下一循环中的目标规则子集,并触发操作方式确定单元。
[0175]
规则集确定单元890,可以被配置为在循环结束时,将所确定出的评价高的规则子集确定为作为模型的规则集。
[0176]
以上参照图1到图8,对根据本说明书实施例的用于生成规则集的方法及装置的实施例进行了描述。
[0177]
本说明书实施例的用于生成规则集的装置可以采用硬件实现,也可以采用软件或者硬件和软件的组合来实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将存储器中对应的计算机程序指令读取到内存中运行形成的。在本说明书实施例中,用于生成规则集的装置例如可以利用电子设备实现。
[0178]
图9示出了本说明书实施例的用于实现规则集生成方法的电子设备900的方框图。
[0179]
如图9所示,电子设备900可以包括至少一个处理器910、存储器(例如,非易失性存储器)920、内存930和通信接口940,并且至少一个处理器910、存储器920、内存930和通信接口940经由总线950连接在一起。至少一个处理器910执行在存储器中存储或编码的至少一个计算机可读指令(即,上述以软件形式实现的元素)。
[0180]
在一个实施例中,在存储器中存储计算机可执行指令,其当执行时使得至少一个处理器910:根据约束指标类型的第一约束条件构建适应第一约束条件的决策树;基于决策树确定包括多个规则的待选规则集;按照以下方式针对所得到的待选规则集中的各个规则子集计算对应的后验概率:针对各个规则子集,确定该规则子集对应的先验概率;基于约束指标类型的第二约束条件确定该规则子集对应的似然概率;根据先验概率和似然概率计算该规则子集对应的后验概率;以及根据各个规则子集对应的后验概率得到作为模型的规则集。
[0181]
应该理解,在存储器中存储的计算机可执行指令当执行时使得至少一个处理器910进行本说明书的各个实施例中以上结合图1-8描述的各种操作和功能。
[0182]
根据一个实施例,提供了一种例如机器可读介质的程序产品。机器可读介质可以具有指令(即,上述以软件形式实现的元素),该指令当被机器执行时,使得机器执行本说明书的各个实施例中以上结合图1-8描述的各种操作和功能。
[0183]
具体地,可以提供配有可读存储介质的系统或者装置,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。
[0184]
在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。
[0185]
本说明书各部分操作所需的计算机程序代码可以用任意一种或多种程序语言编写,包括面向对象编程语言,如java、scala、smalltalk、eiffel、jade、emerald、c++、c#、vb、net以及python等,常规程序化编程语言如c语言、visual basic 2003、perl、cobol2002、php以及abap,动态编程语言如python、ruby和groovy,或者其他编程语言等。该程序编码可以在用户计算机上运行,或者作为独立的软件包在用户计算机上运行,或者部分在用户计算机上运行另一部分在远程计算机运行,或者全部在远程计算机或服务器上运行。在后一种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(lan)或广域网(wan),或连接至外部计算机(例如通过因特网),或者在云计算环境中,或者作为服务使用,比如软件即服务(saas)。
[0186]
可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如cd-rom、cd-r、cd-rw、dvd-rom、dvd-ram、dvd-rw、dvd-rw)、磁带、非易失性存储卡和rom。可选择地,可以由通信网络从服务器计算机上或云上下载程序代码。
[0187]
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0188]
上述各流程和各系统结构图中不是所有的步骤和单元都是必须的,可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的,可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构,也可以是逻辑结构,即,有些单元可能由同一物理实体实现,或者,有些单元可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
[0189]
在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。
[0190]
以上结合附图详细描述了本说明书的实施例的可选实施方式,但是,本说明书的实施例并不限于上述实施方式中的具体细节,在本说明书的实施例的技术构思范围内,可
以对本说明书的实施例的技术方案进行多种简单变型,这些简单变型均属于本说明书的实施例的保护范围。
[0191]
本说明书内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本说明书内容。对于本领域普通技术人员来说,对本说明书内容进行的各种修改是显而易见的,并且,也可以在不脱离本说明书内容的保护范围的情况下,将本文所定义的一般性原理应用于其它变型。因此,本说明书内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。

技术特征:


1.一种用于生成规则集的方法,包括:根据约束指标类型的第一约束条件构建适应所述第一约束条件的决策树;基于所述决策树确定包括多个规则的待选规则集;按照以下方式针对所得到的待选规则集中的各个规则子集计算对应的后验概率:针对所述各个规则子集,确定该规则子集对应的先验概率,其中,每个规则子集包括所得到的待选规则集中的部分规则;基于所述约束指标类型的第二约束条件确定该规则子集对应的似然概率;根据所述先验概率和所述似然概率计算该规则子集对应的后验概率;以及根据所述各个规则子集对应的后验概率得到作为模型的规则集。2.如权利要求1所述的方法,其中,所述约束指标类型包括准确率、召回率、召回数以及稳定性中的一种类型。3.如权利要求2所述的方法,其中,所述约束指标类型包括准确率,所述第二约束条件包括:tp的权重大于fp、fn以及tn的权重,基于所述约束指标类型的第二约束条件确定该规则子集对应的似然概率包括:根据综合权重确定该规则子集对应的似然概率,其中,所述综合权重根据tp的权重、fp的权重、fn的权重以及tn的权重得到。4.如权利要求2所述的方法,其中,所述约束指标类型包括准确率,所述第二约束条件包括:准确率大于指定阈值,基于所述约束指标类型的第二约束条件确定该规则子集对应的似然概率包括:根据所述第二约束条件设置惩罚项函数,其中,所述惩罚项函数被定义为:在满足所述第二约束条件时得到第一数值以及在不满足所述第二约束条件时得到第二数值,所述第一数值大于所述第二数值;以及基于所述惩罚项函数确定该规则子集对应的似然概率。5.如权利要求1所述的方法,还包括:按照指定评价指标对所述待选规则集进行筛选,以得到筛选后的待选规则集,其中,所述指定评价指标包括以下中的至少一个:应用表现、冗余度以及应用稳定性。6.如权利要求5所述的方法,其中,所述应用表现根据准确率和/或召回率确定。7.如权利要求5所述的方法,其中,所述指定评价指标包括所述冗余度,按照指定评价指标对所述待选规则集进行筛选,以得到筛选后的待选规则集包括:根据各个样本与各个规则之间的命中关系,确定所述各个样本的命中分数;针对所述各个规则,根据该规则所命中的样本对应的命中分数确定该规则对应的样本独享率;以及根据所述各个规则的样本独享率对所述待选规则集进行筛选,以得到筛选后的待选规则集。8.如权利要求5所述的方法,其中,所述指定评价指标包括所述应用稳定性,按照指定评价指标对所述待选规则集进行筛选,以得到筛选后的待选规则集包括:针对各个规则,根据该规则分别在训练集和验证集上的应用表现确定该规则对应的稳定程度;以及根据所述各个规则的稳定程度对所述待选规则集进行筛选,以得到筛选后的待选规则
集。9.如权利要求1所述的方法,其中,根据约束指标类型的第一约束条件构建适应所述第一约束条件的决策树包括:在决策树的构建过程中,针对各个节点的各个分裂属性,根据约束指标类型的第一约束条件确定该节点根据该分裂属性分裂成子节点时对应的纯度以及针对所述第一约束条件的约束适应度;根据所确定的纯度和约束适应度来确定该分裂属性对应的自适应度分值;针对所述各个节点,根据该节点的多个分裂属性对应的自适应度分值,从该多个分裂属性中确定用于将该节点进行分裂的分裂属性;以及针对所述各个节点,按照所确定的该节点对应分裂属性对该节点进行分裂,以得到由所述各个节点以及子节点构成的决策树。10.如权利要求9所述的方法,其中,针对各个节点的各个分裂属性,根据约束指标类型的第一约束条件确定该节点根据该分裂属性分裂成子节点时对应的针对所述第一约束条件的约束适应度包括:针对各个节点的各个分裂属性,根据约束指标类型的第一约束条件确定该节点根据该分裂属性所分裂成的各个子节点对应的子约束适应度;以及根据所述各个子节点对应的子约束适应度确定该节点对应的针对所述第一约束条件的约束适应度。11.如权利要求10所述的方法,其中,所述约束指标类型包括准确率,针对各个节点的各个分裂属性,根据约束指标类型的第一约束条件确定该节点根据该分裂属性所分裂成的各个子节点对应的子约束适应度包括:针对各个节点的各个分裂属性,确定该节点根据该分裂属性所分裂成的各个子节点对应的准确率;以及根据针对所述准确率的第一约束条件和所述各个子节点对应的准确率确定所述各个子节点对应的子约束适应度。12.如权利要求1所述的方法,其中,针对所得到的待选规则集中的各个规则子集计算对应的后验概率;以及根据所述各个规则子集对应的后验概率得到作为模型的规则集包括:执行以下循环操作,直至满足指定循环结束条件:从所得到的待选规则集中选取规则作为目标规则子集;确定针对所述目标规则子集的操作方式,所述操作方式包括增加、删除和替换中的一种;根据所确定的操作方式对所述目标规则子集进行操作以得到操作后的另一个规则子集,所述另一个规则子集不同于已生成过的规则子集;针对所述目标规则子集和所述另一个规则子集计算对应的后验概率;根据所计算的后验概率对所述目标规则子集和所述另一个规则子集进行评价,以确定出评价高的规则子集;将所述评价高的规则子集确定为下一循环中的目标规则子集,并返回执行确定针对所述目标规则子集的操作方式的操作;以及
在循环结束时,将所确定出的评价高的规则子集确定为作为模型的规则集。13.一种用于生成规则集的装置,包括:决策树构建单元,根据约束指标类型的第一约束条件构建适应所述第一约束条件的决策树;待选规则集确定单元,基于所述决策树确定包括多个规则的待选规则集;先验概率确定单元,针对所述各个规则子集,确定该规则子集对应的先验概率,其中,每个规则子集包括所得到的待选规则集中的部分规则;似然概率确定单元,基于所述约束指标类型的第二约束条件确定该规则子集对应的似然概率;后验概率确定单元,根据所述先验概率和所述似然概率计算该规则子集对应的后验概率;以及规则集得到单元,根据所述各个规则子集对应的后验概率得到作为模型的规则集。14.如权利要求13所述的装置,还包括:待选规则集筛选单元,按照指定评价指标对所述待选规则集进行筛选,以得到筛选后的待选规则集,其中,所述指定评价指标包括以下中的至少一个:应用表现、冗余度以及应用稳定性。15.如权利要求13所述的装置,其中,所述决策树构建单元包括:约束适应度确定模块,在决策树的构建过程中,针对各个节点的各个分裂属性,根据约束指标类型的第一约束条件确定该节点根据该分裂属性分裂成子节点时对应的纯度以及针对所述第一约束条件的约束适应度;自适应度分值确定模块,根据所确定的纯度和约束适应度来确定该分裂属性对应的自适应度分值;分裂属性确定模块,针对所述各个节点,根据该节点的多个分裂属性对应的自适应度分值,从该多个分裂属性中确定用于将该节点进行分裂的分裂属性;以及节点分裂模块,针对所述各个节点,按照所确定的该节点对应分裂属性对该节点进行分裂,以得到由所述各个节点以及子节点构成的决策树。16.一种用于生成规则集的装置,包括:决策树构建单元,根据约束指标类型的第一约束条件构建适应所述第一约束条件的决策树;待选规则集确定单元,基于所述决策树确定包括多个规则的待选规则集;目标规则子集选取单元,从所得到的待选规则集中选取规则作为目标规则子集;操作方式确定单元,确定针对所述目标规则子集的操作方式,所述操作方式包括增加、删除和替换中的一种;新规则子集生成单元,根据所确定的操作方式对所述目标规则子集进行操作以得到操作后的另一个规则子集,所述另一个规则子集不同于已生成过的规则子集;后验概率计算单元,针对所述目标规则子集和所述另一个规则子集计算对应的后验概率;规则子集比较单元,根据所计算的后验概率对所述目标规则子集和所述另一个规则子集进行评价,以确定出评价高的规则子集;
目标规则子集确定单元,在循环未结束时,将所述评价高的规则子集确定为下一循环中的目标规则子集,并触发所述操作方式确定单元;以及规则集确定单元,在循环结束时,将所确定出的评价高的规则子集确定为作为模型的规则集。17.一种电子设备,包括:至少一个处理器,与所述至少一个处理器耦合的存储器,以及存储在所述存储器上的计算机程序,所述至少一个处理器执行所述计算机程序来实现如权利要求1-12中任一所述的方法。18.一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-12中任一所述的方法。19.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如权利要求1-12中任一所述的方法。

技术总结


本说明书实施例提供了用于生成规则集的方法及装置。在该方法中,根据约束指标类型的第一约束条件构建适应该第一约束条件的决策树;基于决策树确定包括多个规则的待选规则集;按照以下方式针对所得到的待选规则集中的各个规则子集计算对应的后验概率:针对各个规则子集,确定该规则子集对应的先验概率;基于约束指标类型的第二约束条件确定该规则子集对应的似然概率;根据先验概率和似然概率计算该规则子集对应的后验概率;以及根据各个规则子集对应的后验概率得到作为模型的规则集。子集对应的后验概率得到作为模型的规则集。子集对应的后验概率得到作为模型的规则集。


技术研发人员:

李盟

受保护的技术使用者:

支付宝(杭州)信息技术有限公司

技术研发日:

2022.10.14

技术公布日:

2022/12/12


文章投稿或转载声明

本文链接:http://www.wtabcd.cn/zhuanli/patent-1-45706-0.html

来源:专利查询检索下载-实用文体写作网版权所有,转载请保留出处。本站文章发布于 2022-12-18 01:05:01

发表评论

验证码:
用户名: 密码: 匿名发表
评论列表 (有 条评论
2人围观
参与讨论