基于随机森林算法的网络入侵检测系统的制作方法
1.本发明属于网络安全技术领域,具体的,涉及一种基于随机森林算法的网络入侵检测系统。
背景技术:
2.随着现代网络技术的快速发展,网络入侵带来的风险与损失也在逐渐变大,为了保护网络信息安全,对网络入侵进行检测是一项非常重要的技术,其能够降低网络入侵带来的损失,有利于网络安全性的提升。
3.现有技术中,影响网络入侵检测的关键因素是检测效率与检测的准确率,如何提升网络入侵检测的效率与准确率是目前网络安全技术的重要研究项目,为了解决上述问题,提供一种在保证检测准确率的同时能够显著提升网络检测效率的方法,本发明提供了以下技术方案。
技术实现要素:
4.本发明的目的在于提供一种基于随机森林算法的网络入侵检测系统,解决现有技术中网络检测效率与网络入侵检测准确度难以兼顾,影响网络安全准确性的问题。
5.本发明的目的可以通过以下技术方案实现:
6.基于随机森林算法的网络入侵检测系统,包括:
7.预处理单元,用于获取网络攻击数据,并对其进行预处理,提取网络攻击数据的特征;
8.标签对照单元,用于存储更新个子数据集的特征标签数据,还用于接收实时的测试数据的特征标签,并对测试数据的特征标签与子数据集的特征标签进行对照分析,获取两者的重合度;
9.上述的基于随机森林算法的网络入侵检测系统的工作方法包括步骤:
10.第一步,通过预处理单元获取最近的z个网络攻击数据,并将采集的网络攻击数据作为训练集,提取其中的特征后,根据特征不同生成若干个子数据集;
11.第二步,利用随机森林模型对将上一步骤中处理得到的若干个子数据集分别进行训练,从而得到对应的若干个网络入侵检测模型;
12.第三步,将目标数据输入上一步骤中得到的对应网络入侵检测模型中对应的网络入侵检测模型进行网络入侵检测。
13.作为本发明的进一步方案,第三步中将目标数据输入上一步骤中得到的对应网络入侵检测模型中对应的网络入侵检测模型进行网络入侵检测的具体方法为:首先确定测试数据所对应的网络入侵检测模型,然后将测试数据导入对应的网络入侵检测模型中进行测试,网络入侵检测模型预测其召回率与准确率,然后再根据召回率与准确率判断是否存在网络入侵。
14.作为本发明的进一步方案,第二步与第三步中确定测试数据所对应网络入侵检测
模型的方法为:
15.s1、将若干个子数据集依次标记为s1、s2、
……
、sk,其中k为子数据集的数量;
16.s2、获取各子数据集的特征标签,并将获取的特征标签存储至标签对照单元;
17.s3、当导入测试数据时,获取测试数据的特征标签,将该特征标签导入标签对照单元进行对比,获取测试数据与各子数据集特征标签的重合度c,所述重合度c的计算方法为c=c1/c2,其中c1为测试数据与各子数据集特征标签的重合数量,c2为测试数据中的特征标签的数量;
18.s4、根据公式p=|c-1|计算得到重合偏差值p,从而获取各子数据集与测试数据之间的重合偏差值p,将各子数据集对应的重合偏差度按照从小到大的顺序进行排序,从而得到p1、p2、
……
、pk;
19.若p1≥py,则认为对应测试数据不存在网络入侵,py为预设值。
20.作为本发明的进一步方案,若p1<py,则按照p1至pk的顺序选用对应子数据集对应的网络入侵检测模型来对测试数据进行测试,直至根据计算得到的召回率与准确率判断对应测试数据不存在网络入侵或者
21.测试所用网络入侵检测模型对应的pk1≥py成立时或者
22.根据计算得到的召回率与准确率判断对应测试数据存在网络入侵时,停止测试过程。
23.作为本发明的进一步方案,所述py取值为40%。
24.本发明的有益效果:
25.(1)本发明相较于现有技术中的测试方法,能够对不同类型的网络攻击数据进行分别处理,简化数据处理模型中树的数量,提升处理效率,并且能够对测试数据进行初步的识别,避免大量数据一一被导入网络入侵检测模型中进行测试过程,从而进一步有效的提升了数据处理效率。
具体实施方式
26.下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
27.基于随机森林算法的网络入侵检测系统,包括:
28.预处理单元,用于获取网络攻击数据,并对其进行预处理,提取网络攻击数据的特征;
29.标签对照单元,用于存储更新个子数据集的特征标签数据,还用于接收实时的测试数据的特征标签,并对测试数据的特征标签与子数据集的特征标签进行对照分析,获取两者的重合度;
30.上述的基于随机森林算法的网络入侵检测系统的工作方法包括步骤:
31.第一步,通过预处理单元获取最近的z个网络攻击数据,并将采集的网络攻击数据作为训练集,提取其中的特征后,根据特征不同生成若干个子数据集;
32.第二步,利用随机森林模型对将上一步骤中处理得到的若干个子数据集分别进行
训练,从而得到对应的若干个网络入侵检测模型;
33.第三步,将目标数据输入上一步骤中得到的若干个网络入侵检测模型中对应的网络入侵检测模型进行网络入侵检测;
34.具体的,首先确定测试数据所对应的网络入侵检测模型,然后将测试数据导入上一步骤中得到的对应的网络入侵检测模型中进行测试,网络入侵检测模型预测其召回率与准确率,然后再根据召回率与准确率判断是否存在网络入侵。
35.在本发明的一个实施例中,第二步与第三步中确定测试数据所对应网络入侵检测模型的方法为:
36.s1、将若干个子数据集依次标记为s1、s2、
……
、sk,其中k为子数据集的数量,获取各子数据集中网络攻击数据的数量,进而获取各子数据集中网络攻击数据的数量占据网络攻击数据总量z的百分比b,将其依次表示为b1、b2、
……
、bk;
37.s2、获取各子数据集的特征标签,并将获取的特征标签存储至标签对照单元,需要注意的是,各子数据集的特征标签可以重复,且一个子数据集具有多个特征标签;
38.s3、当导入测试数据时,获取测试数据的特征标签,将该特征标签导入标签对照单元进行对比,获取测试数据与各子数据集特征标签的重合度c,所述重合度c的计算方法为c=c1/c2,其中c1为测试数据与各子数据集特征标签的重合数量,c2为测试数据中的特征标签的数量;
39.s4、根据公式p=|c-1|计算得到重合偏差值p,从而获取各子数据集与测试数据之间的重合偏差值p,将各子数据集对应的重合偏差度按照从小到大的顺序进行排序,从而得到p1、p2、
……
、pk;
40.若p1≥py,则认为对应测试数据不存在网络入侵;
41.若p1<py,则进入步骤s5进行进一步判断;
42.其中py为预设值,在本发明的一个实施例中,所述py取值为40%;
43.s5、按照p1至pk的顺序选用对应子数据集对应的网络入侵检测模型来对测试数据进行测试,直至根据计算得到的召回率与准确率判断对应测试数据不存在网络入侵或者
44.测试所用网络入侵检测模型对应的pk1≥py成立时或者
45.根据计算得到的召回率与准确率判断对应测试数据存在网络入侵时,停止测试过程。
46.本发明相较于现有技术中的测试方法,能够对不同类型的网络攻击数据进行分别处理,简化数据处理模型中树的数量,提升处理效率,并且能够对测试数据进行初步的识别,避免大量数据一一被导入网络入侵检测模型中进行测试过程,从而进一步有效的提升了数据处理效率。
47.在说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
48.以上内容仅仅是对本发明所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明或者超
越本权利要求书所定义的范围,均应属于本发明的保护范围。
技术特征:
1.基于随机森林算法的网络入侵检测系统,其特征在于,包括:预处理单元,用于获取网络攻击数据,并对其进行预处理,提取网络攻击数据的特征;标签对照单元,用于存储更新个子数据集的特征标签数据,还用于接收实时的测试数据的特征标签,并对测试数据的特征标签与子数据集的特征标签进行对照分析,获取两者的重合度;上述的基于随机森林算法的网络入侵检测系统的工作方法包括步骤:第一步,通过预处理单元获取最近的z个网络攻击数据,并将采集的网络攻击数据作为训练集,提取其中的特征后,根据特征不同生成若干个子数据集;第二步,利用随机森林模型对将上一步骤中处理得到的若干个子数据集分别进行训练,从而得到对应的若干个网络入侵检测模型;第三步,将目标数据输入上一步骤中得到的对应网络入侵检测模型中对应的网络入侵检测模型进行网络入侵检测。2.根据权利要求1所述的基于随机森林算法的网络入侵检测系统,其特征在于,第三步中将目标数据输入上一步骤中得到的对应网络入侵检测模型中对应的网络入侵检测模型进行网络入侵检测的具体方法为:首先确定测试数据所对应的网络入侵检测模型,然后将测试数据导入对应的网络入侵检测模型中进行测试,网络入侵检测模型预测其召回率与准确率,然后再根据召回率与准确率判断是否存在网络入侵。3.根据权利要求2所述的基于随机森林算法的网络入侵检测系统,其特征在于,第二步与第三步中确定测试数据所对应网络入侵检测模型的方法为:s1、将若干个子数据集依次标记为s1、s2、
……
、sk,其中k为子数据集的数量;s2、获取各子数据集的特征标签,并将获取的特征标签存储至标签对照单元;s3、当导入测试数据时,获取测试数据的特征标签,将该特征标签导入标签对照单元进行对比,获取测试数据与各子数据集特征标签的重合度c,所述重合度c的计算方法为c=c1/c2,其中c1为测试数据与各子数据集特征标签的重合数量,c2为测试数据中的特征标签的数量;s4、根据公式p=|c-1|计算得到重合偏差值p,从而获取各子数据集与测试数据之间的重合偏差值p,将各子数据集对应的重合偏差度按照从小到大的顺序进行排序,从而得到p1、p2、
……
、pk;若p1≥py,则认为对应测试数据不存在网络入侵,py为预设值。4.根据权利要求3所述的基于随机森林算法的网络入侵检测系统,其特征在于,若p1<py,则按照p1至pk的顺序选用对应子数据集对应的网络入侵检测模型来对测试数据进行测试,直至根据计算得到的召回率与准确率判断对应测试数据不存在网络入侵或者测试所用网络入侵检测模型对应的pk1≥py成立时或者根据计算得到的召回率与准确率判断对应测试数据存在网络入侵时,停止测试过程。5.根据权利要求4所述的基于随机森林算法的网络入侵检测系统,其特征在于,所述py取值为40%。
技术总结
本发明公开了一种基于随机森林算法的网络入侵检测系统,属于网络安全技术领域,该系统包括预处理单元,用于获取网络攻击数据,并对其进行预处理,提取网络攻击数据的特征;还包括标签对照单元,用于存储更新个子数据集的特征标签数据,接收实时的测试数据的特征标签,并对测试数据的特征标签与子数据集的特征标签进行对照分析,获取两者的重合度。相较于现有技术中的测试方法,能够对不同类型的网络攻击数据进行分别处理,简化数据处理模型中树的数量,提升处理效率,并且能够对测试数据进行初步的识别,避免大量数据一一被导入网络入侵检测模型中进行测试过程,从而进一步有效的提升了数据处理效率。提升了数据处理效率。