本文作者:kaifamei

一种基于黑客画像的网络攻击者识别方法及系统与流程

更新时间:2025-01-10 14:21:32 0条评论

一种基于黑客画像的网络攻击者识别方法及系统与流程



1.本发明涉及网络安全技术领域,尤其涉及一种基于黑客画像的网络攻击者识别方法以及一种基于黑客画像的网络攻击者识别系统。


背景技术:

2.网络空间已成为继海、陆、空、天后的“第五维空间”,成为各国争夺的新战场,网络空间安全已经成为安全布局的不可或缺的一部分。构建安全的网络空间环境,不仅需要对已发生的网络攻击行为进行告警和采取补救措施,更需要对实施攻击行为的攻击者进行身份确认,出隐藏在背后的攻击者,从根源上解决问题。
3.通过发送恶意流量进行的网络攻击是常见的一种攻击形式。据netscout的atlas安全工程和响应团队的研究,仅在2021年第一季度就发生了290万起分布式拒绝服务攻击(distributed denial of service,ddos)攻击事件,比2020年同期增长了31%,被攻击的行业包括医疗、教育、在线服务等多个领域。并且该团队预测,在今后ddos攻击将继续增加,达到破纪录的数量,而且在范围上越来越复杂。
4.因此,如何准确地在海量的流量数据中识别出恶意流量,并出发送恶意流量、实施攻击行为背后的黑客,是维持网络空间安全的重要工作。
5.目前,针对网络流量识别的入侵检测研究中,主要通过深度学习方法对网络流量数据进行训练,得到分类器来分辨正常与异常。
6.文献[1](马明艳,陈伟,吴礼发.基于cnn_bilstm网络的入侵检测方法[j].计算机工程与应用: 2022, 58(10):116-124.)使用随机森林的方法首先对unsw0nb15数据集中方的特征进行筛选,然后使用cnn(convolutional neural networks,cnn)和bilstm(bi-directional long short-term memory)并行对特征进行提取,然后将用上述两种模型提取的特征进行拼接,再使用自注意力机制进行特征二次提取,将二次提取后的特征使用门控循环单元(gated recurrent unit, gru)进行分类。文献[2](颜亮,姬少培,刘栋,谢建武.基于gru与特征嵌入的网络入侵检测[j].应用科学学报,2021,39(04):559-568.)提出了基于gru与特征嵌入的网络入侵检测模型,经过词嵌入层映射的向量被构建成连续特征,能够有效提取数据中的时序信息,然后将特征传入gru层,经过两层的全连接层将结果进行输出。文献[3](yang h, wang f. wireless network intrusion detection based on improved convolutional neural network [j]. ieee access, 2019, 7: 64366-64374.)令cnn在二次卷积是保存卷积结果,然后再分别并行执行卷积、池化和全连接,合并特征后使用softmax进行分类。
[0007]
训练过程中,如果特征维度过多会增加计算开销,并且其中的冗余特征对分类结果五明显提升,因此有学者提出特征选择方法来对重要特征进行筛选。文献[4](吴锋. 基于改进鸽优化算法的入侵检测系统特征选择方法[j].西南师范大学学报(自然科学版). 2021, 46(05):140-146.)利用改进的鸽优化算法来对kddcup99和unsw-nb15两个数据集中的特征进行选择,去掉冗余特征,然后使用决策树模型进行分类,在保证分类准确率的前
提下加快了模型的收敛速度。文献[5](selvakumar b, muneeswaran k. firefly algorithm based feature selection for network intrusion detection [j]. computers amp; security, 2019, 81:148-155.)利用萤火虫算法对流量特征进行降维操作,利用c4.5决策树和贝叶斯网络模型对降维后的数据进行训练,得到了更高的检测精度。文献[6](alzubi q m, anbar m, algattan z, et al. intrusion detection system based on a modified binary grey wolf optimization [j]. neural computing and applications, 2020, 32:6125-6137.)提出了一种修正二元灰狼优化算法的特征选择算法,减少了冗余特征,只保留部分关键特征,仿真结果表明经过特征选择后的检测模型在时间和精度上均由于未进行特征选择的模型。
[0008]
上述特征选择方法仅仅是筛选出了不同的特征,无法进一步对特征的隐含关系进行提取,不能形成更加能够对标签进行有效表达的高级重构特征。
[0009]
无论是基于机器学习的方法还是基于深度学习的方法,都只能识别出正常的行为或攻击行为,但是无法出实施攻击行为背后的攻击者。于是有研究者将用户画像技术应用于网络攻击者的识别中。文献[7](洪飞,廖光忠. 基于k-medoide聚类的黑客画像预警模型[j].计算机工程与设计,2021,42(05):1244-1249.)根据安全日志数据提取黑客行为特征构建黑客画像,使用k-medoide聚类方法对黑客画像进行聚类,构建黑客体画像,同时分析每个簇的特征,根据不同的攻击手段给出相应的防御手段。文献[8](赵刚,姚兴仁. 基于用户画像的异常行为检测模型[j]. 信息网络安全, 2017(7):18-24.)从用户的属性和行为两方面出发,构建用户画像,提出基于用户画像的入侵检测模型。文献[9](黄志宏,张波.基于大数据和图社聚类算法的攻击者画像构建[j].计算机应用研究,2021,38(01):232-236.)提出一种基于大数据流式解析技术和louvain社发现算法(big data stream analysis and louvain, bdsal)的构建黑客画像的方法,能够从海量、多源、异构的数据快速范式化成为统一的攻击事件,构建能够准确刻画黑客信息的黑客画像,发现攻击者。
[0010]
上述基于黑客画像的研究中是通过构建黑客画像来识别用户是否是攻击者即黑客,而不是通过黑客画像来确定黑客的身份,并且缺少高效的黑客识别方法,无法快速进行识别。
[0011]
如果仅仅对流量进行入侵检测,能够识别流量中的正常流量与异常流量,但是无法将将发送恶意流量背后的黑客用户出来;如果仅通过黑客画像来识别黑客身份,其时间耗费是巨大的,因为在真实场景中,正常流量数据量要远大于异常流量,而对于正常的流量我们不需要对其进行识别。因此需要将入侵检测与黑客画像技术相结合,首先利用入侵检测技术筛选出网络中的异常流量,然后针对异常流量进行分析、提取特征后,对其进行识别,出发送异常流量背后的黑客用户。
[0012]
但是目前还没有将这两种方法进行结合的研究,无法高效准确地识别出发送异常流量的黑客身份。


技术实现要素:

[0013]
针对上述问题,本发明提供了一种基于黑客画像的网络攻击者识别方法及系统,通过提取黑客的黑客属性标签、流量特征标签、时间特征标签与连接相似性标签,共同构成黑客画像,建立初始黑客画像库,然后对待识别的异常流量数据进行特征提取,通过分析相
同攻击类型黑客间的相似度,提取连接相似性标签,在此基础上,对识别出的异常流量用户构建用户画像,由此对黑客进行精准的刻画,按照相应的异常类型与初始画像库中的黑客进行匹配,提高了黑客识别效率,基于sae-bnn网络模型的异常流量分类器可有效提高模型的泛化能力与识别效果。
[0014]
为实现上述目的,本发明提供了一种基于黑客画像的网络攻击者识别方法,包括:收集网络流量数据,提取所述网络流量数据的流量特征和时间特征作为流量特征数据;对所述流量特征数据进行预处理,并输入基于sae-bnn网络模型构建及训练的异常流量分类器,经过添加有稀疏性限制的隐藏层神经元的稀疏自编码器sae进行编码,并将编码重构后的特征数据作为贝叶斯神经网络bnn的输入,经过前向传播计算以及一维全连接层得到分类结果预测得分,经过softmax函数分类得到正常或异常的分类结果;针对异常流量特征数据,确定所述异常流量特征数据对应的攻击属性特征,并计算所述异常流量特征数据对应的数据连接向量相对于符合当前攻击属性特征的黑客数据的数据连接向量的相似度,得到相似性特征;以所述异常流量特征数据对应的所述流量特征、所述时间特征、所述攻击属性特征和所述相似性特征作为黑客画像,计算所述黑客画像相对于预构建的黑客画像库中相同攻击属性特征画像的相似度;若与某画像的相似度高于预设门限阈值,则判定该画像对应黑客为当前异常流量特征数据的攻击黑客;若与所述黑客画像库中所有画像的相似度均不高于所述预设门限阈值,则将所述黑客画像添加至所述黑客画像库中。
[0015]
在上述技术方案中,优选地,对所述流量特征数据进行预处理的具体过程:将所述流量特征数据转化为数值型特征数据;采用均值方差归一化方法对所述流量特征数据进行标准化处理,使得所述流量特征数据的特征范围处于预设的同一区间;采用borderline-smote过采样算法对所述流量特征数据进行类不平衡数据处理。
[0016]
在上述技术方案中,优选地,所述异常流量分类器的构建及训练方法为:所述异常流量分类器包括所述稀疏自编码器sae和所述贝叶斯神经网络bnn,数据由所述稀疏自编码器sae输入,所述稀疏自编码器sae包括添加有稀疏性限制的隐藏层神经元,所述稀疏自编码器sae编码输出的重构特征数据作为所述贝叶斯神经网络bnn的输入,所述贝叶斯神经网络bnn包括前向传播计算层、一维全连接层和softmax函数层;利用异常流量特征样本数据及对应的正常或异常的分类结果分别作为所述异常流量分类器的输入和输出,对所述异常流量分类器进行训练,直至所述异常流量分类器的分类结果损失值loss达到收敛阈值。
[0017]
在上述技术方案中,优选地,计算所述异常流量特征数据的数据连接向量相对于符合当前攻击属性特征的黑客数据的数据连接向量的相似度的具体过程包括:记录所述异常流量特征数据对应的源ip、源端口、目的ip和目的端口形成该条异常流量特征数据对应的数据连接向量;获取与该条异常流量特征数据相同攻击属性特征的所有异常网络流量样本数据
的数据连接向量;计算该条异常流量特征数据对应的数据连接向量与每条异常流量特征样本数据的数据连接向量的余弦相似度,并将所有的余弦相似度求和取平均,计算得到总连接相似度,根据所述总连接相似度得到所述相似性特征。
[0018]
在上述技术方案中,优选地,所述黑客画像库的预构建过程包括:将异常流量特征样本数据按照攻击属性特征进行分类,提取每条所述异常流量特征样本数据的流量特征和时间特征,计算每条所述异常流量特征样本数据对应的相似性特征;将每条所述异常流量特征样本数据对应的所述流量特征、所述时间特征、所述攻击属性特征和所述相似性特征共同作为当前异常流量特征样本数据对应攻击黑客的黑客画像,添加至所述黑客画像库中。
[0019]
本发明还提出一种基于黑客画像的网络攻击者识别系统,应用于如上述技术方案中任一项公开的基于黑客画像的网络攻击者识别方法,包括:数据特征提取模块,用于收集网络流量数据,提取所述网络流量数据的流量特征和时间特征作为流量特征数据;异常数据分类模块,用于对所述流量特征数据进行预处理,并输入基于sae-bnn网络模型构建及训练的异常流量分类器,经过添加有稀疏性限制的隐藏层神经元的稀疏自编码器sae进行编码,并将编码重构后的特征数据作为贝叶斯神经网络bnn的输入,经过前向传播计算以及一维全连接层得到分类结果预测得分,经过softmax函数分类得到正常或异常的分类结果;数据特征计算模块,用于针对异常流量特征数据,确定所述异常流量特征数据对应的攻击属性特征,并计算所述异常流量特征数据对应的数据连接向量相对于符合当前攻击属性特征的黑客数据的数据连接向量的相似度,得到相似性特征;异常数据匹配模块,用于以所述异常流量特征数据对应的所述流量特征、所述时间特征、所述攻击属性特征和所述相似性特征作为黑客画像,计算所述黑客画像相对于预构建的黑客画像库中相同攻击属性特征画像的相似度;攻击黑客识别模块,用于在与某画像的相似度高于预设门限阈值时,判定该画像对应黑客为当前异常流量特征数据的攻击黑客;还用于在与所述黑客画像库中所有画像的相似度均不高于所述预设门限阈值时,将所述黑客画像添加至所述黑客画像库中。
[0020]
在上述技术方案中,优选地,所述异常数据分类模块对所述流量特征数据进行预处理的具体过程:将所述流量特征数据转化为数值型特征数据;采用均值方差归一化方法对所述流量特征数据进行标准化处理,使得所述流量特征数据的特征范围处于预设的同一区间;采用borderline-smote过采样算法对所述流量特征数据进行类不平衡数据处理。
[0021]
在上述技术方案中,优选地,所述异常流量分类器的构建及训练方法为:所述异常流量分类器包括所述稀疏自编码器sae和所述贝叶斯神经网络bnn,数据由所述稀疏自编码器sae输入,所述稀疏自编码器sae包括添加有稀疏性限制的隐藏层神经元,所述稀疏自编码器sae编码输出的重构特征数据作为所述贝叶斯神经网络bnn的输入,
所述贝叶斯神经网络bnn包括前向传播计算层、一维全连接层和softmax函数层;利用异常流量特征样本数据及对应的正常或异常的分类结果分别作为所述异常流量分类器的输入和输出,对所述异常流量分类器进行训练,直至所述异常流量分类器的分类结果损失值loss达到收敛阈值。
[0022]
在上述技术方案中,优选地,所述数据特征计算模块计算所述异常流量特征数据的数据连接向量相对于符合当前攻击属性特征的黑客数据的数据连接向量的相似度的具体过程包括:记录所述异常流量特征数据对应的源ip、源端口、目的ip和目的端口形成该条异常流量特征数据对应的数据连接向量;获取与该条异常流量特征数据相同攻击属性特征的所有异常流量特征样本数据的数据连接向量;计算该条异常流量特征数据的对应数据连接向量与每条异常流量特征样本数据的数据连接向量的余弦相似度,并将所有的余弦相似度求和取平均,计算得到总连接相似度,根据所述总连接相似度得到所述相似性特征。
[0023]
在上述技术方案中,优选地,所述黑客画像库的预构建过程包括:将异常流量特征样本数据按照攻击属性特征进行分类,提取每条所述异常流量特征样本数据的流量特征和时间特征,计算每条所述异常流量特征样本数据对应的相似性特征;将每条所述异常流量特征样本数据对应的所述流量特征、所述时间特征、所述攻击属性特征和所述相似性特征共同作为当前异常流量特征样本数据对应攻击黑客的黑客画像,添加至所述黑客画像库中。
[0024]
与现有技术相比,本发明的有益效果为:通过提取黑客的黑客属性标签、流量特征标签、时间特征标签与连接相似性标签,共同构成黑客画像,建立初始黑客画像库,然后对待识别的异常流量数据进行特征提取,通过分析相同攻击类型黑客间的相似度,提取连接相似性标签,在此基础上,对识别出的异常流量用户构建用户画像,由此对黑客进行精准的刻画,按照相应的异常类型与初始画像库中的黑客进行匹配,提高了黑客识别效率,基于sae-bnn网络模型的异常流量分类器可有效提高模型的泛化能力与识别效果。
附图说明
[0025]
图1为本发明一种实施例公开的基于黑客画像的网络攻击者识别方法的流程示意图;图2为本发明一种实施例公开的基于sae-bnn网络模型的异常流量分类器的模型结构示意图;图3为本发明一种实施例公开的黑客画像的示例图;图4为本发明一种实施例公开的初始黑客画像库的构建过程示意图;图5为本发明一种实施例公开的基于黑客画像的网络攻击者识别系统的模块示意图。
[0026]
图中,各组件与附图标记之间的对应关系为:1.数据特征提取模块,2.异常数据分类模块,3.数据特征计算模块,4.异常数据匹
配模块,5.攻击黑客识别模块。
具体实施方式
[0027]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0028]
下面结合附图对本发明做进一步的详细描述:如图1所示,根据本发明提供的一种基于黑客画像的网络攻击者识别方法,包括:收集网络流量数据,提取网络流量数据的流量特征和时间特征作为流量特征数据;对流量特征数据进行预处理,并输入基于sae-bnn网络模型构建及训练的异常流量分类器,经过添加有稀疏性限制的隐藏层神经元的稀疏自编码器sae进行编码,并将编码重构后的特征数据作为贝叶斯神经网络bnn的输入,经过前向传播计算以及一维全连接层得到分类结果预测得分,经过softmax函数分类得到正常或异常的分类结果;针对异常流量特征数据,确定异常流量特征数据对应的攻击属性特征,并计算异常流量特征数据对应的数据连接向量相对于符合当前攻击属性特征的黑客数据的数据连接向量的相似度,得到相似性特征;以异常流量特征数据对应的流量特征、时间特征、攻击属性特征和相似性特征作为黑客画像,计算黑客画像相对于预构建的黑客画像库中相同攻击属性特征画像的相似度;若与某画像的相似度高于预设门限阈值,则判定该画像对应黑客为当前异常流量特征数据的攻击黑客;若与黑客画像库中所有画像的相似度均不高于预设门限阈值,则将黑客画像添加至黑客画像库中。
[0029]
在该实施方式中,通过提取黑客的黑客属性标签、流量特征标签、时间特征标签与连接相似性标签,共同构成黑客画像,建立初始黑客画像库,然后对待识别的异常流量数据进行特征提取,通过分析相同攻击类型黑客间的相似度,提取连接相似性标签,在此基础上,对识别出的异常流量用户构建用户画像,由此对黑客进行精准的刻画,按照相应的异常类型与初始画像库中的黑客进行匹配,提高了黑客识别效率,基于sae-bnn网络模型的异常流量分类器可有效提高模型的泛化能力与识别效果。
[0030]
具体地,首先,进行网络流量数据收集,对数据进行特征提取以及预处理后,属于预先经过sae-bnn网络模型训练后的异常流量分类器,分类得到异常流量特征数据,然后对异常流量特征数据构建黑客画像,并与初始黑客画像库中对应相同类型的黑客画像进行匹配,根据匹配结果确定该未知黑客的身份,否则对此黑客构建新的黑客画像,并对黑客画像库进行更新。
[0031]
其中,经过sae-bnn网络模型进行训练,能够得到准确分类出不同异常类型的网络流量数据的异常流量分类器,有效提高网络流量数据的分类效果。
[0032]
在本发明的实施方式中,选用unsw-nb15数据集对网络攻击者识别方法进行实验,
该数据集包含254万条记录,49个特征,9种攻击类型,正常数据占比88%,攻击数据占比12%,具体如下表所示:表1 unsw-nb15数据集通过对现有文献进行总结以及对网络黑客所发送的流量进行深入分析,提取网络流量数据的流量特征与时间特征,具体方法如下:流量特征提取:流量特征具体包括目的端口、目的ip、字节数、协议类型这四项特征。
[0033]
正常用户的目的端口和目的ip存在多样性,而黑客在进行攻击行为时,可能会针对某个ip或端口进行持续攻击,因此目的端口和目的ip呈单一性,与正常用户存在差异。目的ip与目的端口从流量接收者角度体现正常用户与异常用户的差异性。同一用户的操作不同,字节数的大小也不同,而攻击者有时会持续进行同种攻击操作,导致字节数大小相差不大。不同的攻击手段所依赖的协议类型也有所差异。字节数和协议类型能够从流量发送者的角度体现正常用户和异常用户的差异性。
[0034]
时间特征提取:时间特征具体包括流量到达时间与流量持续时间,时间特征能够在时间维度上体现出正常用户和黑客以及不同黑客之间的差异性。
[0035]
来自正常用户的流量一般无明显的规律性,而且流量类型具有多样性,总体符合网络流量分布规律。而来自黑客的攻击流量会集中在某一时间段,而且发送的通常都是同种类型的流量,不符合网络流量分布规律。据此,可以区分是正常流量还是攻击流量。
[0036]
在收集的网络流量数据中,攻击数据要远少于正常数据,部分数据为非数值型数据,因此需要对数据进行预处理,优选地,对流量特征数据进行预处理的具体过程包括:将流量特征数据转化为数值型特征数据;采用均值方差归一化方法对流量特征数据进行标准化处理,使得流量特征数据的特征范围处于预设的同一区间;采用borderline-smote过采样算法对流量特征数据进行类不平衡数据处理。
[0037]
具体地,在实施过程中,处理方式如下:(1)数据类型转化:由于提取的部分特征不是数值型特征,因此需要对这部分数据进行转化。
[0038]
针对目的ip,将字符串类型的ip转化为整形数据。ip地址包含四个字节,每个字节的取值范围为0-225,对每个字节的数字用两位16进制表示,若不足两位则前面补0,得到4个16进制的数字,将其拼接为8位的16进制数字,转换成10进制,即为ip地址的数值表示。例如一个ip地址为192.163.88.5,每个字节用16进制表示为c0,a3,58,05,拼接起来得到16进制数字c0a35805,将此数字转换为10进制为3231930373,即为数值型ip地址。
[0039]
针对协议类型,将不同类型的协议按照出现顺序进行排序,每个协议对应的顺序数字即为此种协议的离散型数值特征。
[0040]
(2)数据标准化:经过转化后的特征之间数值范围相差过大,例如ip地址经转化后数据可能是十万或百万级,但持续时间可能仅是毫秒级,当不同特征的范围相差过大时,会明显影响到分类结果和准确率,因此需要令不同的特征范围处于同一区间。本发明通过均值方差归一化来进行处理,使不同的特征符合均值为0,方差为1的正态分布,均值方差归一化的公式如下所示:其中,x为需要被归一化的值,x
scale
为归一化后的值,μ为均值,s为标准差。
[0041]
(3)类不平衡数据处理:由于数据集中的攻击数据远少于正常数据,存在严重的类不平衡问题,使用不平衡数据训练得到的分类器会使分类结果偏向类样本多的标签,导致分类的准确率虚高。常用的解决数据不平衡的方法有过采样和欠采样。欠采样方法通过去除数据中的多数类样本使正反例数目接近,但是去除的数据中可能包含一些对分类结果影响较大的数据,使分类器丢失一些对多数类样本较为重要的信息。过采样方法通过增加少数类样本使正负例接近,达到平衡。为了避免由于信息缺失可能导致的分类准确率下降的问题,本发明使用过采样方法来解决类不平衡问题。
[0042]
具体地,本发明通过borderline-smote过采样算法对数据集进行类不平衡处理。boederline-smote方法是对smote方法的改进。smote算法的增加少数类样本基本步骤如下:1)对少数类中的每个样本,计算它到所有少数类样本的欧式距离,得到k近邻;2)根据采样倍率n,对于每个少数类样本x,从其k近邻中随机选择若干个样本y;3)对于每个样本x和近邻样本y,通过下式合成新样本。
[0043]
其中为合成的样本点,rand(0,1)为0~1之间的随机值,|x-y|为两点间的距离。
[0044]
smote算法没有考虑到周围样本的情况。如果周围样本大多为少数类样本,那么合成的新样本中有效信息不多;如果周围样本大多为多数类样本,那么合成的样本点可能是噪声,影响分类结果。
[0045]
borderline-smote方法将少数类样本分为三类,分别为safe类(样本周围一半以
上均为少数类),danger类(样本周围一半以上均为多数类,即边界样本点)和noise类(样本周围均为多数类),borderline-smote方法只会从danger类样本中随机选择,用smote方法合成新样本。与smote方法相比,borderline-smote方法只针对边界样本进行少数类的合成,使合成的少数样本点的分布更加合理,增加的少数类样本更加准确。
[0046]
通过borderline-smote过采样方法增加网络流量数据中的少量负类数据,使正负样例达到平衡,提高模型的分类效果。
[0047]
如图2所示,在上述实施方式中,优选地,异常流量分类器的构建及训练方法为:异常流量分类器包括稀疏自编码器sae和贝叶斯神经网络bnn,经过预处理操作后的流量特征数据由稀疏自编码器sae输入,稀疏自编码器sae包括添加有稀疏性限制的隐藏层神经元,优选为含有两个隐藏层神经元的sae,经过sae的编码得到降维后的对原始数据高效表达的重构特征。
[0048]
接着,稀疏自编码器sae编码输出的重构特征数据转化为分布形式的数据,作为贝叶斯神经网络bnn的输入,贝叶斯神经网络bnn包括前向传播计算层、一维全连接层和softmax函数层,对输入的数据进行前向传播计算,通过隐藏层将特征进行抽象,得到能更好划分不同类型的数据,通过标准一维全连接层(dense层),得到分类结果预测得分,再通过softmax函数对异常流量数据分类,输出分类结果(正常流量或攻击流量)。
[0049]
在该异常流量分类器中,首先对网络流量数据进行初步特征提取,然后通过sae对特征进行编码,进一步优化特征的表达,最后利用bnn对sae提取的特征进行训练,能够有效提高模型的泛化能力与识别效果。其中,sae类似于人脑的工作方式,仅仅刺激某些神经元就可以完成指定的动作,通过对编码器的隐藏层神经元添加稀疏性限制,对隐藏层神经元的大部分输出进行抑制。因此,通过sae提取特征能够压缩输入中的有效信息,提取重要特征。此外,由于贝叶斯神经网络bnn的权重参数为随机变量,并且与传统的神经网络通过损失函数拟合标签的值不同,贝叶斯神经网络拟合后验分布,可以对预测分布进行学习,因而提高了网络模型的鲁棒性与泛化能力。两者结合,能够在提取较低维度特征的前提下,提高异常流量识别效果,并且对每种类型的异常流量均有不错的识别效果。
[0050]
基于上述异常流量分类器的网络模型结构,利用异常流量特征样本数据及对应的正常或异常的分类结果分别作为异常流量分类器的输入和输出,对异常流量分类器进行训练,直至异常流量分类器的分类结果损失值loss达到收敛阈值。将某一种攻击流量的标签标记为1,其余标记为0,视为正常数据,构建针对此种异常流量的分类器。对所有异常类型的流量分别训练,得到能够识别不同类型的异常流量分类器。
[0051]
基于上述训练完成的异常流量分类器,将预处理后的流量特征数据输入该分类器,得到正常或异常的分类结果。
[0052]
如图3和图4所示,针对异常流量特征数据,构建初始画像库时,可从训练数据中直接获取攻击类型,作为攻击属性特征;对于待识别的异常流量特征数据,本发明通过为每个攻击类型的数据分别构建分类器,依次对异常流量特征数据进行识别,得到异常流量特征数据的攻击类型,作为攻击属性特征。
[0053]
进一步优选地,通过下式计算目的端口比:
s为相同攻击类型下与此条攻击数据相同的目的端口的个数,d为此攻击类型的数据个数。
[0054]
不同的黑客,其目的端口比值差异通常较为明显,例如黑客对单端口进行扫描攻击时,相同端口数通较多,因而其目的端口比的值会较大。而对多端口进行扫描时,其“目的端口比”的值会较小。因此,“目的端口比”能够有效的区分不同种类的黑客。
[0055]
进一步地,连接相似度的具体计算过程包括:记录一条异常流量特征数据对应的源ip、源端口、目的ip和目的端口,可形成该条异常流量特征数据对应的数据连接向量,记为;获取与该条异常流量特征数据相同攻击属性特征的所有异常网络流量样本数据的数据连接向量,记为;通过下式计算该条异常流量特征数据对应的数据连接向量与每条异常流量特征样本数据的数据连接向量的余弦相似度,得到与的连接相似度simi:通过下式,将所有的(n个)余弦相似度求和取平均,计算得到总连接相似度sim,并根据总连接相似度得到相似性特征:。
[0056]
对恶意流量进行相似性分析,可以得到相似性特征,用来区分不同类型的黑客。而且同一黑客会在不同的时段进行攻击,但是所实施的攻击行为和手段是相同的,因此相似性特征会基本保持一致,所以此特征标签还能够识别出处于不同时段进行攻击的同类型黑客。
[0057]
基于上述实施方式中计算得到的异常流量特征数据对应的流量特征、时间特征、攻击属性特征和相似性特征,共同作为该异常流量特征数据的攻击黑客的黑客画像,在黑客画像库中与相对应的攻击属性特征的黑客,通过计算余弦相似度,得到待检测黑客与黑客画像库中黑客画像的相似度。判断黑客画像相似度的最大值与门限阈值d。如果黑客用户与黑客画像库中的黑客画像相似度大于门限阈值d,则成功匹配,黑客画像库中存在与待识别黑客相同身份的黑客,确定该黑客的身份。
[0058]
如果与该攻击类型中的所有黑客画像都不能成功匹配,则证明此黑客是该攻击类型中的新型黑客,将构建的黑客画像添加到黑客画像库中,对初始黑客画像库进行更新。
[0059]
在上述实施方式中,优选地,黑客画像库的预构建过程包括:将异常流量特征样本数据按照攻击属性特征进行分类,提取每条异常流量特征样本数据的流量特征和时间特征,计算每条异常流量特征样本数据对应的相似性特征;将每条异常流量特征样本数据对应的流量特征、时间特征、攻击属性特征和相似性特征共同作为当前异常流量特征样本数据对应攻击黑客的黑客画像,添加至黑客画像库
中。继续为下一个黑客构建黑客画像,直到每个攻击种类的黑客画像全部添加到黑客画像库中。
[0060]
如图5所示,本发明还提出一种基于黑客画像的网络攻击者识别系统,应用于如上述实施方式中任一项公开的基于黑客画像的网络攻击者识别方法,包括:数据特征提取模块1,用于收集网络流量数据,提取网络流量数据的流量特征和时间特征作为流量特征数据;异常数据分类模块2,用于对流量特征数据进行预处理,并输入基于sae-bnn网络模型构建及训练的异常流量分类器,经过添加有稀疏性限制的隐藏层神经元的稀疏自编码器sae进行编码,并将编码重构后的特征数据作为贝叶斯神经网络bnn的输入,经过前向传播计算以及一维全连接层得到分类结果预测得分,经过softmax函数分类得到正常或异常的分类结果;数据特征计算模块3,用于针对异常流量特征数据,确定异常流量特征数据对应的攻击属性特征,并计算异常流量特征数据对应的数据连接向量相对于符合当前攻击属性特征的黑客数据的数据连接向量的相似度,得到相似性特征;异常数据匹配模块4,用于以异常流量特征数据对应的流量特征、时间特征、攻击属性特征和相似性特征作为黑客画像,计算黑客画像相对于预构建的黑客画像库中相同攻击属性特征画像的相似度;攻击黑客识别模块5,用于在与某画像的相似度高于预设门限阈值时,判定该画像对应黑客为当前异常流量特征数据的攻击黑客;还用于在与黑客画像库中所有画像的相似度均不高于预设门限阈值时,将黑客画像添加至黑客画像库中。
[0061]
在上述实施方式中,优选地,异常数据分类模块2对流量特征数据进行预处理的具体过程:将流量特征数据转化为数值型特征数据;采用均值方差归一化方法对流量特征数据进行标准化处理,使得流量特征数据的特征范围处于预设的同一区间;采用borderline-smote过采样算法对流量特征数据进行类不平衡数据处理。
[0062]
在上述实施方式中,优选地,异常流量分类器的构建及训练方法为:异常流量分类器包括稀疏自编码器sae和贝叶斯神经网络bnn,数据由稀疏自编码器sae输入,稀疏自编码器sae包括添加有稀疏性限制的隐藏层神经元,稀疏自编码器sae编码输出的重构特征数据作为贝叶斯神经网络bnn的输入,贝叶斯神经网络bnn包括前向传播计算层、一维全连接层和softmax函数层;利用异常流量特征样本数据及对应的正常或异常的分类结果分别作为异常流量分类器的输入和输出,对异常流量分类器进行训练,直至异常流量分类器的分类结果损失值loss达到收敛阈值。
[0063]
在上述实施方式中,优选地,数据特征计算模块3计算异常流量特征数据的数据连接向量相对于符合当前攻击属性特征的黑客数据的数据连接向量的相似度的具体过程包括:记录异常流量特征数据对应的源ip、源端口、目的ip和目的端口形成该条异常流量特征数据对应的数据连接向量;
获取与该条异常流量特征数据相同攻击属性特征的所有异常流量特征样本数据的数据连接向量;计算该条异常流量特征数据的对应数据连接向量与每条异常流量特征样本数据的数据连接向量的余弦相似度,并将所有的余弦相似度求和并取平均,计算得到总连接相似度,根据总连接相似度得到相似性特征。
[0064]
在上述实施方式中,优选地,黑客画像库的预构建过程包括:将异常流量特征样本数据按照攻击属性特征进行分类,提取每条异常流量特征样本数据的流量特征和时间特征,计算每条异常流量特征样本数据对应的相似性特征;将每条异常流量特征样本数据对应的流量特征、时间特征、攻击属性特征和相似性特征共同作为当前异常流量特征样本数据对应攻击黑客的黑客画像,添加至黑客画像库中。
[0065]
根据上述实施方式公开的基于黑客画像的网络攻击者识别系统,其应用如上述实施方式公开的基于黑客画像的网络攻击者识别方法,在具体实施过程中,上述各模块按照上述网络攻击者识别方法中的各步骤进行实施,在此不再赘述。
[0066]
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。


文章投稿或转载声明

本文链接:http://www.wtabcd.cn/zhuanli/patent-16-853-0.html

来源:专利查询检索下载-实用文体写作网版权所有,转载请保留出处。本站文章发布于 2022-11-27 21:18:02

发表评论

验证码:
用户名: 密码: 匿名发表
评论列表 (有 条评论
2人围观
参与讨论