数据库技术Databa Technology
电子技术与软件工程
Electronic Technology & Software Engineering 基于XGBoost和L S T M的智能监控系统研究
赵春生1梅松1张双江2郭超2
(1.中华人民共和国南京海关江苏省南京市210001 2.南京大学江苏省南京市210093 )
摘要:本文对基于XGBoost和L S T M的智能监控系统进行研究,阐述了异常检测和趋势预测的实现,将智能监控系统与传统固定阈 值报警进行实验对比,并观察数据的真实趋势和预测趋势,研究结果表明本文提出的智能监控系统可以提高异常检测的准确率,趋势预测 效果较好。
关键词:LSTM;XGBoost;异常检测;趋势预测
1引言
海关由于机构特殊性,工作过程中拥有数量庞大的监控服务器,海量监控数据和数据之间的错综复杂的联系增加了海关运维人员的 压力。运维人员需要自行设置报警阈值,而且持续监测资源使用情 况,及时协调资源以确保系统正常运行。
carnival ride
目前大多数监控系统普遍采用设置固定阈值的方式检测异常,由于不同监控服务器之间的差异性与各个监测指标的相似性,使用 上述方法误报和漏报会频繁出现。此外,对异常的趋势预测功能还 不健全,系统问题和资源瓶颈问题时常发生,对监控数据的异常检 测和趋势预测的研究分析效果十分不理想。
本文设计了一个基于X G B o o s t和L S T M的智能监控系统,使 用孤立森林算法完成数据标注预处理工作,引入X G B o o s t算法进 行异常检测,采用L S T M神经网络进行趋势预测,该系统不断迭代 更新数据标签并重置模型,以此提高异常检测和趋势预测的准确率,以满足新时代新海关智能监控工作的需要。
表1:X G B o o s t算法初始参数值
床头柜英文
参数名参数值参数名参数值booster gbtree verbosity0 objective binary.logistic m a x d e p t h9 subsample0.6eta0.6 lambda9m i n c h i l d—weight3
evals['error,,‘a u c* ,<r m s e,]g a m m a0
2相关技术
2. 1孤立森林算法概述
孤立森林(简称iForest)—种异常检测方法|1],是一种无监督 学习算法,主要针对于连续程度高的结构化数据。该算法距离与密 度无关,所以它无需负担距离和密度计算成本。在iForest算法中,异常点被定义为”隔绝的孤立点”,指的是分布稀疏且跟样本中大
如较大畸变的边缘区域、有部分物体遮挡的区域等,全图检测不仅 会影响到检测效果,而且会引入不必要的算力消耗。因此,本系统 设计了掩码绘制功能,如图2所示。
由于监控场景往往是不变的,所以直接采用视频的首帧来作为 掩码绘制的背景。掩码绘制界面采用类似涂鸦板的绘制方式,通过 鼠标点击来进行涂抹,挡住不需要的区域,并提供掩码绘制线宽及 擦除功能。
3.2.2阈值设置
为辅助管理人员及时发现旅客密度过大区域,以便进行人为干 预,避免突发事件发生,以及应对因不同的场合下对旅客密度管控 预警要求的不同,本系统设计了旅客密度阈值设置功能。如图3所7J n〇
当旅客密度超出设定阈值后,视频将在相应的位置上标注红色 方框进行提示,提醒安保人员注意该区域。
3. 3系统界面
界面右侧为密度热力图,颜色越趋近于红色说明人数越多。为 了便于管理人员理解和使用热力图,设置广两种显示风格:即纯热 力图显示及热力图叠加显示,如图4、5所示。
4结论
本文在充分分析航站楼对于旅客密度检测需求的基础上,研宄 设计了一套基于深度学习的航站楼旅客密度分析系统,利用机场航 站楼监控视频,实现航站楼各区域的旅客密度监测与分析任务,能 为管理人员提供有效实时的航站楼各区域旅客密度数据,及时发现 人群异常聚集区域,协同巡检人员疏导聚集旅客,提高航站楼安全 保障效率。参考文献
[1] Deepak Babu Sam,Shiv Surya,and R Venkatesh Babu.indicated
Switching convolutional neural network for crowd counting.In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,volume1,page 6,2017.
[2] Anran Zhang,Jiayi Shen,Zehao Xiao,Fan Zhu,Xiantong
Zhen,Xianbin Cao,Ling Shao.Relational Attention Network for Crowd Counting.ICCV2019,pp.6788-6797
[3] Yingy ing,Zhang Den,Zhou Siqin,Chen Shenghua,
Gao Yi Ma.Single-Image Crowd Counting via Multi- Co1umn C o n v o l u t i o n a l Neural N e t w o r k.The IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016, pp.589-597
[4] 张在川.浅析智能视频监控系统在枢纽机场航站楼建设中的应
用[J].网络安全技术与应用,2020 (09): 137-138.
chowder作者简介
关华( 1972-),男,满族,黑龙江省哈尔滨市人,硕士学位,工
程师.研究方向为飞机发动机。
刘冬华( 1976-),女,河南省永城市人。硕士学位,工程师。研
究方向为微电子。
万好( 1986-)(通讯作者),男,江西省南昌市人。工程师。研
究方向为机械制造及其自动化。
庞粤鸿( 1986-),男,广东省湛江市人。大学本科学历。研究方
向为公共关系。
156
电子技术与软件工程
Electronic Technology & Software Engineering
数据库技术
Databa Technology 表2: m a x d e p t h参数实验
m a x depth345678910精确率0.91430.91860.90760.89660.90450.89180.88030.8649召回率0.83050.84020.83990.88700.88320.88380.88210.8967
f i值0.87040.87770.87240.89180.89370.88780.88120.8805
表3: e t a参数实验
apologize是什么意思
eta0.010.0250.050.100.150.200.250.30精确率0.92910.90720.89660.89680.89220.89950.88220.8613召回率0.84030.83240.86880.89090.88470.8
8910.88540.8760
f i值0.88250.86820.88250.89380.88840.89430.88380.8686
表4: X G B o o s t算法在该模型的最优参数值
参数名参数值参数名参数值
booster gbtree verbosity0
objective binary:logistic m a x d e p t h7
subsample0.6eta0.2
lambda9m i n c h i l d w e i g h t2
evals[*error’ ,<a u c, ,<r m s e,]g a m m a1
表5:异常检测效果对比表
报警来源报警总次数异常次数正常次数漏报次数准确率
固定阈值报警178********.06%
智能监控系统
报警
162137253884.57%
表6:异常检测结果表
数据集名称数据量精确率召回率fl
A服务器数据库磁盘使用大小194530.900.810.85
A服务器磁盘平均每秒写入统计246430.850.890.87
B服务器磁盘写I O的平均时间260960.980.850.91
B服务器磁盘读丨0的平均时间150100.980.850.91
C服务器磁盘平均每秒读取统计357780.880.860.87
C服务器内存使用量382120.990.960.98
表7:趋势预测效果表
ukba
数据集名称均方根
误差
数据集名称
均方根
误差
A服务器磁盘使用率 5.69A服务器内存使用率 4.34
B服务器网络流入22.32B服务器内存使用率 5.66
C服务器进程数15.64C服务器内存使用率 5.11消息队列数15.78M y S Q L连接数22.45
多数据不一样的点。假设一个区域范围内只有上述分布稀疏的点,在统计学意义上可以认为这个区域
范围内的数据是异常的。iForest 算法时间的复杂度为线性,对空间的需求少量而且较为恒定,能够 快速处理大数据集并具有解决高维数据的能力。
2. 2X G B o o s t算法概述
极端梯度提升(简称X G B o o s t)是•种集成学习且基于弱学习 器的算法*[2]。假设应用于分类问题上,分类器的分类精度大于半数 的分类器就可认为是弱分类器。弱分类器定义为分类精度略好于随 机预测,但是准确率不过分高。X G B o o s t算法核心在于不断进行特 征分裂添加树,用来拟合预测的残差。X G B o o s t由很多分类回归树 的集成组合,以期获得更强的泛化能力w。机器学习领域中的决策 树主要为两类:一类是分类树;另一类是回归树。分类树和回归树 的总称为C A R T,事实上分类与回归问题本质是一致的,都是根据样本特征和标签得到某种映射关系,只是结果类型不同。
2. 3L S T M神经网络概述
长短期记忆人工神经网络(简称L S T M)是对循环神经网络 (简称R N N)的改进算法,由Hochreiter等人在1997年提出,被 用来解决长期依赖问题141。与R N N相比,为了解决长期依赖问题,L S T M加入了隐藏神经元结构,可以记忆长期的信息。L S T M算法 通过长期时间序列之间的关系,可以准确预测发展趋势。因此趋势 预测的研究广泛使用L S T M,如预测降雨量、预测疾病、预测人体 轨迹情况等。
3异常检测和趋势预测
在海量的系统日志数据中,通常异常数据稀疏分布在数据中,难以对异常数据进行获取并捕获异常数据的特征,这直接导致数据 标注不平衡。为了解决此问题,本文使用iForest算法先对数据预 处理,且进行标注作为数据基础。异常检测和趋势预测中,需要进 行预处理数据标注对每个数据标定对应的标签,并通过迭代替换更 新标签不断提高异常检测和趋势预测的效率。
3.1 X G B o o s t模型构建
X G B o o s t被用于训练异常检测模型,历史数据对模型进行训练,而后用模型进行异常检测,从而大量提高工作人员设置大量参数的 工作效率,提高异常检测的准确率,减少失误和遗漏。
X G B o o s t算法模型包含大量参数,设置恰当的参数是决定数据 异常检测准确率的关键。通过模型训练确定X G B o o s t算法模型最 适参数,降低异常检测的遗漏率。训练数据集选取某服务器2020 年2月25日至2020年5月15日共150217条和C P U使用率与内 存使用率的数据。使用iForest进行数据标注预处理,将数据集进 行划分10份,3份作为测试集,7份作为训练集。训练中数据集不 会改变,因此数据的一致性会得到保证。
在实验进行之前,必须设定初始参数,并在实验中对参数进 行逐步调整。设定模型初始参数如表1所
示,设置booster助推器 选用gbtree解决分类问题。verbosity参数表示模型运行的信息数 量。objective参数阐述了是二元逻辑回归,数据划分为两种。m a x_ d e p t h表示树的最大深度。s u b s a m p l e是指子样本占全部样本的比例。ev a l s参数表不模型的效果,m i n_child_w e i g h t参数是树中叶子的最 小权重,m i n_child_weight、l a m b d a、g a m m a和 eta进行模型控制,防止过拟合。
3.1.1设定最优迭代次数
模型训练过程中创建多少棵树的数量等于迭代次数,准确率 低代表迭代次数不够,次数过多则会过拟合。根据经验设置模型第 一次训练的迭代次数为10000次,参数early_stopping_r o u n d设置 为1000,如果测试集的错误率在连续1000次迭代中都没有降低,即可确定最优迭代次数。结果显示,算法模型从166到1166次迭
157
数据库技术Databa Technology
电子技术与软件工程Electronic Technology & Software Engineering
代的测试集错误率都没有降低,W此确定算法模型最优迭代次数为 166〇
3.1.2设定树的最大深度
树的最大深度m a x_d ep t h的取值尤为关键,如果深度太大会造 成过拟合状态,如果深度太小而会分类不完全。实验时首先使用控 制变量,通过比较不同的m a x_d ep t h的取值对模型准确率的影响,得出m a x d e p t h最优取值。实验中选择本文研究比较关注的精确率、召回率和f l值作为判断的依据。由经验可知m a x_d e p t h —般取值 为[3,10],表2展示不同m a x d e p t h的实验结果,结果显示当m a x_
d e p t h为7时模型准确率最高。
3.1.3设定步长
步长参数用于降低数据特征权重,预防过拟合。由经验可知 e t a取值范围为[0.01,0.3]。使用控制变量法固定其他参数的取值(m a x_d e p t h设置为7),通过对比精确率、召回率和f l值得出eta 参数的最优取值。表3表明,最优e t a参数值为0.20。
重复实验过程,并为最终确定最佳参数设定,所有参数表4,通过多次训练模型应用与其他数据集,发现模沏效果相近,所以表 4中的参数作为异常检测模型采用的最优参数。
3. 2L S T M趋势预测
本文采用L S T M神经网络算法对数据进行趋势预测,提供准确 的趋势预测功能。L S T M是•种对R N N进行改进的算法,主要是 为了解决长期依赖问题。趋势预测是使用某监控项指标M近•段时 间的值,通过此刻的指标计算,进行预测,直到预测出未来时间点 的值时停止。此外,还可以为不同的监控项建立不同的趋势预测模 型,模型之间相互独立。通过预测监测数据的变化,工作人员可以 预测服务器的未来资源发展方向,预先调整服务器资源,提高系统 效率和用户使用体验。
为了应对服务器集群中不同异常检测和趋势预测,最终训练不 同的模型群,特定模型适应与特迠服务器数据,从而达到模型解耦。模型使用中,可以进行熏置模型,并且数据重新进行数据标注,不断调整模型提高模型的质量。
4实验
本文以异常检测的准确率来评估异常检测效果,区别于传统同 定阈值报警,对本文研究的异常检测进行评估。以真实趋势走向评 估预测结果。
4. 1异常检测评估
评估异常检测优劣的标准是准确率和漏报率。60天内系统报 警情况展示于表5。
表5展示,60天范刚内,采用固定阈值报警产生了 178次报醫,其中准确率为55.06%,遗漏69次。而
加农系统产生了 162次报警,其中准确率为84.57%,遗漏38次。通过对比可以得出,智能监控 系统减少了 31次漏报,减少了 44.93%漏报,提升了 29.51%的准 确率。
系统正常运行时,选择了六个数据集进行检测,查看异常检测 的精确率、召回率和f l值。表6是对6个数据集的异常检测结果。
由表6可知,智能监控系统对随机挑选的6个数据集的异常检 测结果的f l值都可以达到0.85。综合表5和表6可见,智能监控 系统可以准确地对实时监控数据进行异常检测,提高异常报警准确 率,减少误报和漏报。
4.2趋势预测评估
评估系统趋势预测的准确率。选择8个数据集进行预测,计I?:
每次数值的均方根误差,衡量准确性。表7展示的是数据集的趋势
预测值与真实值之间的均方根误差值。
表7显示8个数据集的趋势预测值与真实值之间的均方根误差
值平均为12.12,该值较小。由此可见,本文所设计系统能较为准
确的预测趋势。
对比上述实验结果可以证明,本文研究的智能监控系统可以提
供准确的异常检测与趋势预测功能,提高异常检测和趋势预测的准
确率。
5小结
本文提出了一个基于X G B o o s t和L S T M的智能监控系统,具
有监控项异常检测和对监控项指标进行趋势预测的功能。实验证明,
此智能监控系统可以提高异常检测的准确率,减少误报和漏报,并
可以提供较好的趋势预测功能。但是其中仍然存在一定的问题,主
要包括四点:
bubbles(1)研究中我们主要对单个维度进行异常检测,单维度相较 于多维度检测的结果更不具说服力,可采用多维度检测提高异常检
测的准确率,例如同时采用内存使用率和C P U使用率两个维度的
数据进行异常检测;
(2)研究中的X G B o o s t算法采用level-w i s e生成决策树,同时分裂同一层的叶子,从而进行多线程优化,这样会带来很多不必
要的开销,可以使用L i g h t G B M算法解决X G B o o s t的开销问题;
(3)异常检测这•技术的表现效果与实际的运用场景有较大 关系,有可能检测的“异常”未必符合实际场景中的真正异常的
定义,因此在特征选择时,要尽量过滤不相关的特征,增加类似于
时间的维度特征以保证异常检测的准确率;
(4)数据取样的量级不足会产生同真实情况的偏差,对于数 据不足的情况,可以采用数据扩增技术基于己有数据生成更多的有
效数据,以解决数据取样过少的问题。
虽然提出的智能监控系统还存在亟待解决的问题,但是随着海
关监控数据的日益剧增,智能监控系统采用异常检测和趋势预测的
方式,对海关监控数据进行准确的异常报警以及风险预测仍具有重
要的现实意义。
参考文献
[1] F.T.L i u,K.M.T i n g,Z.Z h o u,孤立森林,in:IEEE数据
挖掘国际会议,2008, 413-422.
[2] T.C h e n,C.G u e s t r i n,X G B o o s t:—个有延展性的端到端的树
提升系统,in:国际知识发现与数据挖掘会议,2016, 785-794.
[3] M.T u r e,F.T o k a t l i,I.K u r t,应用 K a p l a n-M e i e r 分析和决
策树方法(C&R T、C H A I D、Q U E S T、C4.5和I D3)确定乳腺癌患
者无复发生存率,专家系统与应用,2009.
[4] A.P u l v e r,S.L y u,工作记忆与L S T M,in:国际神经网络联合
大会,2017, 845-851.
作者简介
darksiders赵春生( 1973-),男,江苏省东台市人。硕士学位。南京海关科
技处副处长,高级工程师。young18一19year中国
梅松( 1978-),男,江苏省淮安市人。学士学位。南京海关科技
处调研员,高级工程师。
张双江( 1994-),男,湖北省枝江市人。硕士学位,南京大学。
研究方向为智能运维。
乌兔郭超( 1997-),男,江西省赣州市人。硕士学位,南京大学软件
学院学生。研究方向为软件测试。
158