基于改进鲸鱼优化算法的GBDT回归预测模型

更新时间:2023-05-20 10:21:28 阅读: 评论:0

黄晓明公开减肥秘籍第60卷 第2期吉林大学学报(理学版)
V o l .60 N o .2
2022年3月
J o u r n a l o f J i l i nU n i v e r s i t y (
S c i e n c eE d i t i o n )M a r  2022
d o i :10.13413/j .c n k i .j
d x b l x b .2021178基于改进鲸鱼优化算法的G B D T 回归预测模型
王彦琦1,张 强1,朱刘涛1,袁和平2
(1.东北石油大学计算机与信息技术学院,黑龙江大庆163318;2.大庆油田有限责任公司第五采油厂,黑龙江大庆163513
jack nicklaus)摘要:针对梯度提升决策树(g r a d i e n tb o o s t i n g d
e c i s i o nt r e e ,G B D T )参数难以选择的问题,提出一种基于改进鲸鱼优化算法(i m p r o v e dw h a l eo p t i m i z a t i o na l g o r i t h m ,I WO A )的G B D T 回归预测算法.首先,提出一种改进的鲸鱼优化算法,利用混沌映射初始化种群提高种群多样性,引入惯性权重与差分进化算法中的变异交叉策略解决迭代后期易陷入局部最优的问题;其次,利用I WO A 对G B D T 的关键参数寻优,避免参数选择的盲目性,提高回归预测模型的泛化能力;最后,建立I WO A -G B D T 回归预测模型,并利用U C I 数据集对模型进行验证.实验结果表明,相比于决策树㊁支持向量机㊁A d a b o o s t 和G B D T 算法,该模型算法具有更好的拟合效果,并有一定的实用价值.
关键词:梯度提升决策树;鲸鱼优化算法;集成学习;回归预测
中图分类号:T P 18  文献标志码:A  文章编号:1671-5489(2022)02-0401-08
G B D TR e g
r e s s i o nP r e d i c t i o n M o d e l B a s e d o n I m p r o v e d W h a l eO p t i m i z a t i o nA l g
o r i t h m WA N G Y a n q i 1,Z H A N G Q i a n g 1,Z HU L i u t a o 1,Y U A N H e p i n g
2
(1.S c h o o l o f C o m p u t e r a n dI n f o r m a t i o nT e c h n o l o g y ,N o r t h e a s t P e t r o l e u m U n i v e r s i t y ,
D a q i n g 163318,H e i l o n g j i a n g P
r o v i n c e ,C h i n a ;2.F i f t hO i lP r o d u c t i o nP l a n t ,D a q i n g O i l f i e l dL i m i t e dC o m p a n y ,D a q i n g 163513,H e i l o n g j i a n g P
r o v i n c e ,C h i n a )收稿日期:2021-05-08.
第一作者简介:王彦琦(1998 ),女,汉族,硕士研究生,从事智能应用技术的研究,E -m a i l :w y a n q i i @163.c o m.通信作者简介:张 强(1982 ),男,汉族,博士,教授,从事智能进化算法和神经网络方面的研究,E -m a i l :d q p i _z q @163.c o m.基金项目:国家自然科学基金(批准号:61702093)㊁黑龙江省自然科学基金(批准号:F 2018003)
和黑龙江省博士后专项经费项目(批准号:L B H -Q 20077).
A b s t r a c t :A i m i n g a t t h e p r o b l e mt h a t i tw a sd i f f i c u l t t os e l e c t t h e p a r a m e t e r so f g r a d i e n tb o o s t i n g
d e c i s i o n t r e e (G B D T ),w e p r o p o s e d aG B D Tr e g r e s s i o n p r e d i c t i o n a l g o r i t h mb a s e d o n i m p
r o v e dw h a l e o p t i m i z a t i o n a l g o r i t h m (I WO A ).F i r s t l y ,a n i m p r o v e dw h a l eo p t i m i z a t i o na l g o r i t h m w a s p r o p
o s e d ,w h i c h i n i t i a l i z e d t h e p o p u l a t i o nb y u s i n g c h a o t i cm a p p i n g t o i m p r o v e t h ed i v e r s i t y o f t h e p o p
u l a t i o n ,a n d t h e i n e r t i a lw e i g h ta n dt h e m u t a t i o nc r o s s o v e rs t r a t e g y o fd i f f e r e n t i a l e v o l u t i o na l g
o r i t h m w e r e i n t r o d u c e d t o s o l v e t h e p r o b l e mt h a t i tw a s e a s y t o f a l l i n t o t h e l o c a l o p t i m i z a t i o n i n t h e l a t e r s t a g
e o
f i t e r a t i o n .S e c o n d l y ,I WO A w a su s e dt oo p t i m i z et h ek e y p a r a m e t e r so ft h e G B D T t oa v o i dt h e b l i n d n e s s o f p a r a m e t e rs e l e c t i o na n di m p r o v et h e
g e n e r a l i z a t i o na b i l i t y o f t
h er e g
r e s s i o n p r e d i c t i o n m o d e l .F i n a l l y ,t h e I WO A -G B D Tr e g r e s s i o n p r e d i c t i o nm o d e l w a s e s t a b l i s h e d a n d v e r i f i e d b y
t h eU C I d a t a s e t .T h ee x p e r i m e n t a l r e s u l t ss h o wt h a t c o m p a r e d w i t hd e c i s i o nt r e e ,s u p p
o r tv e c t o r m a c h i n e ,A d a b o o s t a n dG B D Ta l g o r i t h m s ,t h e p r o p o s e d m o d e l a l g o r i t h m h a sb e t t e r f i t t i n g e
f f e c ta n dc e r t a i n
p
r a c t i c a l v a l u e .K e y
w o r d s :g r a d i e n t b o o s t i n g d e c i s i o n t r e e ;w h a l e o p t i m i z a t i o n a l g o r i t h m ;e n s e m b l e l e a r n i n g ;r e g
r e s s i o n p r e d i c t i o n 回归问题本质上是函数空间的优化问题[
1]
,目的是找到从输入变量到输出变量的映射关系,求出输出变量关于输入变量的函数,使损失函数的期望最优.解决回归问题的常用机器学习算法有支持向
量机[2]㊁神经网络[3-4]㊁决策树[5]等,目前已应用到疾病预测㊁股票预测㊁电力负载[6
]等领域.这些单
一的方法在针对某些特定的场景性能都较好,但仍存在一定的局限性,如泛化性较弱等,集成学习方法在一定程度上改善了这类问题,它通过训练多个弱学习器,将弱学习器结合成强学习器,从而降低
误差,提高模型泛化性[
7
],目前已成为机器学习领域的研究热点之一.梯度提升决策树(g r a d i e n t b o o s t i n g d
e c i s i o n t r e e ,G B D T )相比于支持向量机㊁决策树等算法,能充分考虑到每个弱学习器的权重,同时具有更高的准确率和稳定性,目前已广泛应用于各领域的预测研究中.尽管G B D T 的应用性在许多案例中都得到了肯定,但其参数的选择对模型的精度影响较大,
会导致模型在回归预测中无法达到最优拟合效果.廖璐等[8]利用交叉验证法确定模型的重要参数,以
列车的车站晚点偏差值为自变量建立列车晚点时长预测模型,对比默认参数的模型预测结果,调参后
预测精度更高,性能更优;C u i 等[9]提出了一种新的网格搜索算法提高模型训练过程中参数优化的效率;谷宇峰等[10]选用粒子群算法解决较多超参数导致训练模型难以最优化的问题,构建了P S O -G B D T
岩性识别模型,解决了致密砂岩储集层岩性识别的问题.
为更好地解决G B D T 算法参数难以选择的问题,本文提出一种利用改进鲸鱼优化算法对其关键参
数进行寻优的回归预测算法.首先在鲸鱼优化算法的基础上利用混沌映射产生初始解,引入惯性权重与差分进化算法中的变异交叉策略,避免算法陷入局部最优.然后利用改进的鲸鱼优化算法对G B D T
关键参数进行寻优,从而提高其对样本的拟合精度.
1 梯度提升决策树原理
梯度提升决策树模型[11]
是一种基于集成学习 B o o s t i n g
思想的采用加法模型和前向分布算法相结合的迭代决策树模型,它以C A R T (c l a s s i f i c a t i o na n d r e g r e s s i o n t r e e )决策树作为弱学习器,利用前一轮弱学习器的残差(损失函数的负梯度值)训练本轮弱学习器,并对训练集的权值进行更新,最后通过
对每轮训练得到的弱学习器加权求和得到强学习器[12].算法基本步骤如下.
输入:数据集D ={(x 1,y 1),(x 2,y 2), ,(x n ,y
n )},最大迭代次数(基学习器个数)M ,损失函数L (x ,f (
x ));输出:强学习器F (x )
;1
)初始化,估计一个使损失函数极小化的常数值c ,此时构建了只有一个根节点的树,表示为f 0(x )=a r g m i n c
ðn
i =1L (y i ,c );(1
)  2)开始迭代,构建M 棵树,迭代次数m =1,2, ,M ;①对样本i =1,2, ,n ,计算损失函数的负梯度并作为残差的估计值:
r m i =-∂L (y i ,f m -1(x i ))∂f m -1(
x i );(2)  ②利用(x i ,r m i )拟合第m 棵回归树,得到第m 棵树的叶子节点区域为R m j (
j =1,2, ,J m ),J 为第m 棵回归树的叶子节点个数;
③对于叶子节点区域j =1,2, ,J m ,计算每个叶子节点的最佳拟合值,使得损失函数极小化为
c m j =
a r g m i n ðx i ɪR m j
L (y i ,f m -1(x i )+c ),(3
)其中y i 为第j 个叶子节点的样本x i 观测值,f m -1(x i )为第j 个叶子节点的样本x i 在上一棵树上的预测值,c m j 为第j 个叶子节点的y
i 与f m -1(x i )之间的最小误差;204  吉林大学学报(理学版)  第60卷
④更新本轮模型为
f m (x )=f m -1(x )+ðJ
j =1
c m j I ,  x ɪR m j ,
own怎么读(4
)其中I 为一个函数,若样本x i 在R m j 上,则I
=1;否则I =0;3
)进行迭代,直到达到所预期的基学习器个数,得到最终的强学习器为F (x )=f 0(x )+ðM
m =1ðJ
j =1
c m j I ,  x ɪR m j .
(5
)  模型性能的优劣与参数的选取密切相关,合理的参数设定通常可带来一定程度的精度提升,因此
训练模型时还需兼顾参数选择.G B D T 算法建模时涉及的参数主要有学习速率(l e a r n i n g _r a t e ),用于控制学习时参数更新的步长,若步长过大,则学习过程可能会发散,反之,又会导致模型进行太多次迭代,学习时间大幅度增加;最大迭代次数(n _e s t i m a t o r s ),表示基学习器的个数,与l e a r n i n g _r a t e 相互作用,l e a r n i n g _r a t e 较小时,需增加迭代次数,以便使训练误差收敛;子采样(s u b s a m p l e ),用于控制参与拟合的数据集样本比例,设置为小于1时可有效减小整体模型的方差,防止过拟合;决策树最大深度(m a x _d e p t h ),内部节点再划分所需最小样本数(m i n _s a m p l e s _s p l i t )和叶子节点所包含的最少样本数(m i n _s a m p l e s _l e a f ),均是用于控制每棵树的复杂度,具体的取值取决于数据分布,若取值过大,则会使模型结构复杂,易导致过拟合,反之,易导致欠拟合.
2 改进鲸鱼优化算法原理
鲸鱼优化算法(w h a l e o p t i m i z a t i o na l g
o r i t h m ,WO A )是通过模拟座头鲸的狩猎行为而提出的一种新型启发式优化算法[
lso
13
],通过包围捕食㊁螺旋泡泡网攻击和搜索猎物对种群进行多次迭代优化,最终确定当前问题的最优解.WO A 算法原理简单易懂,所需手动调节的参数较少,计算模型简洁,但仍存在局限性,如早熟收敛㊁种群多样性缺失等,会导致算法在后期陷入局部最优[14].针对上述问题,perth是什么意思
本文引入3种改进策略,提出一种改进的鲸鱼优化算法(i m p r o v e d w h a l eo p t i m i z a t i o na l g o r i t h m ,I WO A ).
2.1 混沌映射初始化种群
WO A 算法采用随机初始化种群的方式确定鲸鱼的初始位置,虽然保证了初始位置的随机性,但鲸鱼个体无法在整个搜索空间中均匀分布,从而降低了解的质量.混沌序列具有随机性和遍历性,能
弥补随机初始化导致的缺陷,提高算法性能.文献[15]研究表明,相比于L o g
i s t i c 混沌映射模型,T e n t 混沌映射产生的序列均匀性更好,产生的初始解质量更高,所以本文采用T e n t 混沌映射初始化种群,以保证种群初始位置质量,其计算公式为
X (t +1)=
2X (t ),X (t )<0.5,
各国餐桌礼仪2(1-X (t )),X (t )ȡ0.5{
,
(6
)其中:t 为映射次数;X (t )为第t 次映射函数值,取值为[0,1].
2.2 自适应惯性权重
通过分析泡泡网捕食和随机捕食时鲸鱼的位置更新公式表明,鲸鱼的位置更新受全局最优解和随机解的影响.为增强全局搜索能力和局部搜索能力,本文将惯性权重引入位置更新公式中,这样不仅能受全局最优的引导,还能在局部邻域与其他鲸鱼进行交流.新位置更新公式为
X (t +1)=X *(t )-w A D ,p <0.
5,X *(t )+w
D e b l
c o s (2πl ),p ȡ0.5{
,(7
)X (t +1)=X r a n d (
t )-w A D ,(8)其中X (t +1)为当前解的位置向量,X *(t )为最优解的位置向量,t 为当前迭代次数,A 为系数向量,
D 为最优个体位置与当前个体位置之间的距离,p 为[0,1]内的随机数,b 为对数螺旋形状常数,l 为[-1,1]内的随机数,X r a n d (
t )为当前群体中被随机选中的个体位置向量.通过对各种优化算法[16-18
]的改进研究分析可知:较大的惯性权重有利于跳出局部最优,进行全局dewen
3
04 第2期      王彦琦,等:基于改进鲸鱼优化算法的G B D T 回归预测模型
寻优;较小的惯性权重有利于局部寻优,提高寻优精度.因此,本文引入正弦变化的权重因子控制猎物目标对鲸鱼位置更新的影响,使鲸鱼个体在前期具有较强的全局搜索能力,在后期具有较强的局部开发能力,其计算公式为
w =s i n πt 2t m a x
+æèçö
ø÷π+1,
(9
)其中t m a x 为最大迭代次数.2.3 交叉变异策略
经过上述位置更新后,重新计算当前位置的适应度,并与之前位置的适应度进行比较后择优进入下一次迭代,未对鲸鱼位置进行干扰更新,即存在当前最优个体位置并非全局最优个体位置的可能,随着迭代次数的增加,种群中所有个体都被错误引导,进而使算法陷入局部最优.因此,利用差分进化算法中的变异策略实现个体变异,再将变异个体与目标个体进行交叉,可增加种群多样性,扩大搜索范围,避免算法陷入局部最优.虽然变异交叉产生的新解在一定程度上增强了算法跳出局部最优的能力,但仍不能保证产生的新解一定优于原解,因此需要比较新旧位置的适应度大小,判断是否采用新个体,
其计算公式如下:
V (t +1)=X r 1(t )+F (X r 2(t )-X r 3(t )),(10)U (t +1)=V (t +1),r ɤC R ,
X (t ),r >C R {
,
(11
)X (t +1)=
U (t +1),f (U (t +1))<f (X (t
)),X (t ),f (U (t +1))ȡf
(X (t {
)),(12)其中V (t +1)为变异后的鲸鱼个体位置向量,X r 1(t ),X r 2(t ),X r 3(t )为种群随机个体,F 为缩放因子,U (t +1)为交叉后的鲸鱼个体位置向量,r 为[0,1]内的随机数;C R 为交叉概率.综上可知,I WO A 的寻优流程如图1所示.
图1 I W O A 寻优流程side by side>knockoff
F i g .1 F l o wc h a r t o f I W O Ao p
t i m i z a t i o n 3 I WO A -G B D T 回归预测模型
不同参数组合会使回归预测模型对于同一样本的拟合效果有差异,因此仅根据经验很难设定最佳参数组合.本文采用改进的鲸鱼优化算法对梯度提升决策树的关键参数进行寻优,找到对当前样本拟合度最高的参数组合,从而提高预测精度.首先,通过对比不同参数组合的寻优结果,确定需要寻优的参数为n _e s t i m a t o r s ,l e a r n i n g _r a t e ,s u b s a m p l e ,m a x _d e p t h ,m i n _s a m p l e s _s p l i t ,m i n _s a m p l e s _l e a f ;其次,利用I WO A 对G B D T 关键参数进行寻优,确定最优参数组合;最后,构建I WO A -G B D T 回归
404  吉林大学学报(理学版)  第60卷
预测模型.构建模型步骤如下:
1
)输入数据集,划分训练样本数据和测试样本数据,进行归一化处理;2)初始化算法参数,设定种群规模N ,群体空间维度D ,最大迭代次数t m a x ,对数螺旋形状常数
b ,缩放因子F ,交叉因子C ,关键参数的取值范围等;
3)根据式(6)产生初始种群,根据适应度值函数均方误差(M S E )计算适应度大小,记录种群中适应度值最优的个体及位置;
4)当p <0.5时,若A ȡ1,则根据式(8)更新个体位置信息;若A <1,则根据式(7)更新个体位置信息,计算个体适应度值;
5)当p ȡ0.5时,根据式(7)更新个体位置信息,计算个体适应度值;6)根据式(10)~(12
)对种群位置进行变异㊁交叉㊁选择操作;7
)比较当前个体最优适应度值与群体最优适应度值,更新群体最优个体和位置信息;8
)判断算法是否满足结束条件,若不满足,则返回步骤4)进行下一次迭代;否则,输出最优解和最优个体位置;
9)将得到的最优参数组合赋值给G B D T 模型,利用训练样本数据构建I WO A -G B D T 回归预测模型,并利用测试样本数据验证模型的精确性.
4 实 验
4.1 数据选取
本文采用U C I 数据集作为标准测试数据集,包括美国波士顿房价数据集㊁鱼类毒性数据集㊁翼型自噪声数据集㊁联合循环电厂数据集㊁混凝土抗压强度数据集和游艇水动力学数据集,数据集统计信息列于表1.
表1 数据集统计信息T a b l e 1 D a t a s e t s t a t i s t i c s
4.2 评价指标
采用均方误差(M S E )㊁平均绝对误差(MA E )和R 方值(R 2)3个评价指标评价算法性能.M S E 值越小,表明模型效果越好,其计算公式为
M S E =1m ðm
i =1
(y
i -^y i )2;(13)MA E 值越小,表明模型效果越好,其计算公式为
MA E =1m ðm
i =1
y i -^y i ;
(14
)R 2值越接近1,表明模型效果越好,其计算公式为
R 2=1-
ðm
i =1(cft
y i
-
^y i
)2
ðm
i =1
(
y i
-y )2
.
(15
)其中m 表示样本总数,y 表示真实值的均值,y i 表示第i 个样本的真实值,^y i 表示第i 个样本的预测值.
4.3 实验对比分析
为验证I WO A -G B D T 预测模型的有效性,本文在相同实验环境条件下,使用P y t h o n 进行编程实验.首先,将本文选择的参数组合寻优所得结果与文献[19-21]选择的参数组合寻优所得结果进行对5
04 第2期      王彦琦,等:基于改进鲸鱼优化算法的G B D T 回归预测模型

本文发布于:2023-05-20 10:21:28,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/78/706227.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:算法   模型   参数   数据
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图