第42卷第2期2018年4月
北京交通大学学报
JO U R N A L O F B E IJIN G JIA O T O N G U N IV E R S rrY
Vol.4 2 No.2
Apr. 2018
文章编号:1673-0291 (2018)02-0009-05 D O I: 10.1 1860/j.issn.l 673-029 1.2018.02.002基于GBDT的商品分配层次化预测模型
朱振峰a,b,汤静远a,b,常冬霞a,b,赵耀a,b
(北京交通大学a.计算机与信息技术学院,
b北京市现代信息科学与网络技术重点实验室,北京100044)
摘要:商品预测是使用以往商品信息去估计和推断未来商品的销售趋势,并以此作为对商品进行 合理调配与规划的依据.为实现对商品销售的精确预测,在G B D T基础上,提出了一种层次化集成预测模
型(H G B D T).针对数据表征的高维问题,基于Baggi ng思想,在特征空间构建了该模型,实现对商品的有效描述,以此提高预测模型的性能与泛化能力.在开放数据库上的实验结果验证了本 文模型的有效性.
关键词:决策树;回归模型;G B D T;集成学习
中图分类号:T P181 文献标志码:A
GBDT bad hierarchical model for commodity distribution prediction Z H U Zhenfenga'b jT A N G Jingyuana'b,C H AN G Dongxiaa'h,Z H AO Yaoa'h
(a.School of C om puter and Inform ation T'cchnology,
b.Bcijing Key Laboratory of Advanced Inform ation Science and N etw ork T'cchnology,
Beijing Jiaotong U niversity,Beijing 10004 4 ,China)
Abstract:Commodity prediction us the previous commodity information to estimate and infer the future trends of the commodity,and i t can be ud for carrying out reasonable planning and distribution of commodity. T o achieve accurate forecast of merchandi sales? a commodity distribu
tion prediction model (H G B D T)bad on Gradient Boosting Decision Tree (G B D T) i s propod. To alleviate the problem of dimensionality cur,w e construct a Bagging bad hiera--chical enmble learning model.The temporal-spatial property of commodity i s exploited for characterizing commodity effectively,which i s beneficial to boost the generalization of the learned prediction model. Experimental results on open datat demonstrate the effectiveness of the propod method.
Keywords:decision tree;regression model; gradient boosting decision tree ;enmble learning
商品预测是一种通过统计域数据挖掘解决方来结果的依据.提高预测的准确性可以有效安排生案,包含在结构化和非结构化数据中使用,以确定未 产和减少企业的库存,同时,可以做出信息含量更高
收稿日期=2017-07-13
基金项目:国家自然科学基金(61572068,61532005);教育部新世纪优秀人才支持计划项目(^(:^:丁-13-0661);中央高校基本科研业务费专项资金(2015JBM039)
Foundation item s: National Natural Science Foundation of China( 61572068,61532005); Program for theN ew Century Excellent Talents in Universities of China(NCET-13-0661) ; Fundamental RearchFunds for the Central Universities(2015JBlVI039)第一作者:朱振峰(1974—),男,黑龙江鸡西人,教授,博士.研究方向为计算机视觉、机器学习、图像/视频分析与理解.email:ZhrZh u@liu.
edu.
引用格式:朱振峰.汤静远.常冬霞.等.基于G B D T的商品分配层次化预测模型北京交通大学学报.2018.42(2): 9 — 3._ Z H U Zhenfeng,T A N G iingyuan,CHANG Doiigxia, t a.B D T b a e d hirarcliicai m o d l for commodity d itrib t o i l pedictioii
LJj.Joi-irnai of Beijing Jiaotong University, 2018, 42():,9—13. (in (.'hiiie)
10北京交通大学学报第42卷
的定价及促销决策,从而提高客户的满意度和企业的竞争力.如在电子商务方面,供应链上的需求预测 可以有效减少不确定因素对供应链绩效的负面影响,便于企业更加合理地分配与规划商品的供应,大 量减少成本的输出.因此,基于商品的历史销售信息,建立有效的商品分配预测模型具有很好的应用价值.针对预测模型的研究也是数据挖掘领域的热 点研究方向之一.
预测从宏观上看主要分为定性和定量指标预测 分析[1]:定性指标预测分析主要依据分析者的直觉和经验,凭借对过去和现在的延续状况及最新的信息对未来进行预测判断的一种方法;定量指标预测 分析方法主要包括回归分析法和时间序列法.回归 分析法[2]根据变量之间的依存关系,可以分为线性 回归和非线性回归:线性回归包括L a s s o回归 (Least Absolute Shrinkage and Selection Opera-tor)[3]、
支持向量回归(SupportVectorRegression,S V R)[4]和弹性网络(ElasticNet)[5].虽然这类方法简单直观,但难以拟合复杂度较高的数据,使得回归 分析受到了一定的限制.非线性回归包括随机森林(Random Forest,R F)[6]和梯度迭代树(Gradient BoostingDecisionTree,G B D T)[]等•虽然基于树模 型的非线性回归方法表现出了很好的预测性能,但 在模型训练时对训练样本的要求较高,容易造成欠 拟合或者过拟合.除了上述回归模型,近些年基于神 经网络的回归模型也得到了广泛的研究,如有多层 感知机(Multilayer Perception,M L P)[8]和反向传输神经网络(Back Propagation N e twork,BP Network)9].
上述方法中,定性指标预测方法由于具有很强的个人主观性,稳定性差,因而适用性不广;而定量 指标预测方法通过对历史数据的挖掘与分析,能够 有效揭示有关变量之间的规律性联系,从而对需求 做出精准预测.基于Boosting思想的G B D T回归模 型由于低偏差(Bias)的优点,在很多预测问题中得到了广泛的应用[1(-11].但面对高维数据时也易造成 对训练数据过拟合问题.
为解决上述问题,在G B D T的基础上,本文作 者提出了一种层次化的G B D T集成预测模型(Hierarchical G B D T,H G B D T),基于 Bagging 思想在 原始特征空间的随机子空间训练多个独立的G B D T 模型,并进一步通过集成学习方式实现模型聚合,从 而有利于改善模型泛化性能,提高预测精度.
1特征提取和选择
在电子商务方面,商品的需求预测在供应链上起着至关重要的作用,如何对商品的需求进行精准预测也是现在工业界和学术界面临的一个问题.
为便于描述,令X=[X i,X2,…,X?]e R~x"表示总量为N的商品由^组特征共^维进行描述,其中 X’=[x l,a:2,…,:rW ]1 £R NX"'表示维度为 w,的第i组特征集.Y=[;y i,;y2,…,:y w ]1 6 R N表示N 个商品的实际销售值向量.
1.1特征提取
以电商为例,对于某一商品,与之有关的信息通 常包括:商品类型、拍下金额和拍下件数等.基于上 述商品信息,如何实现对商品进行有效表征是建立精准商品预测模型的关键.上述商品信息很好地反 映了商品的时空特性.为此,本文主要基于统计方法 从时空角度来对商品进行表征.对于某一商品x = [r 1 ,r 2,…,r p],构建了如表1所示的表征方法.
表1某一商品特征
Tab.1F eatu res of a com m odity
特征分组特征描述
去冗余x 1去除相关性在0.9以上的维度信息
One-Hot 编码 x 2使用位状态寄存器来对个状态进
行编码,每个时刻只有一位有效
销量占比x 3销量在不同标识中与总销量的比率
销量编码x 4针对销量值的编码
销量变化率x5各标识种类下等长时间段销量的变化率
局部统计特征x6各标识种类下不同大小窗口的销量变化
全局统计特征x7商品出现到截止时间内销量的均值、方差
和中位数
热度编码x8商品从截止日期往前递推时间段内,销量
大于0的连续天数
冷度编码x9商品从截止日期往前递推时间段内,销量
等于0的连续天数
热度窗口编码x 10针对销量阈值的编码
热度时长x11统计超过不同商品件数的天数
频率特征x12平均功率频率和中值频率
奇异值x 13求取加窗信号的傅里叶变换矩阵,求取矩
阵的奇异值
T i]()
1)销量编码
r4为对商品在一定期间销量的二值化编码
〇,Y…[t]<T r
{1,Y…[]>T r
式中:Y…[[表示在第[个时间窗口内的销量,[= 1,…,; T r为销量阈值.
2)热度窗口编码
r 10反映了不同时间段内每天的销量情况,其编码为
[[ ](2)
Y d[]=0
Y d[]=1
式中:Y d[]=1表示第[个时间窗口内每天都有销 量;否则 Y d[]=0,[=1,…,w 〇.
{0,
第2期朱振峰等:基于G B D T 的商品分配层次化预测模型
1.2特征选择
基于商品信息的时空特性,本文提取了共计
户=13组特征.显然,这些特征组之间存在一定的相 关性或冗余.为此,需对其进行进一步的特征选择. 特征选择是指基于某种定量指标从原始特征中选择 出最具代表性的特征,在去除数据冗余的同时达到 数据降维的目的,进一步提高数据的可用性.对于所 选择的特征子集,本文采用如下评价函数对其可用 性做出定量评价为
A N A
L (Y Y ) = ^A s • m ax(y s — y s,0) +
s = 1
A
B s • m a x (y s — y s,0)
(3)
式中:A s 、B S 、y s 、y s分别为商品s 在各地区仓库 的目标库存的补少成本、补多成本、真实销量值和销量预测值;Y 为N 个商品销量的预测值.
具体来说,本文采用的基于前向搜索的特征选 择方法,其算法流程如下.其中,L 6 R t 表示长度为 户的损失函数,L [i ]
、L [j ]
分别表示第i 组和第j ' 组特征对应的损失函数,L
m n
为当前迭代计算时最
小的损失值;F 是临时特征子集用以中间运算,T 为G B D T 模型训练得到的决策树集合,M (b d t 表示
G B D T 模型训练过程.
算法1.前向特征选择
输入:训练集X = [X 1,X
2,…,;f〃] 6 R Nxd ,商品实际销量Y ;输出:经特征选择后,由g 组特征组成集合:^= [X 1,!2,…,
!》]
6 RNxds ;初始化:特征子集X = 0;For m = 1 t() ^L = c •[,,…,1]6 RP U 为充分大的常数);
F o r [ = 1 to ^
A F ^ X ;认识计算机
A i!X ! ^ X
F — [F X !];T — M (bdt (F ,Y)
Y [ = T(Y)L [[ = L (Y ,Y [);End
(L j j ] ,j ) — m in(L );
= = 1
L m in — L jj ];A
X — [X Xj ];el
i r L [j ]<L m n
A
X — [X X j ]End
2
HGBDT 模型
2.1 G B D T 模型
G B D T 是一种由多棵树构成的梯度提升决策
树,最终的预测值是由多棵树的结果进行累加得到 的.G B D T 的核心为后续训练的每一棵树都是学习 前面所有决策树总和的残差,这个残差就是加上预 测值之后得到真实值的一个累加量.G B D T 的算法 流程如下.
算法
2.G B D T 算法
输入:决策树数量N
t ,训练集(X Y ) = {:^,,y ,)}N =1
输出:决策树T = {T ,} & , T ,表示第M
棵决策树
初始化:T = 0 T —使用(X Y )训练决策树Y — T (X )预测结果 T — T U T 1
For u = 2 to N t :
Y e s —Y —Y …—1
Tu —使用(X ,Y e s )训练决策树A A Y , — T ,(X )+ Y ,—1 T — T U T ,
End
2.2
本文提出的H G B D T 模型
手机怎样提高网速环境日是每年的几月几日由于G B D T 训练过程容易产生过拟合问题,本
文作者提出了 H G B D T 模型,通过有效结合 Bagging方法的低方差(Variance)特性及G B D T 的 低偏差特性,从而改善泛化性能,提高预测精度.
如图1所示,对于经过特征选择的每一组特征f 6 X ,j =1,…,g ,基于Bagging集成思想,通过 在原始特征空间以比例a 进行随机采样,生成采样后特征f 〃,从而构造N s 个M (,dt ,得到预测结果y 〃,々=1,…,Ns ;进一步构造M (b d t 得到第j 组特征的预测值y j ;通过Stacking (堆叠)方式,形成 层次化建模.需指出的是,在Stacking集成中,权值
为利用第j 组特征训练模型的误差.
w , = e-L Y ,j //^e -n L(YY>
(4)
k =1
式中:n 为常值;Y j 代表第j 组特征预测的N 件商
品销量值 Y j =y y ,…,y N ]T 6 R N ; y S s (=
胖人穿搭1,…,N )为商品s 使用第j 组特征预测的销量值.
2.3
基于规则的决策
一般情况下,不同类型的商品之间销量值差异 明显,因此商品之间销量的波动范围也有所不同.考 虑到商品销量不同范围的影响,在利用H G B D T 模 型的训练之前,为了防止某些商品的影响,使得其预 测值更符合实际情况,需先利用以下规则尺对商品 进行过滤处理:
2022祝福语
1)
规则尺1:若商品销量在最后4周为0,那
定义该商品的预测值也为0.
2) 规则尺2:若商品首次出现时间在最后4周,
12
北京交通大学学报第42卷
计算该商品从出现幵始的日均销量,进一步用日均
1,说明其销量浮动范围很小,因此本文以一个月销销量乘以时间作为商品销量预测值.
量的平均值作为商品销量的预测值.
3)规则尺3:如果商品销量在一个月内方差小于
3头验结果与分析
3.1实验数据及预处理3.1.1实验数据
为了验证算法的有效性,本文采用阿里巴巴旗 下公幵的电商商品数据进行实验1,数据集收录了 2014年10月10日到2015年12月27日的商品信 息,其中包括了 5个分仓库(store_code1〜5)和一个 全国仓库(store_code6 ).数据集的统计信息:商品总 数为963 ,全国仓库商品属性为31,分仓库(5个)商 品属性为32.
在实验中,原始数据包含了本身的属性特征,如 品牌和类目等,还包括用户的历史行为特征,如浏览 次数和加购人次等,实验目的是对最后两周的仓库 需求量进行预测.本文数据集的划分:训练集的训练
表
2时间2014-10-10至2015-11-15;验证集的时间2015- 11-16 至 2015-12-13;测试集时间 2015-12-14 至 2015-12-27.使用这些数据进行预处理.3.1.2 预处理
为了防止原始数据中异常点的干扰,观察一年 的商品销量情况可知,在某些时候商品的销量会出 现一些较大的波动,如“双11”出现了商品销量骤增 的现象.而这些异常点的存在降低了预测结果的准 确性.本文采用的是基于距离的方法[12]检测奇异 点,再利用一个月的平均销量消除歧义点.3.2实验结果对比分析
为验证H G B D T 模型构造过程中不同因素的 影响,本文进行了 5组实验S ZG =1,2,…,5),其中 米样次数和米样比例分别为=100,a =0.5,实验 设置如表2所示.
5组实验条件
Tab. 2 5 ts of experim ental conditions
实验
X 1X 2X 3X 4 〜X 5X 6X 7 〜X 9X 10 〜X 11X 12 〜 X 13R i 〜R 3模型集成
实验说明
S1V V
V V
V V V
V 一
一
使用1.1节中的特征组合
训练G B D T 模型S2V 一
V 一
V V 一
V 一一
使用选择后的特征组合
训练G B D T 模型S3V V
V V
V V V
V V 一
使用1.1节中的特征组合 和规则训练G B D T 模型S4V 一
V 一
V V 一
V V 一
使用选择后的特征组合 和规则训练G B D T 模型S5
V
一V
没有英文一V
V
一
V
V
V
使用选择后的特征组合 和规则训练H G B D T 模型
注:“v ”表示加人当前实验条件,“一”表示去除当前实验条件.
3.2.1模型选择实验结果及分析
和M L P 模型进行对比.
为了验证所提模型的有效性,在相同的数据下, 图2为上述6种模型的预测结果.其中,LaSS〇与5种具有代表性的Lasso、ElaSticNet、R F 、G B D T
和ElasticNet为线性模型,而R F 和G B D T
为非线
第2期朱振峰等:基于G B D T 的商品分配层次化预测模型
13
_6975
性模型.从图2中可以看出,对于较为复杂的数据, 线性模型不能很好地描述其变化的多样性.此外,在 大多数情况下,由于R F 对异常数据不敏感,因此 R F 的成本略高于G B D T .与此同时,又由于数据量 不够充分,M L P 模型的预测效果并不理想.而H G - B D T 模型由于考虑到了数据的维度和多样性,相较 于其他的算法,取得了更为理想的预测结果.
Lasso Elastic Net RF
GBDT MLP HGBDT
算法
图
2基于不同模型的预测结果对比
Fig.2 Com parison results bad on different models
3.2.2特征选择实验结果及分析
图3为5组实验的预测结果对比,其中S 1和 S 2的对比体现了特征选择对预测结果的影响.从图 3中可以
看出,S 2测试集的成本较S i 有明显降低, 由于去除了大量冗余特征,提高了模型的泛化能力, 因此提高了模型在测试集上的预测性能.此外,Si 的训练时长为2 221 8,而S 2的训练时长为1 944 s, 说明特征选择缩短了模型训练的时间,降低了计算 成本.
^2
S3
学做豆腐s, s5
实验条件
图
3不同实验条件的预测结果对比
Fig.3 Com parison of the prediction results in different experim ental conditions
3.2.3规则实验结果及分析
图3中S 1和S 3的对比体现了基于规则的决策 对于预测结果的影响.从图3中可以看出,加入规则 之后,
在测试集上的预测成本降低了,在一定程度上 提高了预测的准确性.因部分商品在一段时间内波 动的变化范围较小,所以用基于决策的规则去约束 当前的预测值,更符合现实情况.
3.2.4模型集成结果及分析
图3中S 4和S 5的对比是对H G B D T 模型效果 的检验.从图3中可以看出,利用H G B D T 模型预测 的效果是最好的.因H G B D T 考虑到了模型过拟合 的问题,通过有效结合Bagging,Stacking及G B D T 自身的Boosting的思想,改善了模型的泛化能力, 从而提高了模型的预测性能.
4
结论
1)
由于G B D T 模型在训练的时候容易产生
拟合,为了提高对商品的预测能力,本文作者在G B - D T 基础上,提出了 H G B D T 模型.该模型通过特征 选择、基于决策的规则和模型集成实现预测性能的 改善.
2)
实验结果表明:特征选择、基于决策的规则
哥老会
模型集成均能改善算法的性能.其中特征选择的效 果十分显著,实验中成本降低了 56万,而基于规则 的决策和模型集成分别降低了 5万和2万,因此,特 征选择是所有实验条件中最为有效的条件.参考文献(References):
[1] T A N P ,STEIN BA CH M ,K U M A R V. Introduction to
data m in in g [J]. Data Analysis in the C loud , 2016, 22 (6)1-25.
[]冯士雍.回归分析方法[M ].北京:科学出版社,1974. FEN G Shiyong. Regression analysis m ethods [M ]. Beijing:Science P re ss ,1974.(in Chine)
[3] LI Q , QIU S ,JI S. Parallel lasso screening for big data op- tim ization[C ]//A C M SIGKDD International Conference on Knowledge Discovery and Data M ining ,2016:1705 —1714.[4] ZH A N G Q , H U X ,ZH A N G B. Com parison of 1-norm SVR and spar coding algorithm s for Linear Regression [J]. IEEE Transactions on N eural N etw orks & Learning S ystem s ,2015, 26(8)1828 —1833.
[5] ZOU H ,H A ST IE T. Regularization and variable lection via the elastic net [ J ]. Journal of the
Royal Statistical Society ,2005,67(2) :301 — 320.
[6] CUI Z ,C H EN W ,H E Y. O ptim al action extraction for random forests and boosted trees [C ]//A C M SIGKDD International Conference on Knowledge Discovery and Data M ining ,2015:179 —188.
[7] YAN P ,D UAN Y ,DU A N Y. E-com m erce item recom m endation bad on field-aware factorization m achine [C ]// International ACM Recom m ender System s Challenge , 2015:1—4.
(下转第45页)
^o o o o o o o o o
^o o o o o o o o o ^o o o o o o o o o )
864208642
11 11 11 11 11