高速列车晚点预测的
机器学习模型outside
胡瑞1,2,文超1,2,3,张梦颖1,2,徐传玲1,2
业务人员
(1.西南交通大学综合交通运输国家地方联合工程实验室,四川成都610031;
2.西南交通大学综合交通大数据应用技术国家工程实验室,四川成都610031;
3.滑铁卢大学铁路研究中心,安大略滑铁卢N2L3G1)
摘要:智能调度是智能高铁技术体系的核心组成部分,准确预测高铁列车晚点时间是智能高铁必须实现的功能,基于列车运行数据开展高铁列车晚点研究已成为热点研究方向。首先介绍高速列车数据来源与构成,对其进行描述性统计;然后综合运用皮尔逊相关系数(Pearson)和Lasso算法对列车数据进行清洗和降维处理;最后运用梯度提升决策树机器学习模型预测列车晚点时间。测试结果显示,综合运用机器学习模型可有效预测高铁列车的晚点时间,对调度决策辅助具有一定的支撑作用。
关键词:高速铁路;列车晚点;Pearson;Lasso算法;梯度提升决策树;智能调度
中图分类号:U238;U293.1+2文献标识码:A文章编号:1001-683X(2020)11-0072-06 DOI:10.19549/j.issn.1001-683x.2020.11.072
0引言
智能高铁将云计算、大数据、北斗定位、下一代移动通信、人工智能等先进技术,通过新一代信息技术与高速铁路技术的集成,全面感知、融合处理、主动学习和科学决策,实现高铁的智能建造、智能装备和智能运营。智能调度理论是高速铁路智能运营的核心基础理论,“列车晚点传播问题”和“轨道交通调度
指挥智能化及风险预警”入选由教育部、科技部、中国科学院、国家自然科学基金委员会等联合发起的《10000个科学难题交通运输科学卷》[1],说明运营调度智能化理论是轨道交通运输组织优化亟待解决的难题。
得益于大数据技术的发展,机器学习方法已经在诸多领域的理论研究和运营实践中凸显了优势[2]。在数据充足的条件下,机器学习模型可以研究列车间更为复杂的作用过程,更深入地解析晚点传播及恢复过程[3]。文超等[4]认为传统数学模型不能有效处理列车运行产生的巨复杂数据,而机器学习相关模型适用于处理数据驱动的智能铁路运营分析。Lulli等[5]以描述大型铁路路网的态势为目标,混合传统分析和数据驱
基金项目:国家重点研发计划项目(2017YFB1200701);国家自然科学基金项目(71871188、U1834209)
第一作者:胡瑞(1995—),男,硕士研究生。
E-mail:
通信作者:文超(1984—),男,副教授。
E-mail:
模式英文高速列车晚点预测的机器学习模型胡瑞等
动模型的描述方法,构建了一个动态铁路多源数据分
析系统。孙略添等[6]运用灰色模型对技术站列车晚点
进行预测,再综合运用马尔可夫和改进的神经网络模
型进行修正和预测,最后将2种方法进行了对比,显示
神经网络模型在大规模数据集情形下预测精度更高。Huang等[7]提出一种基于SVR算法和KF算法的混合模型用于预测列车运行时间,该混合模型结合了2种算法
的特点,做到了更短计算时间下的高准确率预测。解
熙等[8]建立以6个绝对指标和5个相对指标的列车晚
点事件统计体系,对传统城市轨道交通晚点评价进行
了完善。
目前,相关研究对铁路运行数据的处理尚不够精
细,没有充分结合高速列车调度实际与机器学习模型
运算特点,因此优先运用相关模型对列车数据进行分
析,对列车数据进行筛选,可使其在机器学习模型预
测中发挥更有效的作用。
1晚点数据统计分析
1.1数据描述
数据来源于中国铁路广州局集团有限公司管辖的广
深高铁,时间跨度为2015年6—12月,共计10万余条。
广深高速铁路全长113km,铁路下行方向分别是广州
南、庆盛、虎门、光明城、深圳北、福田共6个车站。
列车运行数据包含高速列车的计划运行图和实际运行
图,具体为列车车次、到达车站、实际到达时间、实际
出发时间、图定到达时间、图定出发时间和经停股道
等。使用的数据经过预处理和清洗,具体处理对象有数
据记录为空值、数据记录错误、数据存在极端异常值
等,经过清洗后的数据各参数间不存在数量级差异。1.2列车晚点描述性统计
要详细了解列车运行数据的特征和规律,对列车
运行数据进行描述性统计是必要的手段。列车晚点时
间作为度量列车运行情况的重要指标也是预测的目标,
有必要对其进行详细分析和挖掘,为下一步建模预测
晚点时间做准备。箱线图是一种常见的数据描述方法,
分形维数常用于表示数据量较大且分布跨度较大的数据集,将
一组数据按照由大至小的顺序排列,不被纳入箱中的
数据作为数据分布的异常值,上边缘为最大值,然后是上四分位数值、中间值、下四分位数和下边缘。在实际调度过程中,只有终到时间大于图定终到时间4min的列车才统计为晚点列车,广深高铁各站到达晚点时间箱线见图1,其中广州南站晚点时间为始发站出发晚点时间,其余各站为到达晚点时间。
由图1可知,广州南站出发晚点列车数为784列,平均晚点时间为14.96min;庆盛站晚点列车数1070
列,平均晚点时间10.15min;虎门站晚点列车数604列,平均晚点时间11.20min;光明城站晚点列车数1259列,平均晚点时间12.95min;深圳北站晚点列车数237列,平均晚点时间17.68min。各站晚点数据描述性统计见表1。结合图1和表1可知,各站的晚点时间均值都大于第二分位数,这表明各站的晚点时间分布很不均匀,这也是图1中各站箱线图绘制的都更接近底部的原因,部分严重晚点列车拉高了平均晚点时间。图1中各站箱线图上方异常值较多则说明数据呈现明显的右偏态势。晚点偏度系数指标也证实了广深线所有车站的晚点数据分布呈现右偏,广州南站和深圳北站晚点偏度系数较低,分别为2.16和1.82,而中间站的晚点偏度系数均较高。
对列车相关数据进行进一步分析可知,在始发站广州南站的始发列车晚点数虽不多,但晚点时间偏高,随着列车在广州南—庆盛区间运行,产生了更多的晚点列车,但是晚点时间得到了部分恢复,其中庆盛站—虎门区间恢复了大量晚点时间较短的列车。这是因为列车在区间运行中可有效吸收5min
左右的晚点时间,但对于始发晚点时间大于10min的列车,往往并不能有
图1各站晚点时间箱线
高速列车晚点预测的机器学习模型胡瑞等
效恢复晚点,甚至会产生增晚的情况,导致始发晚点
八一节事件本就严重的列车在终到站依旧晚点。从晚点方差
指标可以看出全线晚点列车分布都不均匀,列车晚点
时间跨度都较大,其中始发站广州南站的始发晚点方
差达到了252.11,深圳北站的终到晚点时间方差是236.19,始发和终到站的晚点时间分布跨度最大。各站的晚点时间峰度指标均大于3,表示广深线的晚点数据
分布非常陡。
2晚点特征分析及数据降维
结合预处理后的数据计算各列车在各站的到达晚
点时间、出发晚点时间、停站时间、实际区间运行时
间、图定区间运行时间、列车接续时间、车站冗余时
间、区间冗余时间共8个列车运行参数。由于列车运行
参数较多且其数据量较大,有必要对参数进行定量的
相关性分析和数据降维处理。
2.1晚点影响因素定量分析
对于多个特征系数常用皮尔逊相关系数(Pearson)
去度量特征系数间的联系强度,该系数计算公式和应
用可参考文献[9]。现令X1为到达晚点时间,X2为出发晚点时间,X3为停站时间,X4为实际区间运行时间,X5为图定区间运行时间,X6为列车接续时间,X7为车站冗余时间,X8为区间冗余时间,Z为目标值,即下一车站列车到达晚点时间。经过计算得到各特征系数之间与目标值之间的Pearson(见表2)。从表2可知,X1、X2、X3、X4、X7共5个列车运行参数与目标值的Pearson 为正,表明其与
列车到下一车站的晚点时间呈现正相关性,其余特征系数值X5、X6、X8的Pearson为负,表明其与列车到下一车站的晚点时间呈现负相关性。
2.2晚点影响因素数据降维
Lasso模型是一种常见的回归方法,通过压缩估计构建惩罚函数,计算出一个更简洁的模型。模型的相关公式和应用可参考文献[10]。λ取值为5,经过计算得到相关系数非零的数量为5个,各参数相关系数分别为0.29885、0.60171、0、0.20085、-0.42610、0、0、-0.35677。将Lasso模型计算的参数系数与Pearson 的结果进行结合,得到晚点特征评估表(见表3)。
由表3可知,X1、X2、X4、X5、X8这5个参数在Lasso系数评估中都是不可缩减的一部分,再综合考虑Pearson相关系数和列车运行实际情况,停站时间也是预测列车在下一车站晚点时间的重要因素,而列车接续时间和车站冗余时间不会因列车晚点而产生时间值上的变化,只是将事件发生的时间点在时间的水平坐标上平移,因此添加X3停站时间也作为预测晚点时间的参数。综上,共有6个参数被用于预测模型建立。
表1
各站晚点数据描述性统计
表2列车运行参数
Pearson
表3
晚点特征评估
高速列车晚点预测的机器学习模型胡瑞等
3基于梯度提升决策树的晚点预测
机器晚点预测是铁路运营智能化的功能之一,既
可一定程度上减轻调度员的工作压力,也可为调度行车指挥命令提供参考,选择梯度提升决策树模型进行预测。
3.1模型介绍
GBDT 算法是一种集成算法,广泛应用于工业界、
金融界和各类数学竞赛中[11],由Gradient Boosting 算法和Decision Tree 算法2部分组成,将2者综合即为梯度
提升决策树,该集成算法以残差下降为优化方向,不停地将上一个优化的输出作为下一次优化的输入,从而以期达到最优值。该模型算法在回归分析中的表现非常出色,是目前使用度高且具有良好泛化能力的算法。模型具体步骤如下:
(1)假设有训练集数据。(x m ,y m )为一组数据,则训练集数据为:
T ={(x 1,y 1),(x 2,y 2),(x 3,y 3),⋅⋅⋅,(x m ,y m )}。
(1)
(2)确定生成数个数(迭代数)为N ,损失函数为L (y ,f (x )),y i 为真实值,c 为对应预测值,则设置初始
化弱回归器为:
f 0(x )=ar
g min ∑i =1
最伤心的歌m L (y i ,c )。
(2)(3)对迭代次数n =1,2,3,…,N ,设置负梯度为:
r ni =-[
∂L (y i ,f (x i ))
∂f (x i )
]f (x )=f n -1(x )。
(3)
运用上式计算回归树,得到第n 颗回归树。其叶子节点域为R ns ,s =1,2,3,⋅⋅⋅,S ,S 为回归树N 的叶子节点个数,计算S 的最优拟合值为:
C ns =arg min c
∑x i ∈R ns
L (y i
,
f n -1
(x i )+c )。(4)
得到S 的最优解后,从而更新回归器:
f n (x )=f n -1(x )+∑s =1S c ns I (x ∈R ns )。
(5)
(4)得到最终学习器为:
f (x )=f N (x )=f 0(x )+∑
n =1N
∑s =1
S c
ns
I (x ∈R ns )。(6)
拟解决的是回归问题,利用负梯度拟合残差可实现回归功能[12]。
3.2
晚点预测实验及结果分析
要运用GBDT 模型进行晚点时间预测,还需要对相关重要参数的取值进行研究,将数据集划分为训练集和测试集,选取总数据量的20%作为测试集,训练集数据进行参数训练。现选取了一些主要参数包括nums 学习器的数量、max_features 最大特征数、subsample 采样比例、max_depth 树的最大深度。
nums 是学习器的数量,即初始学习器的迭代次数,
透明图片格式
通常取值过小易导致欠拟合,取值过大易导致过拟合,在此默认取值100。nums 参数训练结果见图2,nums 参数随着取值增加训练集分数快速提升,该参数取值100。
max_features 是最大特征数,划分子节点时需考虑
的值。max_features 参数训练结果见图3,max_features
参数随着取值增加测试集分数波动巨大,当取值大于
0.8
后较稳定,因此该参数取值1。
subsample
是采样比例,即在多少数据集上运用决
图2nums 参数训练结果
图3
max_features 参数训练结果
高速列车晚点预测的机器学习模型胡瑞等
策树去提升梯度,该值默认比例为100%。subsample 参数训练结果见图4,subsample 参数随着取值增加,模型测试集分数波动较大,参数取值超过0.6后准确度达到了平稳且优异的状态,因此该参数值为1。
max_depth 是树的最大深度,决定决策树生出子树
的深度。max_depth 参数训练结果见图5,max_depth 参数随着取值增加测试集分数快速提升,取值10以后准确度非常平稳,因此该参数取值17。
在确定了主要参数取值后,运用GBDT 模型预测各列车在下一车站的晚点时间,用R 2值和平均绝对误差MAE 评价回归模型,R 2
值着重评价晚点时间预测准确度,MAE 着重评价对各车次晚点时间预测的误差。
R 2=1-∑i =1
n
(y a i
-y p i
)
2∑
i =1
n (y a i --y a
),(7)
式中:y a i 为测试集真实值;y p i 为测试集预测值;-y a 为测
试集真实值的平均值。
MAE =1n ∑i =1
n ||y a
i -y p i 。
(8)
结果显示预测准确率较高,晚点列车训练集数据的R 2值为0.97,测试集R 2值为0.89;晚点列车训练集数据MAE 为0.09min ,测试集MAE 为0.32min 。同时,设置以机器学习的近邻算法模型(KNN )为预测方法的对照组,邻近样本个数设置为5,叶子节点数量设置为30,则对照组晚点列车测试集数据的R 2值为0.76,MAE 为0.84min 。因此,基于GBDT 模型的高速列车晚点时间预测的效果是非常优秀的。考虑到测试集数据量较大,因此仅显示测试集部分列车的预测情况,晚点时间预测效果见图6。
白术的作用和功效绘制图6时,先绘制表示实际晚点时间的蓝色折线,当预测完全一致时,表示预测晚点时间黄色折线将覆盖蓝色折线。结合模型指标与图6可知,该模型预测结果贴近实际,其预测准确度很高,可以为列车晚点预测提供一定辅助作用。
4结束语
基于高速列车运行实绩,通过充分挖掘和分析列
车运行数据,运用皮尔逊相关系数分析数据的相关性,运用Lasso 模型实现数据降维,并进而建立高
速列车晚点预测的GBDT 机器学习模型,模型测试结果表明所建立模型能够很好地预测高速列车晚点。准确预测高速
列车的晚点时间,能够降低调度工作负荷、提高调度决策的质量,是高速铁路实现智能调度的重要环节。智能运营是智能高铁的核心价值体现,是智能高铁研究和实践必须攻克的难题,其中高速列车晚点预测及
图6GBDT
模型部分预测结果对比
图5
max_depth 参数训练图
图4subsample 参数训练结果