基于高精度残缺值的聚类型数据增广气象温度预测方法
1.本发明属于气象信息预测技术领域,具体涉及的是一种基于高精度残缺值的聚类型样本增广气象温度预测模型,适用于对数据集大量残缺修复和解决时序预测模型过拟合问题。
背景技术:
2.残缺信息高精度修复与长时序预测是人工智能中的两个重要基础课题,在很多情况下,我们需要从海量数据中快速而准确地预测未来某一特征的多各时间戳下的数据值,这一过程称之为时序预测。时序预测被广泛应用于机器学习等领域。目前广泛采用的预测算法主要是rnn、gru。这些时序预测模型时序过长会导致梯度爆炸或消失问题,因此只能解决短时序预测问题。cnn+lstm算法为解决特征空间学习与长时序预测问题提供了一条有效方法解决多变量多步时序预测问题。
3.在实际应用中输入进预测器的数据会由于传感器等多方面因素导致异常值或缺失值的出现并且这些异常值对预测的精度存在重要影响,因此需要一款高精度数据修复的系统。数据修复被广泛应用于数据处理、数据挖掘、机器学习等领域,目前主流采用的修复方法是分析缺失数据的统计特征,然后采用能够代表这种特征的数据进行填补,例如均值和众数;但这种方法并不能精确修复,缺失值的数量直接影响了最终修复效果。机器学习回归问题算法—回归决策树为解决这种问题提供了一条有效方法解决数据集高精度修复问题。
4.决策回归树是用于回归的决策树模型。回归树对输入空间的划分采用一种启发式方法,即遍历所有输入变量,到最优的切分变量最优的切分点将输入空间划分为两部分,然后重复这个操作。
5.在时序预测中普遍方法是直接将传感器数据输入进预测模型,然而神经网络很难在训练过程中学习到多特征之间的相关性,因此cnn与lstm相结合可提升预测精度。cnn用于多变量特征提取,lstm用于长时序预测。卷积神经网络cnn在很多应用中都表现出,例如图像分类、对象检测和医学图像分析。cnn背后的主要思想是它可以从高层输入中获取局部特征,并将他们转移到较低层以获取更为复杂的特征;卷积神经网络包括卷积层、池化层和全连接层。长短期记忆是对循环神经网络的改进。lstm在解决梯度消失和梯度爆炸问题时提出了记忆块而不是传统的rnn单元。
技术实现要素:
6.解决的技术问题:针对具有大量缺失值的气象数据集进行长时序预测并需要解决过拟合的技术问题,本发明提出了一种基于高精度残缺值的聚类型数据增广气象温度预测方法,其精度对比于平均值和众数等方法有着大幅提升。
7.技术方案:
8.一种基于高精度残缺值的聚类型数据增广气象温度预测方法,所述聚类型数据增
30.式中,(x,y)是被增广的样本,(x1,y1)、(x2,y2)、(x3,y3)是随机选取的与被增广的样本所属类别相同的三个样本。
31.有益效果:
32.第一,本发明的基于高精度残缺值的聚类型数据增广气象温度预测方法,利用完好的数据集,根据每一个时间点缺失值情况训练出不同的修复模型,从而能够精确修复缺失值。
33.第二,本发明的基于高精度残缺值的聚类型数据增广气象温度预测方法,利用k-means聚类后在类中进行数据增广的算法,解决了lstm过拟合问题;相比直接增加噪声或根据欧式距离增广,在其可解释性及增广后的预测效果上都有明显提升。
附图说明
34.图1为本发明实施例的基于高精度残缺值的聚类型数据增广气象温度预测方法流程图;
35.图2为基于k-means聚类的流程图;
36.图3为基于k-means聚类型数据增广的流程图;
37.图4为本发明实施例的基于高精度残缺值的聚类型数据增广气象温度预测方法细节流程图。
具体实施方式
38.下面的实施例可使本专业技术人员更全面地理解本发明,但不以任何方式限制本发明。
39.图4为本发明实施例的基于高精度残缺值的聚类型数据增广气象温度预测方法细节流程图。本实施例首先对拥有完好数据时间节点下的所有数据进行提取并将其输入给梯度提升回归树(gbdtr)进行模型训练从而最终形成高精度数据修复系统;接着将具有缺失数据时间节点下的数据放入数据修复系统进行高精度数据修复,从而将残缺数据集还原成完整数据集。接着将修复完成后的数据集按照滑动窗口长度、输入时序长度和预测时序长度进行切割,并按70%与30%的比例分为训练集和测试集。接着将样本进行主成分分析(pca)降维至三维并按照适当的聚类数进行聚类,每个样本仅在各自集中进行样本增广,对被增广的样本赋予高权重,辅助增广样本赋予低权重,但其总和必须等于1。最后将增广后的样本与训练集合并成新的训练集并输入气象温度预测系统。本发明结合了机器学习决策回归树算法并使用梯度提升对其进行优化;并使用聚类型数据增广解决了时序预测模型欠拟合的解决方案;最终在预测器中使用一维卷积(conv2d)解决空间特征学习、长短期记忆(lstm)解决长时序预测问题。
40.参见图1,本方法包含如下步骤:
41.步骤10,输入整个数据集,对数据集进行异常值检索后得到异常值位置并对其对应的时间点进行标记;并根据标记将数据集分为三部分:原始数据集、完好数据集、具有残缺数据的数据集。
42.步骤20,将完好数据集放入回归树或梯度提升回归树中进行模型训练,回归树的超参数使用sklearn中默认参数即可。决策回归树训练结束后将残缺数据集放入修复模型
中,并将得到的修复数值返回原始数据集中原始残缺位置。
43.步骤30,将修复过后的原始数据集定义为完整数据集,并综合滑动窗口、输入时序长度、预测时序长度进行样本划分并形成完整样本集,再把完整样本集按照7:3比例划分成训练样本集和测试样本集。
44.步骤40,如图2所示,将完整样本集中每一个样本从温度维度将值取出代表该样本的数据信息,并用主成分分析将维度降至3维(有利于可视化);降至3维后每个样本可用3条数据代表整个样本,在选取合适k值后再用k-means算法将每个样本赋予其代表的类别号;用matplotlib将所有样本用3d图像显示,此时不同聚类中的所有样本显示相同颜的圆点,再用陀螺仪转动3d图像查看是否存在某一视角下将样本合理聚类;
45.步骤50,如图3所示,当查到合适的k值后保存每个样本所属类别号,并对每个样本按照其所属类别进行增广:被增广的样本数据(x,y),在该类中随机选取三个样本数据(x1,y1)、(x2,y2)、(x3,y3),增广后的新数据:(x
new
=0.7*x+0.1*x1+0.1*x2+0.1*x3;y
new
=0.7*y+0.1*y1+0.1*y2+0.1*y3),执行完成后将增广数据保存为增广样本集以备预测模型使用。将增广样本集与训练样本集合并成训练样本集,测试样本集依然不变。
46.步骤60,用一维卷积对单样本中每一个时间戳的特征使用,在卷积过程中保持着通道数加倍,特征数减半的原则,并在最后一个模块中将数据平铺并使用dense层与relu激活函数使特征数量减半,若存在梯度爆炸问题可使用resnet解决,在预测器最后一个模块中使用lstm解决长时序预测。
47.以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。
技术特征:
1.一种基于高精度残缺值的聚类型数据增广气象温度预测方法,其特征在于,所述聚类型数据增广气象温度预测方法包括以下步骤:s1,创建样本集:对输入的原始气象温度数据集进行残缺值修复,将修复后的原始气象温度数据集定义为完整数据集,结合滑动窗口、输入时序长度、预测时序长度进行样本集划分以形成完整样本集,将完整样本集划分成训练样本集和测试样本集;s2,聚类:将完整样本集中的每一个样本从温度维度将值取出代表该样本的数据信息,并用主成分分析将维度降至3维,使每个样本的数据信息只有3条;在选取k值后再用k-means算法将每个样本赋予其代表的类别号,保存每个样本所属类别号;s3,数据增广:对每个样本按照其所属类别进行增广,将增广数据保存为增广样本集,将增广样本集和完整样本集合并成训练样本集;s4,训练时序预测器:构建气象温度预测器,将训练样本集导入气象温度预测器进行空间信息的学习与特征提取,使用mse作为损失函数;其中,采用一维卷积对单样本中每一个时间步的特征实用,在卷积过程中保持着通道数加倍、特征数减半的原则,并在气象温度预测器的最后一个模块中将数据平铺并使用dense层与relu激活函数使特征数量减半;在卷积的过程中采用残差网络修复网络以解决梯度爆炸问题;在气象温度预测器最后一个模板中使用lstm进行长时序预测;s5,测试时序预测器:气象温度预测器训练完成后,采用测试数据集对气象温度预测器的模型性能进行检测。2.根据权利要求1所述的基于高精度残缺值的聚类型数据增广气象温度预测方法,其特征在于,步骤s1中,对输入的原始气象温度数据集进行残缺值修复的过程包括以下子步骤:对输入的原始气象温度数据集进行异常值检索,对得到的异常值位置和对应的时间点进行标记;按照标记,将整个原始气象温度数据集划分成三个部分:原始数据集、完好数据集和残缺数据集;完好数据集是由原始气象温度数据集中的非异常值组成的数据集,残缺数据集是由原始气象温度数据集中的异常值组成的数据集;将完好数据集放入回归树或者梯度提升回归树中进行模型训练,得到修复模型;将残缺数据集导入修复模型进行修复,将修复后的数值覆盖到原始数据集中的原残缺位置,得到修复后的完整数据集。3.根据权利要求1所述的基于高精度残缺值的聚类型数据增广气象温度预测方法,其特征在于,步骤s1中,按照7:3的比例将完整样本集划分成训练样本集和测试样本集。4.根据权利要求1所述的基于高精度残缺值的聚类型数据增广气象温度预测方法,其特征在于,步骤s2中,采用matplotlib将所有样本用3d图像显示,不同聚类中的所有样本显示相同颜的圆点。
5.根据权利要求1所述的基于高精度残缺值的聚类型数据增广气象温度预测方法,其特征在于,步骤s3中,增广后的新数据为(x
new
,y
new
):x
new
=0.7*x+0.1*x1+0.1*x2+0.1*x3y
new
=0.7*y+0.1*y1+0.1*y2+0.1*y3式中,(x,y)是被增广的样本,(x1,y1)、(x2,y2)、(x3,y3)是随机选取的与被增广的样本所属类别相同的三个样本。
技术总结
本发明公开了一种基于高精度残缺值的聚类型数据增广气象温度预测方法,包括:S1,创建样本集:对输入的原始气象温度数据集进行残缺值修复,结合滑动窗口、输入时序长度、预测时序长度进行样本集划分以形成完整样本集;S2,聚类:将完整样本集中的每一个样本从温度维度将值取出代表该样本的数据信息,并用主成分分析将维度降至3维;在选取K值后再用K-MEAS算法将每个样本赋予其代表的类别号;S3,数据增广:对每个样本按照其所属类别进行增广;S4,训练时序预测器;S5,测试时序预测器。对比于平均值和众数等方法,本发明的预测方法的预测精度有着大幅提升。着大幅提升。着大幅提升。