利⽤Python对销售额进⾏预测
⼤家经常会遇到⼀些需要预测的场景,⽐如预测品牌销售额,预测产品销量。
今天给⼤家分享⼀波使⽤ LSTM 进⾏端到端时间序列预测的完整代码和详细解释。
我们先来了解两个主题:
•什么是时间序列分析?
•什么是 LSTM?
时间序列分析:时间序列表⽰基于时间顺序的⼀系列数据。它可以是秒、分钟、⼩时、天、周、⽉、年。未来的数据将取决于它以前的值。
在现实世界的案例中,我们主要有两种类型的时间序列分析:
•单变量时间序列
•多元时间序列
磁铁的用途
对于单变量时间序列数据,我们将使⽤单列进⾏预测。
正如我们所见,只有⼀列,因此即将到来的未来值将仅取决于它之前的值。
但是在多元时间序列数据的情况下,将有不同类型的特征值并且⽬标数据将依赖于这些特征。
正如在图⽚中看到的,在多元变量中将有多个列来对⽬标值进⾏预测。(上图中“count”为⽬标值)
在上⾯的数据中,count不仅取决于它以前的值,还取决于其他特征。因此,要预测即将到来的count值,我们必须考虑包括⽬标列在内的所有列来对⽬标值进⾏预测。
在执⾏多元时间序列分析时必须记住⼀件事,我们需要使⽤多个特征预测当前的⽬标,让我们通过⼀个例⼦来理解:
在训练时,如果我们使⽤ 5 列 [feature1, feature2, feature3, feature4, target] 来训练模型,我们需要为即将到来的预测⽇提供 4 列 [feature1, feature2, feature3, feature4]。
LSTM
本⽂中不打算详细讨论LSTM。所以只提供⼀些简单的描述,如果你对LSTM没有太多的了解,可以参考我们以前发布的⽂章。
LSTM基本上是⼀个循环神经⽹络,能够处理长期依赖关系。
假设你在看⼀部电影。所以当电影中发⽣任何情况时,你都已经知道之前发⽣了什么,并且可以理解因为过去发⽣的事情所以才会有新的情况发⽣。RNN也是以同样的⽅式⼯作,它们记住过去的信息并使⽤它来处理当前的输⼊。RNN的问题是,由于渐变消失,它们不能记住长期依赖关系。因此为了避免长期依赖问题设计了lstm。
现在我们讨论了时间序列预测和LSTM理论部分。让我们开始编码。
让我们⾸先导⼊进⾏预测所需的库:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
from matplotlib import pyplot as plt
from dels import Sequential
from tensorflow.keras.layers import LSTM
from tensorflow.keras.layers import Den, Dropout
from sklearn.preprocessing import MinMaxScaler
from keras.wrappers.scikit_learn import KerasRegressor
如何折纸盒
del_lection import GridSearchCV
加载数据,并检查输出:
ad_csv("train.csv",par_dates=["Date"],index_col=[0])
df.head()
df.tail()
现在让我们花点时间看看数据:csv⽂件中包含了⾕歌从2001-01-25到2021-09-29的股票数据,数据是按照天数频率的。
[如果您愿意,您可以将频率转换为“B”[⼯作⽇]或“D”,因为我们不会使⽤⽇期,我只是保持它的现状。]
这⾥我们试图预测“Open”列的未来值,因此“Open”是这⾥的⽬标列。
让我们看⼀下数据的形状:
df.shape
(5203,5)
现在让我们进⾏训练测试拆分。这⾥我们不能打乱数据,因为在时间序列中必须是顺序的。
test_split=round(len(df)*0.20)
df_for_training=df[:-1041]
df_for_testing=df[-1041:]
print(df_for_training.shape)
print(df_for_testing.shape)
(4162, 5)
牵手照片(1041, 5)
可以注意到数据范围⾮常⼤,并且它们没有在相同的范围内缩放,因此为了避免预测错误,让我们先使⽤MinMaxScaler缩放数据。(也可以使⽤StandardScaler)
scaler = MinMaxScaler(feature_range=(0,1))
df_for_training_scaled = scaler.fit_transform(df_for_training)
df_for_testing_ansform(df_for_testing)
df_for_training_scaled葡萄的英语怎么写
将数据拆分为X和Y,这是最重要的部分,正确阅读每⼀个步骤。
def createXY(datat,n_past):
dataX = []
dataY = []
for i in range(n_past, len(datat)):
dataX.append(datat[i - n_past:i, 0:datat.shape[1]])
dataY.append(datat[i,0])
return np.array(dataX),np.array(dataY)
trainX,trainY=createXY(df_for_training_scaled,30)
testX,testY=createXY(df_for_testing_scaled,30)
让我们看看上⾯的代码中做了什么:
N_past是我们在预测下⼀个⽬标值时将在过去查看的步骤数。
N_past是我们在预测下⼀个⽬标值时将在过去查看的步骤数。
这⾥使⽤30,意味着将使⽤过去的30个值(包括⽬标列在内的所有特性)来预测第31个⽬标值。
因此,在trainX中我们会有所有的特征值,⽽在trainY中我们只有⽬标值。
让我们分解for循环的每⼀部分:
众里寻你千百度
对于训练,datat = df_for_training_scaled, n_past=30
当i= 30:
data_X.addend (df_for_training_scaled[i - n_past:i, 0:df_for_training.shape[1]])
从n_past开始的范围是30,所以第⼀次数据范围将是-[30 - 30,30,0:5] 相当于 [0:30,0:5]
因此在dataX列表中,df_for_training_scaled[0:30,0:5]数组将第⼀次出现。
现在, dataY.append(df_for_training_scaled[i,0])
i = 30,所以它将只取第30⾏开始的open(因为在预测中,我们只需要open列,所以列范围仅为0,表⽰open列)。
第⼀次在dataY列表中存储df_for_training_scaled[30,0]值。
所以包含5列的前30⾏存储在dataX中,只有open列的第31⾏存储在dataY中。然后我们将dataX和dataY列表转换为数组,它们以数组格式在LSTM中进⾏训练。
我们来看看形状。
print("trainX Shape-- ",trainX.shape)
print("trainY Shape-- ",trainY.shape)
(4132, 30, 5)
(4132,)
print("testX Shape-- ",testX.shape)
print("testY Shape-- ",testY.shape)
(1011, 30, 5)
(1011,)
4132 是 trainX 中可⽤的数组总数,每个数组共有 30 ⾏和 5 列,在每个数组的 trainY 中,我们都有下⼀个⽬标值来训练模型。
让我们看⼀下包含来⾃ trainX 的 (30,5) 数据的数组之⼀和 trainX 数组的 trainY 值:
print("trainX[0]-- \n",trainX[0])
print("trainY[0]-- ",trainY[0])
如果查看 trainX[1] 值,会发现到它与 trainX[0] 中的数据相同(第⼀列除外),因为我们将看到前 30 个来预测第 31列,在第⼀次预测之后它会⾃动移动到第 2 列并取下⼀个 30 值来预测下⼀个⽬标值。
让我们⽤⼀种简单的格式来解释这⼀切:
trainX — — →trainY
[0 : 30,0:5] → [30,0]
[1:31, 0:5] → [31,0]
[2:32,0:5] →[32,0]
像这样,每个数据都将保存在 trainX 和 trainY 中。
现在让我们训练模型,我使⽤ girdarchCV 进⾏⼀些超参数调整以找到基础模型。
def build_model(optimizer):
好榜样grid_model = Sequential()
grid_model.add(LSTM(50,return_quences=True,input_shape=(30,5)))
grid_model.add(LSTM(50))
grid_model.add(Dropout(0.2))
grid_model.add(Den(1))
pile(loss = 'm',optimizer = optimizer)
return grid_modelgrid_model = KerasRegressor(build_fn=build_model,verbo=1,validation_data=(testX,testY)) parameters = {'batch_size' : [16,20],
'epochs' : [8,10],
'optimizer' : ['adam','Adadelta'] }
grid_arch = GridSearchCV(estimator = grid_model,
param_grid = parameters,
cv = 2)
如果你想为你的模型做更多的超参数调整,也可以添加更多的层。但是如果数据集⾮常⼤建议增加 LSTM 模型中的时期和单位。
在第⼀个 LSTM 层中看到输⼊形状为 (30,5)。它来⾃ trainX 形状。
(trainX.shape[1],trainX.shape[2]) → (30,5)
现在让我们将模型拟合到 trainX 和 trainY 数据中。
grid_arch = grid_arch.fit(trainX,trainY)
由于进⾏了超参数搜索,所以这将需要⼀些时间来运⾏。
你可以看到损失会像这样减少:
现在让我们检查模型的最佳参数。
grid_arch.best_params_
{‘batch_size’: 20, ‘epochs’: 10, ‘optimizer’: ‘adam’}
将最佳模型保存在 my_model 变量中。
my_model=grid_arch.best_estimator_.model
现在可以⽤测试数据集测试模型。
prediction=my_model.predict(testX)
print("prediction\n", prediction)
print("\nPrediction Shape-",prediction.shape)
testY 和 prediction 的长度是⼀样的。现在可以将 testY 与预测进⾏⽐较。
但是我们⼀开始就对数据进⾏了缩放,所以⾸先我们必须做⼀些逆缩放过程。
scaler.inver_transform(prediction)
报错了,这是因为在缩放数据时,我们每⾏有 5 列,现在我们只有 1 列是⽬标列。
所以我们必须改变形状来使⽤ inver_transform:
prediction_copies_array = np.repeat(prediction,5, axis=-1)
prediction_copies_array = np.repeat(prediction,5, axis=-1)
5 列值是相似的,它只是将单个预测列复制了 4 次。所以现在我们有 5 列相同的值。
prediction_copies_array.shape
(1011,5)
这样就可以使⽤ inver_transform 函数。
pred=scaler.inver_shape(prediction_copies_array,(len(prediction),5)))[:,0]
但是逆变换后的第⼀列是我们需要的,所以我们在最后使⽤了→ [:,0]。
现在将这个 pred 值与 testY 进⾏⽐较,但是 testY 也是按⽐例缩放的,也需要使⽤与上述相同的代码进⾏逆变换。
original_copies_array = np.repeat(testY,5, axis=-1)
original=scaler.inver_shape(original_copies_array,(len(testY),5)))[:,0]
现在让我们看⼀下预测值和原始值:
print("Pred Values-- " ,pred)
print("\nOriginal Values-- " ,original)
最后绘制⼀个图来对⽐我们的 pred 和原始数据。
plt.plot(original, color = 'red', label = 'Real Stock Price')
plt.plot(pred, color = 'blue', label = 'Predicted Stock Price')
三个方plt.title('Stock Price Prediction')
plt.xlabel('Time')
plt.ylabel('Google Stock Price')
plt.legend()
plt.show()
看样⼦还不错,到⽬前为⽌,我们训练了模型并⽤测试值检查了该模型。现在让我们预测⼀些未来值。
从主 df 数据集中获取我们在开始时加载的最后 30 个值[为什么是 30?因为这是我们想要的过去值的数量,来预测第 31个值]
df_30_days_past=df.iloc[-30:,:]
df_30_days_past.tail()
可以看到有包括⽬标列(“Open”)在内的所有列。现在让我们预测未来的 30 个值。
在多元时间序列预测中,需要通过使⽤不同的特征来预测单列,所以在进⾏预测时我们需要使⽤特征值(⽬标列除外)来进⾏即将到来的预测。
这⾥我们需要“High”、“Low”、“Clo”、“Adj Clo”列的即将到来的 30 个值来对“Open”列进⾏预测。
df_30_days_ad_csv("test.csv",par_dates=["Date"],index_col=[0])小炒牛肉丝
df_30_days_future
剔除“Open”列后,使⽤模型进⾏预测之前还需要做以下的操作:
缩放数据,因为删除了‘Open’列,在缩放它之前,添加⼀个所有值都为“0”的Open列。
缩放后,将未来数据中的“Open”列值替换为“nan”