预测带宽利用率(时间序列)
全国宽带提供商的一位分析师为了预测带宽利用率需要对用户预订作出预测。分析师需要对各地市场进行预测,才能得出全国订户的数量。分析师将使用时间序列建模来得到未来三个月若干地区市场的预测数字。第二个示例则说明源数据的格式不适合作为时间序列节点的输入时应如何转换源数据。
这两个示例均使用名为 broadband_create_models.str 的流,该流引用名为 broadband_1.sav 的数据文件。这些文件可在所安装的 Clementine Client 的 Demos 目录下找到,并且可通过从 Windows“开始”菜单中选择 Start > [All] Programs > SPSS Clementine 11.1 > Demos 来访问。broadband_create_models.str 文件位于 Classification_Module目录下。
最后一个示例演示如何将保存的模型应用于更新过的数据集,以将预测时间延长三个月。
在 Clementine 中,可以在一次操作中生成多个时间序列模型。将要使用的源文件具有 85 个不同市场的时间序列数据,但为简便起见,只为其中五个市场以及总体市场的数据建模。
broadband_1.sav 数据文件具有全部 85 个地区市场的月度带宽使用率数据。在本示例中,将只使用前五个序列;并且将为这五个序列各创建一个模型以及为总序列创建一个模型。
该文件还包含指明每个记录的年度和月度的日期字段。此字段将在时间区间节点中用来标记记录。日期字段作为字符串读入到 Clementine 中,但为了在 Clementine 中使用该字段,必须使用填充节点将存储类型转换为数字日期格式。
时间序列节点要求每个序列各占一列,每个区间各占一行。Clementine 提供用于变换数据的方法,以使其在需要时符合此格式。请参阅 为时间序列建模重新结构化事务处理数据 详细信息。
► 创建新流并添加指向 实习盖章broadband_1.sav 的 SPSS 源节点。
重庆大学网络教育
► 使用过滤节点过滤掉 Market_6 至 Market_85 字段以及 MONTH_ 和 YEAR_ 字段,以简化模型。
提示:要一次选定多个相邻字段,请单击 Market_6 字段,然后按住鼠标左键并向下拖至 Market_85 字段。选定字段将以蓝色突出显示。要添加其他字段,请按住 Ctrl 键,然后单击 MONTH_ 和 YEAR_ 字段。
建立模型前最好先对数据有个大致了解。数据是否呈现季节性变化?虽然 Expert Modeler 可以自动找出每个序列的最佳季节性或非季节性模型,但数据中不存在季节性时,通常可以通过将搜索对象限制为非季节性模型,从而更快捷地获得结果。虽然未仔细检查全部 85 个地区市场的数据,但我们可通过绘制所有市场的总订户数得到一个粗略概况。手工作品二年级
► 将时间散点图节点附加到过滤节点。
► 将总计字段添加到“序列”列表。
► 取消选中在单独面板中显示序列和标准化复选框。
► 单击执行。
该序列表现出非常平滑的上升趋势,并且无季节性变化的迹象。可能个别序列具有季节性特性,但总体而言,季节性不是数据的突出特点。
当然,排除季节性模型前应检查每个序列。然后,可将表现出季节性的序列分离出来,并单独为它们建模。
Clementine 使得同时标绘多个序列变得简单。
► 重新打开时间散点图节点。
► 从“序列”列表中删除总计字段(将其选中,然后单击红色 X 按钮)。
► 将 Market_1 至 Market_5 字段添加到列表中。
► 单击执行。
审视各个市场后发现每个市场的曲线均呈稳定上升趋势。虽然一些市场的曲线上升不如其他市场那么稳定,但也未表现出任何季节性趋势。
现在需要将 DATE_ 字段的存储类型更改为日期格式。
► 添加填充节点并单击字段选择器按钮。
► 选择 DATE_ 并将它添加到填入字段。
► 将替换条件设置为始终。
► 将替换为的值设置为 to_date(DATE_)。
更改默认日期格式以匹配“日期”字段的格式。这对于要按预期转换“日期”字段是必需的。
► 在菜单上,选择工具 > 流属性 > 选项,以显示“流选项”对话框。
► 将默认瓜田李下什么意思日期格式设置为 MON YYYY。
► 使用类型节点将 DATE_ 字段的方向设置为无。将所有其他字段(Market_n 字段以及合计字段)的方向设置为输出。
► 单击音箱没声音读取值按钮以填充“值”列。
► 添加时间区间节点(通过“字段操作”选项板)。
► 在“区间”选项卡上,选择月作为时间区间。
► 选中根据数据构建选项。
► 选择 DATE_ 作为构建字段。
► 在“预测”选项卡上,选中将记录扩展到未来复选框。
► 将值设置为 3。
► 单击确定。
► 从“建模”选项板中,将一个时间序列节点添加到流,并将它附加到时间区间节点。
生成模型
► 使用全部默认设置执行时间序列节点。此操作使 Expert Modeler 能够将最合适的模型用于每个时间序列。
► 将生成的时间序列模型附加到时间区间节点。
► 将表节点附加到时间序列模型并单击执行。
现在有三个新行(第 61 至 63 行)附加到原始数据中。这三行用于预测时限,在本例中为 2004 年 1 至 3 月。
现在还有几个新列,即时间区间节点添加的若干 $TI_ 列和时间序列节点添加的若干 $TS- 列。这些列表示每行(也就是时间序列数据中的每个区间)的以下内容:
列 | 说明 |
$TI_TimeIndex | 此行的时间区间索引值。 |
$TI_TimeLabel | 此行的时间区间标签。 |
$TI_Year | 此行中生成数据的年份和月份指示符。 | 教学新时空
$TI_Month |
$TI_Count | 确定此行的新数据时所涉及记录的数量。 |
$TI_Future | 指明此行是否包含预测数据。 |
$TS-colname | 每列原始数据的生成模型数据。 |
$TSLCI-colname | 每列生成模型数据的置信区间下限值。 |
$TSUCI-colname | 每列生成模型数据的置信区间上限值。 |
$TS-Total | 此行的 $TS-colname 值的合计。 |
$TSLCI-Total | 此行的 $TSLCI-colname 值的合计。 |
$TSUCI-Total | 此行的 $TSUCI-colname 值的合计。 |
| |
对预测操作最重要的列是 $TS-Market_n、$TSLCI-Market_n 和 $TSUCI-Market_n。特别是这些列的第 61 至 63 行,它们包含各个地区市场的用户预订预测数据和置信区间。
► 双击生成的时间序列模型,以显示有关为每个市场生成的模型的数据。
请注意 Expert Modeler 如何选择通过为其他市场生成的类型来为市场 5 生成不同类型的模型。
“预测变量”列显示有多少个字段作为每个目标的预测变量—在本例中为 0。
此视图中余下的列显示的是每个模型的拟合优度测量值。例如,固定的 R**2 列显示的是固定的 R 平方值。此统计量是序列中由模型解释的总变异所占比例的估计值。该值越高,表示模型拟合得越好。
显著性列给出了显著性值,它是用于判断模型是否正确指定的另一个指针。如果显著性值小于 0.05,则意味着被观测序列中存在模型无法解释的结构。
Expert Modeler 为 Market_1 选择的模型显得特别好,为 Market_5 和 Market_3 选择的模型也完全能够接受。Market_2 和 Market_4 的显著性值均小于 0.05,表明可能还必须进行一些实验,以便为这些市场找到拟合度更好的模型。
屏幕下方的汇总值提供了有关这些统计量在所有模型中的分布情况的信息。例如,所有模型的固定 R 平方均值为 0.247,而此值的最小值为 0.049(总计模型的该值),最大值为 0.544(Market_5 的值)。
SE 表示每个统计量在所有模型中标准误。例如,固定 R 平方在所有模型中的标准误为 0.1
69。埃及皇后
汇总部分还包括百分位数值,它们提供有关统计量在模型中的分布情况的信息。对于每个百分位数,该百分比模型的拟合统计量具有比所述值低的值。
例如,仅 25% 的模型的固定 R 平方值低于 0.121。
► 单击“视图”下拉列表并选择高级。
屏幕上即会显示若干其他拟合优度测量值。
这些其他拟合优度测量值包括平均绝对百分比误差和最大绝对百分比误差(MAPE 和 MaxAPE)。绝对百分比误差用于度量目标序列与其模型预测水平的差异程度。通过审查所有模型中的均值和最大值,可以大概知道预测的不确定性程度。由于目标序列表示不同规模市场的订户数量,因而最好考虑百分比误差而不是绝对误差。
MAPE 值显示所有模型的平均不确定性大约为 1%。
MaxAPE 值显示最大绝对百分比误差,对设想预测的最坏情形很有帮助。它显示,每个模型的最大百分比误差大约在 1.8% 至 2.5% 之间。
这些值代表了可以接受的不确定性吗?这些值确实很低。由于可接受风险因问题的不同而异,因此商业意识可以在此派上用场。
检查模型残差的自相关和偏自相关比只查看拟合优度统计量能更多地从量化角度来了解模型。这两个相关函数中的任何显著结构都意味着基础模型不完整。
► 单击“残差”选项卡可显示第一个地区市场的自相关函数 (ACF) 值和偏自相关函数 (PACF) 值。
► 单击显示模型散点图下拉列表可显示其他地区市场和总体市场的 ACF 值和 PACF 值。
► 将时间散点图节点附加到生成的时间序列模型。
► 在“散点图”选项卡上,取消选中在单独面板中显示系列复选框。
► 在系列列表上,单击字段选择器按钮,选定 Market_1 和 $TS-Market_1 字段,然后单击确定将它们添加到列表中。
► 单击执行,以显示第一个地区市场的实际数据和预测数据的线图。
请注意预测 ($TS-Market_1) 线如何通过实际数据的末端向外延伸。现已得出对此市场未来三个月预期需求的预测。
整个时间序列上的实际数据线和预测数据线在图上非常接近,表明对此特定时间序列这是一个可靠的模型。
将模型保存在文件中,以便在将来的示例中使用:
► 单击确定关闭当前图形。
► 打开时间序列模型节点(金块)。
► 选择文件 > 保存节点并指定文件位置。
► 单击保存。
现在虽然有了此特定市场的可靠模型,但该预测的误差到底有多大呢?可通过检查置信区间得到预测的误差大小。
► 双击流中的时间散点图节点再次打开其对话框。石斛食用方法
► 单击字段选择器按钮并将 $TSLCI-Market_1 和 $TSUCI-Market_1 字段添加到系列列表中。
► 单击执行。
现在有了与以前一样的图形,但添加了置信区间上限 ($TSUCI) 和下限 ($TSLCI)。