实验7 相关与回归分析
7.1实验目的
熟练掌握一元线性回归分析的SPSS应用技能,掌握一元非线性回归分析的SPSS应用技能,对实验结果做出解释。
7.2相关知识(略)
7.3实验内容
7.3.1一元线性回归分析的SPSS实验
7.3.2一元非线性回归分析的SPSS实验
7.4实验要求
7.4.1准备实验数据
1.线性回归分析数据
美国各航空公司业绩的统计数据公布在《华尔街日报1999年年鉴》(The Wall Street Journal Almanac 1999)上。航班正点到达的比率和每10万名乘客投诉的次数的数据,见表7-1所示。
表7-1 美国航空公司航空正点率与乘客投诉次数资料
航空公司名称 | 航班正点率(%) | 投诉率(次no matter what/10万名乘客) 暗门子 |
西南(Southwest)航空公司 | 81.8 | 0.21 |
大陆(Continental)航空公司 | 76.6 | 0.58 |
西北(Northwest)航空公司 | 76.6 | 0.85 |
美国(US Airways)航空公司 | 75.7 | 0.68 |
联合(United)航空公司 | 73.8 | 0.74 |
美洲(American)航空公司 | 72.2 | 0.93 |
德尔塔(Delta)航空公司 | 71.2 | 0.72 |
美国西部(Americawest)航空公司 | 70.8 | 1.22 |
环球(TWA)航空公司 | 68.5 | 1.25 |
| | |
2.非线性回归分析数据
1992~2013年某国保费收入与国内生产总值的数据,试研究保费收入与国内生产总值的关系的数据,见表7-2所示。
表7-2 1992~2013年某国保费收入与国内生产总值数据 单位:万元
年度 | 保费收入 | 国民生产总值 | | 年度 | 保费收入 | 国民生产总值 |
1992 | 4.6 | 4517.8 | | 2003 | 239.7 | 21662.5 |
1993 | 7.8 | 4860.3 | | 2004 | 378 | 26651.9 |
1994 | 10.3 | 5301.8 | | 2005 | 525 | 34560.5 |
1995 | 13.2 | 5957.4 | | 2006 | 630 | 46670 |
1996 | 20 | 7206.7 | | 2007 | 683 | 57494.9 |
1997 | 33.1 | 8989.1 | | 2008 | 776 | 66850.5 |
1998 | 45.8 | 10201.4 | | 2009 | 1080 | 73142.7 |
1999 | 71.04 | 11954.5 | | 2010 | 1247.3 | 76967.2 |
2000 | 109.5 | 14922.3 | | 2011 | 1393.22 | 80579.4 |
2001 | 142.6 | 16917.8 | | 2012 | 1595.9 | 88228.1 |
怎样申请出国留学 2002 | 178.5 | 18598.4 | | 2013 | 2109.36 | 94346.4 |
| | | | | | |
7.4.2完成一元线性回归分析的SPSS实验,对实验结果作出简要分析。
7.4.3完成一元非线性回归分析的SPSS实验,对实验结果作出简要分析。
7.5实验步骤
7.5.1 完成一元线性回归分析的SPSS实验步骤
1.运用SPSS绘制散点图散点图。
第一步:在excel中输入数据
图7-1
第二步:将excel数据导入spss
单击打开数据文档按钮(或选择菜单文件→打开)→选择文件航空公司航班正点率与投诉率.xls
图7-2
第三步:选择菜单图形→ 旧对话框→ 散点/点状,在散点图/点图对话框中,选择简单分布按钮
图7-3
accompany是什么意思 第三步:在简单散点图对话框中,将候选变量框中的投诉率添加到Y轴,航班正点率添加到X轴,点击确定:
图7-4
第四步:运行得到:
图7-5
根据散点图初步判断航班正点率和投诉率呈线性关系
2.计算相关系数,明确变量之间存在的相关关系。
第一步:选择菜单分析(A)相关(C)→ 双变量相关(B),在双变量相关对话框中,将候选变量框中的航班正点率和投诉率添加到变量(V)框,点击确定:
图7-6
第二步:运行得到
表7-1 相关性 |
| 航班正点率(%) | 投诉率(次/10万名乘客) |
航班正点率(%) | Pearson 相关性 | 1 | -.883** |
显著性(双侧) | | 光滑.002 |
N | 9 | 9 |
投诉率(次/10万名乘客) | Pearson 相关性 | -.883** | 1 |
显著性(双侧) | .002 | |
N | 9 | 9 |
**. 在 .01 水平(双侧)上显著相关。 |
| | | |
根据相关系数判断:航班正点率和投诉率的相关系数为-0.833,显著性水平P为0.002小于0.05,说明航班正点率和投诉率高度负相关。
3.拟合回归方程
第一步:选择菜单分析(A)→ 回归(R)→ 线性(L),将候选变量框中的投诉率添加到因变量框(D),航班正点率添加到自变量框(T),点击确定:
图7-7
第二步,运行得到
表7-2 系数a |
模型 | 非标准化系数 | 标准系数 | t | Sig. (显著性水平) |
B | 标准 误差 | 试用版 |
1 | (常量) | 6.018 | 1.052 | | 5.719 | .001 |
航班正点率(%) | -.070 | .014 | -.883 | -4.967 | .002 |
a. 因变量: 投诉率(次/10中学辅导万名乘客) |
| | | | | | |
拟合回归方程为=-0.07 X + 6.018,常数项和自变量t值分别为5.719和-4.967,显著性水平P分别为0.001和0.002,均小于0.05,说明常数项和自变量X对因变量Y有显著影响。
4.计算回归标准误差,说明回归直线的代表性;计算样本拟合优度,说明模型拟合的效果。
第一步:操作同3
第二步,运行得到
表7-3 模型汇总 |
模型 | R | R 方 | 调整 R 方 | 标准 估计的误差 |
1 | .883a | .779 | .747 | .16082 |
a. 预测变量: (常量), 航班正点率(%)。 |
| | | | |
估计标准误差=0.16082比较小,说明回归直线代表性较好。
R2为0.747接近1,表明模型的拟合效果比较好。
5.在不同置信水平下建立回归估计的置信区间
nba是什么意思 在置信水平1-α取不同值的情况下,回归估计的置信区间为:
6.对估计的回归方程的斜率作出解释
回归方程的斜率,即回归系数b=-0.07,表示航班正点率每提高1%,旅客投诉率会降低0.07%。
7.如果航班按时到达的正点率为80%,估计每10万名乘客投诉的次数。
根据回归方程=-0.7 X + 6.018,当航班正点率为80%时,每10万名乘客投诉的次数为-0.7×80+6.018=0.418(次)
8.如果航班按时到达的正点率为80%,试在95%可信程度下估计每10万名乘客投诉的置信区间。
如果航班按时到达的正点率为80%,试在95%可信程度下估计每10万名乘客投诉的置信区间为
=[0.1028,0.7332]
7.5.2完成一元非线性回归分析的skillsoftSPSS实验步骤
1. 画出这些数据的散点图
第一步:在excel中输入数据
图7-1
第二步:将excel数据导入spss
单击打开数据文档按钮(或选择菜单文件→打开)→选择文件国民生产总值与保费收入.xls
图7-2
第三步:选择菜单图形→ 旧对话框→ 散点/点状,在散点图/点图对话框中,选择简单分布按钮
图7-3
第四步:在简单散点图对话框中,将候选变量框中的将保费收入添加到Y轴,国民生产总值添加到X轴:
图7-4
第五步:运行得到:
图7-5
根据散点图初步判:国民生产总值与保费收入呈非线性关系。
2.计算不同模型的样本拟合优度,并据此选择拟合效果最好的模型。
第一步:选择菜单分析→ 回归→ 曲线估计,在曲线估计对话框中,将候选变量框中的保费
收入添加到因变量,将国民生产总值添加到自变量,依次选择模型复选框中的线性、二次项、对数、指数等模型。
图7-6
第二步: 依次得到运行结果
图7-7 直线 R2=0.941
图7-8 二次曲线 R2=0.973
图7-9 复合 R2=0.789
图7-10 增长 R2=0.789
图7-11 三次曲线 R2=0.990
图7-12 对数 Rlamento2=0.772
图7-13 S曲线 R2=0.946
图7-14 指数 R2=0.789
图7-15 反向 R2=0.015
图7-16 幂 R2=0.015
图7-17 Logistic R2=0.829
通过对比上述模型,与观测点变化趋势拟合最好的是三次曲线模型,三次曲线的拟合优度最大(R2=0.990),也说明它是拟合效果最好的模型。
或者在第一步中,将所有模型的复选框全部选定,得到运行结果:
模型汇总和参数估计值 |
因变量:保费收入 |
方程 | 模型汇总 | 参数估计值 |
R 方 | F | df1 | df2 | Sig. | 常数 | b1 | b2 | b3 |
线性 | .941 | 316.551 | 1 | 20 | .000 | -154.292 | .019 | | |
对数 | .772 | 67.889 | 1 | 20 | .000 | -4576.241 | 508.979 | | |
倒数 | .481 | 18.572 | 1 | 20 | .000 | 966.105 | -6138735.913 | | |
二次 | .973 | 336.771 | 2 | 19 | .000 | 23.846 | .003 | 1.756E-7 | |
三次 | .990 | 617.659 | 3 | 18 | .000 | -166.430 | .029 | -5.364E-7 | 5.022E-12 |
复合 | .789 | 74.788 | 1 | 20 | .000 | 23.315 | 1.000 | | |
幂 | .972 | 700.929 | 1 | 20 | .000 | 2.521E-6 | 1.796 | | |
S | .946 | 347.778 | 1 | 20 | .000 | 7.069 | -27064.140 | | |
增长 | .789 | 74.788 | 1 | 20 | .000 | 3.149 | 5.450E-5 | | |
指数 | .789 | 74.788 | 1 | 20 | .000 | 23.315 | 5.450E-5 | | |
Logistic | .789 | 74.788 | 1 | 20 | .000 | .043 | 1.000 | | |
自变量为 国民生产总值(亿元)。 |
| | | | | | | | | |
同样,通过对比上述模型,与观测点变化趋势拟合最好的是三次曲线模型,三次曲线的拟合优度最大(R2=0.990),也说明它是拟合效果最好的模型。
3.求解保费收入依国民生产总值的估计回归方程。
第一步:选择菜单分析→ 回归→ 曲线估计,在曲线估计对话框中,将候选变量框中的保费收入添加到因变量,将国民生产总值添加到自变量,选择模型复选框中的立方模型
图7-18
第二步:单击曲线估计对话框中的保存按钮,在曲线估计:保存对话框中,选择预测值、残差、预测区间复选框
图7-19
第三步,运行结果
表7-4 模型汇总
R | R 方 | 调整 R 方 | 估计值的标准误 |
.995 | .990 | .989 | 64.883 |
自变量为 国民生产总值。 |
| | | |
R2为0.990非常接近1,表明模型的拟合效果非常好。
表7-5 系数
关于名胜古迹的作文
| 未标准化系数 | 标准化系数 | t | Sig. |
B | 标准误 | Beta |
国民生产总值 | .029 | .005 | 1.506 | 5.836 | .000 |
国民生产总值 ** 2 | -5.364E-7 | .000 | -2.554 | -4.277 | .000 |
国民生产总值 ** 3 | 5.022E-12 | .000 | 2.093 | . | . |
(常数) | -166.430 | 45.399 | | -3.666 | .002 |
| | | | | |
从表中可知因变量与自变量的三次回归模型为:y=-166.430 + 0.029x - 5.364E-7x2 + 5.022E-12x3
7.6 思考与练习题
7.6.1一元线性回归分析
合金钢的强度Y与碳含量X关系密切,通常根据强度要求来控制碳的含量来达到目的,二者之间关系如下:
碳含量 | 0.03 | 0.04 | 0.05 | 0.07 | 0.09 | 0.10 | 0.12 | 0.15 | 0.17 | 0.20 |
钢强度 | 40.50 | 39.50 | 41.00 | 41.50 | 43.00 | 42.00 | 45.00 | 47.50 | 53.00 | 56.00 |
| | | | | | | | | | |
(1)画出这些数据的散点图;
(2)根据散点图和相关系数,表明二变量之间存在什么关系?
(3)求出描述钢强度是如何依赖碳含量的估计的回归方程;
(4)计算回归标准误差,说明回归直线的代表性;计算样本拟合优度,说明模型拟合的效果;