SPSS——线性回归
SPSS-线性回归
笔记总结。本⽂只有SPSS结果分析,推导等有空再搞
鹅肉的营养价值参考⽂献:
电脑启动不了线性回归的假设前提
线性回归分析,需要先满⾜以下8项假设:
假设1:因变量是连续变量。辞职单模板
假设2:⾃变量不少于2个(连续变量或分类变量都可以,多重线性回才需要满⾜)。
假设3:各观测值之间相互独⽴,即残差之间不存在⾃相关。
假设4:因变量和⾃变量之间存在线性关系。
假设5:残差的⽅差齐。
假设6:不存在多重共线性。
假设7:没有显著异常值。
假设8:残差近似正态分布。
结果图表分析
下⾯简单解释⼀下这三张图中的结果:辅导班招生
表
R表⽰拟合优度(goodness of fit),它是⽤来衡量估计的模型对观测值的拟合程度。它的值越接近1说明模型越好。
第⼆个指标R2(R Square)代表回归模型中⾃变量对因变量变异的解释程度,是分析回归结果的开始。例如,R2=0.489,提⽰⾃变量可以解释48.9%的因变量变异。但是,R2是会夸⼤⾃变量对因变量变异的解释程度,如果模型中增加⼀个⾃变量,即使这个⾃变量在统计上并不显著,R2也会增⼤。
R-square 和 Adjusted R-squared联系与区别
R-square(值范围0-1):描述的输⼊变量对输出变量的解释程度。在单变量线性回归中R-square 越⼤,说明拟合程度越好。
然⽽只要增加了更多的变量,⽆论增加的变量是否和输出变量存在关系,则R-squared 要么保持不变,要么增加。
所以, 需要adjusted R-squared ,它会对那些增加的且不会改善模型效果的变量增加⼀个惩罚向。
李良森
调整的R平⽅,与R2不同的是,它剔除了⾃变量个数的影响,这使得adjusted R2永远⼩于R2,且adjusted R2的值不会由于⾃变量个数的增加⽽越来越接近1。adjusted R2也是影响程度的评价指标,⽐调整前R平⽅更准确⼀些,图中的最终调整R⽅为0.550,表⽰⾃变量⼀共可以解释因变量55%的变化(variance)。
综上结论:如果单变量线性回归,则使⽤ R-square评估,多变量,则使⽤adjusted R-square。
另外,由于使⽤的是StepWi Linear Regression (SWLR),分析——回归——线性——“⽅法”选择“逐步”,所以模型1、2、3的R ⽅逐渐增⼤,标准误差逐渐减⼩。
(据⽹友的介绍:⼀般认为,拟合优度达到0.1为⼩效应(R⽅0.01),0.3为中等(R⽅0.09),0.5为⼤(R⽅0.25),这是针对⾃然科学的⼀般界限。其实个⼈感觉R⽅没有0.5都挺⼩)
第⼆个表Anova表⽰⽅差分析结果,主要看F和sig值两个,F值为⽅差分析的结果,是⼀个对整个回归⽅程的总体检验,指的是整个回归⽅程有没有使⽤价值(与随机瞎猜相⽐)。其F值对应的Sig值⼩于0.05就可以认为回归⽅程是有⽤的。
另外,从F值的⾓度来讲:F的值是回归⽅程的显著性检验,表⽰的是模型中被解释变量与所有解释变量之间的线性关系在总体上是否显著做出推断。若F>Fa(k,n-k-1),则拒绝原假设,即认为列⼊模型的各个解释变量联合起来对被解释变量有显著影响,反之,则⽆显著影响。
这⾥简单对Fa(k,n-k-1)进⾏⼀下解释,k为⾃变量个数,n为样本容量,n-k-1为⾃由度。对于实验中的情况来讲,k=3,样本容量为146,所以查表的时候应该差Fa(3,142),⼀般数理统计课本中都有F分布表,a表⽰的显著性⽔平(⼀般取0.05),但我们⼿头不⼀定会有课本,就需要借助于excel来查F表,打开excel,在公式区输⼊:=FINV(0.05,3,142),在单元格中即出现2.668336761,表中的F值显著⼤于这个值,则认为各个解释变量对因变量有显著影响。
需要注意的是,⽅差分析是对多个⾃变量的总体检验,⽽不是单个⾃变量(单个⾃变量在系数表中,为单样本T检验),这就是第三个表回归系数表中的内容。
系数表格列出了⾃变量的显著性检验结果(使⽤单样本T检验),最后⼀列为T检验的sig,表中均⼩于0.05,说明⾃变量对因变量具有显著影响,B表⽰各个⾃变量在回归⽅程中的系数,负值表⽰IPGF这个⾃变量对因变量有显著的负向影响,但是由于每个⾃变量的量纲和取值范围不同,基于B并不能反映各个⾃变量对因变量影响程度的⼤⼩,这时候我们就要借助标准系数。⽬前表格中的“试⽤版”实际上是Beta的意思,此时数值越⼤表⽰对⾃变量的影响更⼤。
从这个分析过程来看,这个实验结果还挺理想的。
选择所述Durbin-Watson选项,SPSS输出Durbin-Watson检验的结果。Durbin-Watson检验常⽤来检测残差是否存在⾃相关。
⼀般来说,Durbin-Watson检验值分布在0-4之间,越接近2,观测值相互独⽴的可能性越⼤。本研究Durbin-Watson检验值为2.257,说明观测值具有相互独⽴性,满⾜假设3。
但不得不说,Durbin-Watson检验不是万能的。它仅适⽤于对邻近观测值相关性的检验(1st-order autocorrelation)。举例来说,我们⼀般按照调查顺序录⼊数据,将第⼀位研究对象录⼊到第⼀⾏,再将第⼆位研究对象录⼊到第⼆⾏。在这种情况下,Durbin-Watson检验可以检测出第⼀位研究对象和第⼆位研究对象之间的相关性。但是如果我们乱序录⼊数据,将第⼀位研究对象和可能与他存在⾃相关的第⼆位研究对象离得很远,Durbin-Watson检验的结果就不准确了。因此,我们需要慎重对待Durbin-Watson检验的结果。
上海糖醋排骨赵体楷书其实,观测值是否相互独⽴与研究设计有关。如果研究者确信观测值不会相互影响,我们甚⾄可以不进⾏Durbin-Watson检验,直接认定研究满⾜假设3。
标准化残差的直⽅图
从图中可以看出,标准化残差近似正态分布。但是由于横纵坐标⽐例的影响,柱状图的结果可能不准确,我们需要绘制P-P图进⼀步验证。P-P图
P-P图各点分布离对⾓线越近,提⽰数据越接近于正态分布;如果各点刚好落在对⾓线上,那么数据就是正态分布。
简单线性回归仅要求回归残差接近于正态分布,因此根据上图,我们认为该数据满⾜假设:残差近似正态分布。
每个手指戴戒指的含义
相较于直⽅图, P-P图可以更加明显、准确地判断数据的正态性。因此判断正态性时,需要谨慎对待直⽅图的结果,应结合P-P图全⾯分析。
撰写结论
eg:
采⽤简单线性回归模型分析久坐时间对胆固醇浓度的影响。通过绘制散点图,直观判断两者之间存在线性关系,并通过绘制标准化残差散点图和带正态曲线的直⽅图和P-P图,判断残差⽅差齐且近似正态分布。同时为了保证数据的代表性,我们剔除了⼀项异常值(胆固醇浓度为6.94mmol/L)。
回归⽅程为:胆固醇浓度= 3.64856+(0.00632×久坐时间)。久坐时间对胆固醇浓度的影响有统计学意义,F=161.926,P <0.001;久坐时间可以解释胆固醇浓度变异的62.5%,影响程度中等(调整R2= 62.2%)。久坐时间每增加1分钟/天,胆固醇浓度增加0.00632 (95% CI:0.00533-0.00731)mmol/L。
001;久坐时间可以解释胆固醇浓度变异的62.5%,影响程度中等(调整R2= 62.2%)。久坐时间每增加1分钟/天,胆固醇浓度增加
0.00632 (95% CI:0.00533-0.00731)mmol/L。
此外,久坐时间为160分钟/天、170分钟/天和180分钟/天的胆固醇浓度预测值分别为4.660 (95% CI:4.517-4.802)mmol/L、
4.723 (95% CI:4.589-4.857)mmol/L和4.786 (95% CI:4.661-4.91)mmol/L。"