残差平方和 决定系数
首先看看几个定义:
总体平方和TSS( total sum of squares)
回归平方和RSS(regression sum of squares)
残差平方和ESS(Residual sum of squares)
其中,yi表示实验数据,fi 表示模拟值,表示样本平均值。
决定系数(Coefficient of determination)
在一定程度上反应了模型的拟合优度。
其实就是回归平方和在总体平方和中所占的比例。因为TSS=RSS+ESS
The better the linear regression (on the right) fits the data in comparison to the simple average (on the left graph), the clor the value of R2 is to one. The areas of the blue squares reprent the squared residuals with respect to the linear regression. The areas of the red squares reprent the squared residuals with respect to the average value.
红色区域是总体平方和,蓝色为残差平方和。
>> 为什么要用决定系数去反应拟合优度,而不用残差平方和呢?
>> 因为,残差平方和与观测值的绝对大小有关,而决定系数是一个比例。
比如:有一组数据:1000,2000,
另一组数据:1,2,
这个时候就会发现第一组数据的拟合后残差平方和会大很多,但是不见得,模型拟合优度就会差。
第三章 一元线性回归
第一部分 学习指导
一、本章学习目的与要求
1、掌握一元线性回归的经典假设;
2、掌握一元线性回归的最小二乘法参数估计的计算公式、性质和应用;
3、理解拟合优度指标:决定系数R2的含义和作用;
4、掌握解释变量和被解释变量之间线性关系检验,回归参数和的显著性检验
5、了解利用回归方程进行预测的方法。
二、本章内容提要
(一)一元线性回归模型的假设条件
(1)E()=0 (i=1,2,……,n),即随机误差项分布的均值为零。
(2)Var()= (i=1,2, ……,n),即随机误差项方差恒定,称为同方差。
(3)Cov(,)=0,(任意i≠j,i,j =1,2, ……,n),即随机误差项之间互不
相关。
(4)解释变量是非随机的,换句话说,在重复抽样下,的取值是确定不变的。
(5)~N(0,),即随机误差项服从均值为0,方差为的正态分布。
前四个假定就是著名的高斯—马尔科夫假定或者称为回归分析的经典假定。
(二)一元线性回归最小二乘法估计参数的计算公式及性质
1、一元线性回归最小二乘法估计参数的计算公式为:
2、一元线性回归最小二乘法估计参数的性质与估计量的性质
(1)残差的总和等于0,即=0。
(2)残差的平方和最小,即最小。
(3)被解释变量的实际观测值之和等于其拟合值之和,从而的均值与的均值也相等。
(4)残差与互不相关,即。
(5)回归直线通过解释变量和被解释变量的均值点。
3、OLS法得到的估计量的性质
(1) 线性性,即参数估计量是关于被解释变量取值的线性函数。
(2)无偏性,即参数估计量的均值等于参数本身,也就是E()=,E()=
(3)方差最小性,即在参数的所有线性无偏估计中,OLS估计量是方差最小的。该性质也称为方差有效性。
由(1)、(2)、(3)条性质知,根据最小二乘法得到的参数估计量是最优线性无偏估计量(Best Linear Unbias Estimator),简称BLUE估计量。
(三)拟合优度指标:决定系数R2
1、总离差平方和的分解(TSS)
即:
总离差平方和=回归平方和+残差平方和
其中:,称为回归平方和(Explained Sum of Square);
,称为残差平方和(Residual Sum of Square)。
2、决定系数R2
=
决定系数反映的是回归方程的拟合程度,值越大说明拟合优度越好,反之越差。
(四)变量之间线性关系的显著性检验
1、解释变量和被解释变量之间线性关系检验
解释变量和被解释变量之间线性关系检验,使用F检验。
~
如果计算出的F值大于在给定的显著性水平下的临界值,则接受备择假设,说明解释变量对被解释变量有显著影响,即两者线性关系显著。如果经计算出的F值小于在给定的显著性水平下的临界值,则接受原假设,说明解释变量对被解释变量没有显著影响,即两者线性关系不显著。在Eviews软件中,通常只要看F值所对应的概率。在Eviews软件中用Prob(F-statistic)表示,它被定义为Prob(F-statistic)==。由概率统计知识知,只要F值所对应的概率小于给定的显著性水平,就一定有F值大于临界值。也就是说,只要比较Prob(F-statistic)和的大小就可以判断两变量线性关系是否显著。
2、回归参数和的显著性检验
计量经计学中,主要是针对回归参数真值是否为零来进行显著性检验的。对回归参数和的显著性检验使用检验。
(1)回归参数的显著性检验
,实际应用中,总体方差通常是未知的, ==。
检验步骤如下:
对总体参数提出假设
H0: 1=0, H1:10
以原假设H0构造t统计量,并由样本计算其值
给定显著性水平,查t分布表,得临界值;
比较,判断,若||>则拒绝H0 ,接受H1 ; 若|t|,则拒绝H1 ,接受H0 。
(2)回归参数的显著性检验
仿照回归参数的显著性检验方法,构造统计量:
具体步骤与回归参数的显著性检验步骤相同。
(五)总体均值和个别值的预测
1、总体均值的点估计
在给定条件下,的点估计值或称为预测值为:
。
2、总体均值的区间估计
在给定显著性水平的条件下,的置信区间为:
(- , +)
其中, =
3、个别值的区间估计
在给定显著性水平的条件下,(-, +)
其中:,一般用代替。
第二部分 重点、难点解析
一、一元线性回归分析的一般步骤
一元线性回归分析有以下几个主要步骤:
第一步,根据研究的目的和内容确定被解释变量和解释变量,即变量的选择问题。
选择解释变量的一个原则是:既要与被解释变量有密切的关系,又要考虑变量资料的可得性,还要兼顾模型简洁。
第二步,模型的设定。
模型设定从根本上来说,是根据研究的经济现象,依据相应的经济理论加以确定的。可以说,依据的经济理论正确与否是模型建立的关键。当然对经济现象历史分析的实践经验也是模型设定的重要依据。实践中,当经济理论和实践经验都较为缺乏时,比如,研究一个从未研究过的新问题时,人们通常的做法是:根据所收集到的资料作散点图,再依据散点图的形状来确定模型应采用的形式。
第三步,参数估计。
根据设定的模型,利用已经收集到的样本数据,应用最小二乘法对模型中的参数进行估计。目前关于最小二乘法估计的软件很多,如Eviews,SAS等都可以用来对参数进行估计,包括回归参数,以及随机误差项的方差的估计。
第四步,模型的检验和修正。
当模型中的参数估计出来以后,模型基本上就建立了。但是模型建立的好坏还需对模型本身及其参数作必要的检验。常用的检验经济检验、统计检验、计量经济检验以及残差图检
验。如果模型通过了以上所有检验,则模型拟合较好,可以进行实际运用。如果某一种检验没有通过,就需要找出其未通过的原因,并根据具体情况对模型、估计方法等进行修正或调整。
第五步,模型的运用。
模型的运用是回归分析的目的和问题的出发点。回归模型的一个重要应用是进行预测,或者通过预测达到控制目的。就一元线性回归分析而言,就是给定解释变量的一个特定值,来预测对应被解释变量的平均值和个别值。
整个过程以流程图的形式给出如下:
二、如何根据Eviews软件回归的结果进行模型的检验
(一)回归直线拟合优度的检验
在Eviews软件运行结果中,可以直接得到拟合优度的值,“R-squared”即是统计量,“Adjusted R-squared”即是调整的统计量。
(二)回归系数估计量的显著性检验
在Eviews软件中,通常只要看值所对应的概率,在Eviews软件中用Prob.表示,它被定义为Prob.= =。由概率统计知识知,只要值所对应的概率小于给定的显著性水平,就一定有值的绝对值大于临界值。也就是说,只要比较Prob.和的大小就可以判断和与0是否有显著差异。
(三)回归方程的显著性检验
在Eviews软件中,通常只要看F值所对应的概率。在Eviews软件中用Prob(F-statistic)表示,它被定义为Prob(F-statistic)==。由概率统计知识知,只要F值所对应的概率小于给定的显著性水平,就一定有F值大于临界值。也就是说,只要比较Prob(F-statistic)和的大小就可以判断两变量线性关系是否显著。
三、残 差 图 分 析
(一)残差图分析的依据
标准回归模型假定随机误差项满足零均值、同方差、不相关等假定。特别地,为了进行统计推断还要求随机误差项服从正态分布,即~N(0,)。如果样本回归模型对数据拟合是良好的话,那么的估计就应该反映的这些分布特性,即应近似服从N(0,),从而有/~N(0,1),并称/为标准化残差。考虑到一般是未知的,用来代替,通常用表示,从而有:
~N(0,1)
(二)标准化残差图主要形式:
1.回归方程拟合较好
如果由(,)构成的点绝大多数落在(-2,+2)的水平带状区间之中,且不带有任何系统趋势、完全随机地分布在该带状之中,则说明采用的回归方程对样本数据的拟合是良好的,见下图。
图 3.6 回归方程拟合较好的残差图
2.回归方程具有某种曲线形式
如果总体回归方程本质上是曲线,而我们回归时却采用的是直线,此时标准化残差图就会
表现出某种曲线形状,产生所谓的系统性偏差。图3.7给出了两种可能的形状。