评价最⼩⼆乘法回归模型的优劣⽤什么⽅法?_线性回归中的
R⽅与R⽅显著性
引⾔:在前⾯⼀⼩节中,我们了解了如何利⽤最⼩⼆乘法求解拟合直线,今天我们继续了解回归直线的⼀些常见特征。
1 最⼩⼆乘法拟合最佳回归直线
最⼩⼆乘法拟合最佳回归直线,详见推⽂“最⼩⼆乘法与线性回归”。
⼩⿏体重和体积的数据中,利⽤最⼩⼆乘法拟合最佳回归直线:y=0.1+0.78x。
其中0.1为拟合直线在y轴上的截距,0.78为拟合直线的斜率。斜率不等于0,故可以根据⼩⿏的体重预测其体积。
2 计算拟合直线的R2,判断模型的优劣
既然我们已经通过最⼩⼆乘法求解出拟合直线,那么通过该直线的预测效果怎样呢?这就是我们接下来讨论的问题。
统计术语
情况1:不考虑x轴数据(即不考虑⼩⿏体重)时。
围绕均值的残差平⽅和(有时候也称围绕均值的平⽅和):SS(mean);
围绕均值的变异(即数据的⽅差):Var(mean);其中:n=样本数。
情况2:考虑x轴数据与y轴数据的关系(即考虑⼩⿏体重与⼩⿏体积的关系)时。
围绕拟合直线的残差平⽅和(有时候也记作围绕拟合直线的平⽅和):SS(fit);
围绕拟合直线的变异(即围绕拟合直线的数据⽅差):Var(fit);其中n=样本数。
R2量化由体重与体积关系解释的⼩⿏体积部分变异
通过前⾯两种情况的⽐较,可以得围绕拟合直线的变异⼩于围绕均值的变异,即SS(mean) >SS(fit)。这说明⼩⿏体重与体积的关系可以解释⼩⿏体积的部分变异,体重越重,体积越⼤。R2可以量化⼩⿏体重与体积的关系解释的⼩⿏体积部分变异,表⽰拟合直线所能减⼩的总
体变异百分⽐,计算公式如下图:
R2可由SS(mean)、SS(fit)计算得出,也可由Var(mean)、Var(fit)计算得出,⼆者的结果完全等价,如下图。
||(等价)
结果解读:
当不考虑⼩⿏体重时,仅使⽤⼩⿏体积的均值对⼩⿏体积进⾏预测,平均每只⼩⿏体积围绕均值的⽅差为11.1;
万芳
当考虑⼩⿏体重时,对⼩⿏体积进⾏预测,平均每只⼩⿏体积围绕最优拟合直线的⽅差为4.4。
将数据(平均残差平⽅或者残差平⽅和)代⼊R2的计算公式,得到R2=60%,表⽰考虑⼩⿏体重与⼩⿏体积的关系时,⼩⿏体积的变异减少60%;也可以说⼩⿏体重与⼩⿏体积的关系可以解释60%的⼩⿏体积变异。
补充⼀个极端的例⼦:R2=1。
x与y两变量完全相关。左下图的回归直线能够根据⼩⿏体重,100%准确预测⼩⿏体积,意味着所有的样本数据均位于拟合直线上,⼩⿏体积与⼩⿏体重完全相关。
计算⽅法同前,得出R2=1,表⽰纳⼊的⼩⿏体重变量可以完全解释⼩⿏体积的变异。
补充另⼀个极端的例⼦:R2=0。
x与y变量完全不相关。左下图的回归直线不能够根据⼩⿏体重预测⼩⿏体积,意思是⼩⿏体积与⼩⿏体重没有任何相关性,体重较轻⼩⿏的体积可能⼤也可能⼩,体积较重⼩⿏的体积可能⼤也可能⼩。新冠预防措施
计算⽅法同前,得出R2=0,表⽰纳⼊的⼩⿏体重变量完全不能解释⼩⿏体积的变异。
补充⼀个复杂的例⼦:R2可适⽤于任何复杂的回归模型。
多个变量预测结局变量。如果我们想知道是否基于⼩⿏体重(mou weight)和尾长(tail length)的数据能够较好的预测⼩⿏的⾝长(body length)。在3-d坐标中绘制结果,使⽤最⼩⼆乘法求出最佳回归平⾯(因为⽅程中多了⼀个参数),y=0.1+0.7x+0.5z。
计算R2的⽅法同前,带⼊公式即可求出R2,从⽽计算出考虑体重与尾长时,其所能减少的⼩⿏体重的变异。
如果⼩⿏尾长(z-轴)对预测⼩⿏⾝长⽆意义,也不会使得SS(fit)更⼩。使⽤最⼩⼆乘法求出最佳回归平⾯为y=0.1+0.7x+0z,⽅程中的0z代表拟合结果忽略⼩⿏尾长数据。通过此实例,我们可以知道,即使拟合结果中有⾮常多的参数,也不会使拟合结果变差(见式①)。换句话说,最⼩⼆乘法通过将参数乘以0的⽅法消除掉任何不利于拟合效果的参数(见式②)。如下:
① Mou size = 0.3 + mou weight + 0 x flip of a coin + 0 x favourite color + 0 x astrological sign + ...
② Mou size = 0.3 + mou weight
校正的R2:
工程造价是干嘛的由于数据的随机性,在数据集中也可能出现体积较⼩⼩⿏对应更多的硬币正⾯,体积较⼤的⼩⿏对应更少的硬币反⾯(这两件事看似风马⽜不相及,但是因为偶然性也可能具有相关性)。如果这件事情发⽣,则通过最⼩⼆乘法得到如下的拟合结果(见式③)。在该拟合结果中,SS(fit)更⼩,R2更⼤。
③ Mou size = 0.3 + mou weight + flip of a coin
故拟合结果⽅程中的参数越多,获得较⼩SS(fit)和更⼤R2这样随机事件的机会越多。由于解释变量个数增加所导致的R2增加与模型拟
合的好坏⽆关。因此,如果有必要的话,我们需要报告由纳⼊模型参数的数据校正的”adjusted R2”。如何校正R2 ,看似很复杂,但可由计算机得出(见后续线性回归 in R)。
婴儿多大可以吃盐补充如何校正R^2: 在样本容量⼀定的情况下,增加解释变量必定使得⾃由度减少,所以调整的思路是:将残差平⽅和与总离差平⽅和分别除以各⾃的⾃由度,以剔除变量个数对拟合优度的影响。其中: n-k-1为残差平⽅和的⾃由度,n-1为总体平⽅和的⾃由度。属鸡的几岁
3 判断R2的统计显著性:P值
3.1 F值的计算
钥匙英语怎么读除了计算R2,还需要计算R2的p值以报告结果的显著性。
为什么需要报告p值? R2可以量化拟合模型中纳⼊变量解释预测变量变异的程度,但是单独使⽤R2表⽰拟合模型的效果仍然会出现⼀些问题。例如,在仅有2个样本的数据中,⽆论两个变量是否具有相关性,R2=1,表⽰变量1(x-轴)可以完全解释变量2(y-轴)的变异。实际上是因为两点决定⼀条直线导致,所以变量1能否解释变量2变量并不确定。故在描述模型的R2时,我们还应该报告该模型的p值。
⾄此我们已经清楚R2的计算,接下来我们讨论如何计算p值。R2对应的p值来⾃于F分布,F分布值与R2的计算公式相似,⼆者分⼦均为由模型中变量解释的变异,⽽R2计算中的分母为不考虑模型中变量关系的变异,F计算中的分母为未能由模型中变量解释的变异。
在⼩⿏体重与⼩⿏体积的数据中,F值的⼤⼩等于体重解释的⼩⿏体积变异除以⼩⿏体重未能解释的⼩⿏体积变异(除⼩⿏体重外,还有其他任何可能因素引起的⼩⿏体积的变异)。拟合模型对应的残差即为⼩⿏体重未能解释的变异。具体⽽⾔,F的计算公式如下:
SS(mean)、SS(fit)的意义见前⾯的介绍,SS(mean)-SS(fit)表⽰由拟合直线解释的变异。
春节主题的手抄报
p fit-p mean和n-p fit表⽰⾃由度,它们的作⽤是将平⽅和(sum of square)转变成⽅差(variance)。p fit是拟合直线中的参数个数;
p(mean)是均值直线(y=mean)中参数的个数。
在我们的案例中,拟合直线有斜率和截距2个参数,故p fit=2;均值直线中仅有截距1个参数,故p mean=1。两条直线⽅程都有截距参数,但是拟合直线还包括斜率参数。例如在此例中,F值的分⼦表⽰由斜率参数解释的变异(即考虑⼩⿏体重与⼩⿏体积的关系)。
扩展:⽆论含多少个变量的拟合结果,其F值的计算⼀致。如拟合的结果为⼀平⾯,则p(fit)=3; p(mean)保持不变,则分⼦表⽰有额外两个参数解释的变异(即考虑⼩⿏体重、尾长与⼩⿏体积的关系)。
云南国税官网
如果我们的拟合效果很好,那么由拟合结果解释的变异多(分⼦⼤),未由拟合结果解释的变异少(分母⼩),将得到⼀个较⼤的F值。3.2 利⽤分布,实现F值到p值的转换
随机产⽣多组⼆维数据集合,分别计算它们的SS(mean)、SS(fit)和F值,并将每⼀次F值的结果绘制到直⽅图上,如下。
产⽣第⼀组随机数据:计算SS(mean),SS(fit),F,将F值绘制在直⽅图中。
产⽣第⼆组随机数据:计算SS(mean),SS(fit),F,将F值绘制在直⽅图中。
产⽣第三组随机数据:计算SS(mean),SS(fit),F,将F值绘制在直⽅图中。