逐步回归分析的基本思想
在实际问题中, 人们总是希望从对因变量y有影响的诸多变量中选择一些变量作为自
变量, 应用多元回归分析的方法建立“最优”回归方程以便对因变量y进行预报或控制。
所谓“最优”回归方程, 主要是指希望在回归方程中包含所有对因变量y影响显著的自变
量而不包含对影响不显著的自变量的回归方程。逐步回归分析正是根据这种原则提出来的
一种回归分析方法。它的主要思路是在考虑的全部自变量中按其对y的作用大小, 显著程
度大小或者说贡献大小, 由大到小地逐个引入回归方程, 而对那些对作用不显著的变量可
能始终不被引人回归方程。另外, 己被引人回归方程的变量在引入新变量后也可能失去重
要性, 而需要从回归方程中剔除出去。引人一个变量或者从回归方程中剔除一个变量都称
为逐步回归的一步, 每一步都要进行F检验, 以保证在引人新变量前回归方程中只含有对y
影响显著的变量, 而不显著的变量已被剔除。
逐步回归分析的实施过程是每一步都要对已引入回归方程的变量计算其偏回归平方和
(即贡献), 然后选一个偏回归平方和最小的变量, 在预先给定的水平下进行显著鳖怎么养 性小油菜 检验, 如
果显著则该变量不必从回归方程中剔除, 这时方程中其它的几个变量也都不需要剔除(因为
其它的几个变量的偏回归平方和都大于最小的一个更不需要剔除)。相反, 如果不显著, 则
该变量要剔除, 然后按偏回归平方和由小到大地依次对方程中其它变量进行检验。嘴上的痣 将对影
响不显著的变量全部剔除, 保留的都是显著的。接着再对未引人回卡布奇诺是什么 归方程中的变量分别计
算其偏回归平方和, 并选其中偏回归平方和最大的一个变量, 同样在给定水平下作显著性
检验, 如果显著则将该变量引入回归方程, 这一过程一直继续下去, 直到在回归方程中的
变量都不能剔除而又无新变量可以引入时为止, 这时逐步回归过程结束。
在供选择的个自变量中,依各自变量对因变量作用的大小,即偏回归平方和(partial
m
regression sum of squares)的大小,由大到小把自变量依次逐个引入。每引入一个变量,就
对它进行假设检验。当时,将该自变量引入回归方程。新变量引入回归方程后,对方
P
程中原有的自变量也要进行假设检验,并把贡献最小且退化为不显著的自变量逐个剔出方
程。因此逐步回归每一步(引入一个自变量或剔除一个自变量)前后都要进行假设检验,
直至既没有自变量能够进入方程,也没有自变量从方程中剔除为止。回归结束,最后所得
方程即为所求得的“最优”回归方程。
逐步回归分析的特点:
双向筛选,即引入有意义的变量(前进法),剔除无意义变
量(后退法)
多元线性回归的应用
1.影响因素分析
2.估计与预测 用回归方程进行预测时,应选择
具有较高值的方a88主板 程。
R
2
3.统计控制 指利用回归方程进行逆估计,即通
过控制自变量的值使得因变量为
Y
给定的一个确切值或者一个波动范
围。此时,要求回归方程的值要
R
2
大,回归系数的标准误要小。
1.样本含量
应注意样本含量与自变量个数的比例。通常,
nm
样本含量至少为变量数的5-10倍。
2.方程“最优”问题
目的是精选自变量以求得拟合效果最好的多元回
归方程。最优子集回归是选择一组使回归方程拟
和最好的自变量,而逐步回归则选择对因变量作
用有意义的自变量,要根据研究目的选用合适的
方法。
逐步回归分析的主要计算步骤
1) 确定检验值
检验水平, 以作为引人或剔除变量的标在进行逐步回归计算前要确定检验每个变量是否显若的
水准。检验水平要根据具体问题的实际情况来定。一般地, 为使最终的回归方程中包含较多的变量,
平不宜取得过高, 即显著水平不宜太小。水平还与自由度有关, 因为在逐步回归过程中, 回归方程
计中所含的变量的个数不断在变化, 因此方差分析中的剩余自由度也总在变化, 为方便起见常按
算自由度。为原始数据观测组数, 为估计可能选人回归方程的变量个数。例如, 估计可能有2~
3个变量选入回归方程, 因此取自由度为15-3-1=11, 查, 分布表, 当=梦见家里着火 0.1, 自由度
时, 临界值, 并且在引入变量时, 自由度取, 在, , 检验的临界值记
剔除变量时自由度取, , , 并要求检验的临界值记, 实际应用中常取
。
(2) 逐步计算
如果已计算步(包含=0), 且回归方程中已引入个变量, 则第步的计算为:
()计算全部自变量的贡献(偏回归平方和)。
()在已引入的自变量中, 检查是否有需要剔除的不显著变量。这就要在已引入的变量中选取具有最小
值的一个并计算其值, 如果, 表示该变量不显著, 应将其从回归方程中剔除, 计算转至()。
如值的一个并计算值, 如则不需要剔除变量, 这时则考虑从未引入的变量中选出具有最大
果, 则表示该变量显著, 应将其引人回归方程, 计算转至()。如果, 表示已无变量可选入
方程, 则逐步计算阶段结束, 计算转人(3)。
()剔除或引人一个变量后, 相关系数矩阵进行消去变换, 第步计算结束。其后重复()~()再进
行下步计算。
由上所述, 逐步计算的每一步总是先考虑剔除变量, 仅当无剔除时才考虑引入变量。实际计算时, 开
头几步可能都是引人变量, 其后的某几步也可能相继地剔除几个变量。当方程中已无变量可剔除, 且又无
变量可引入方程时, 第二阶段逐步计算即告结束, 这时转入第三阶段。
(3) 其他计算, 主要是计算回归方程入选变量的系数、复相关系数及残差等统计量。
逐步回归选取变量是逐渐增加的。选取第个变量时仅要求与前面己选的-1个变量配合起来有最小
的残差平方和, 因此最终选出的个重要变量有时可能不是使残差平方和最小的个, 但大量实际问题花雕酒是什么酒
计算结果表明, 这个变量常常就是所有个变量的组合中具有最小残差平方和的那一个组合, 特别当
不太大时更是如此, 这表明逐步回归是比较有效的方法。
引人回归方程的变量的个数与各变量贡献的显著性检验中所规定的检验的临界值与的取
的值, 值大小有关。如果希望多选一些变量进人回归方程, 则应适当增大检验水平值, 即减小
特别地, 当时, 则全部变量都将被选入, 这时逐步回归就变为一般的多元线性回归。相反, 如
果取得比较小, 即与取得比较大时, 则入选的变量个数就要减少。此外, 还要注意, 在实际问
的精度将较题中, 当观测数据样本容量较小时, 入选变量个数不宜选得过大, 否则被确定的系数
差。
读入原始数据
计算相关矩阵
给定F值
开始逐步计算
引入处理:计算未入选变量的V值,并比较大小,
i
计算最大者的F1值
F1>F
l=l-1
是
相关矩阵变换
是
否
结束处理:计算A0,输出原始回归方
程,检验回归效果
入选变量数l<2
否
剔除处理:计算入选变量的V值,并比较大小,计
i
算最小者的F2值
结束
F2>F
是
l=l+1
否
本文发布于:2023-04-20 20:00:05,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/fanwen/fan/82/506435.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |