【转载】深⼊理解逻辑回归与卡⽅检验的区别
Logistic回归分析的结果和卡⽅检验的结果不⼀样?
这种情况是正常的,是由于分别使⽤单因素分析和多因素分析造成的。卡⽅检验相对于Logistic回归⽽⾔⼀次只能考虑⼀个因素,因此在卡⽅检验中你的性别、专业是分开做的(单因素分析)。如果在Logistic回归中你也分开做性别、专业(单因素分析),那么结果就会与卡⽅检验完全⼀样。但是,如果你在Logistic回归中同时使⽤性别、专业等多个因素(多因素分析),那么模型中的各个因素是可以产⽣相互影响的,有可能产⽣共线性。如果性别、专业存在共线性的话,那么Logistic逐步回归就会⾃动放弃其中⼀个模型影响⼒较⼩的因素(即使这个因素在单因素分析中有显著性也会被放弃)以防⽌共线性的产⽣。
补充:多重共线性的处理的⽅法
(⼀)删除不重要的⾃变量
⾃变量之间存在共线性,说明⾃变量所提供的信息是重叠的,可以删除不重要的⾃变量减少重复信息。但从模型中删去⾃变量时应该注
意:从实际经济分析确定为相对不重要并从偏相关系数检验证实为共线性原因的那些变量中删除。如
果删除不当,会产⽣模型设定误差,造成参数估计严重有偏的后果。
(⼆)追加样本信息
多重共线性问题的实质是样本信息的不充分⽽导致模型参数的不能精确估计,因此追加样本信息是解决该问题的⼀条有效途径。但是,由于资料收集及调查的困难,要追加样本信息在实践中有时并不容易。
(三)利⽤⾮样本先验信息
⾮样本先验信息主要来⾃经济理论分析和经验认识。充分利⽤这些先验的信息,往往有助于解决多重共线性问题。
(四)改变解释变量的形式
改变解释变量的形式是解决多重共线性的⼀种简易⽅法,例如对于横截⾯数据采⽤相对数变量,对于时间序列数据采⽤增量型变量。
(五)逐步回归法
逐步回归(Stepwi Regression)是⼀种常⽤的消除多重共线性、选取“最优”回归⽅程的⽅法。其做法是逐个引⼊⾃变量,引⼊的条件是该⾃变量经F检验是显著的,每引⼊⼀个⾃变量后,对已选⼊的变量进⾏逐个检验,如果原来引⼊的变量由于后⾯变量的引⼊⽽变得不再显著,那么就将其剔除。引⼊⼀个变量或从回归⽅程中剔除⼀个变量,为逐步回归的⼀步,每⼀步都要进⾏F检验,以确保每次引⼊新变量之前回归⽅程中只包含显著的变量。这个过程反复进⾏,直到既没有不显著的⾃变量选⼊回归⽅程,也没有显著⾃变量从回归⽅程中剔除为⽌。
1、在决定回归分析的模式后,我们应进⼀步检视⾃变项间是否有多元共线性(Multicollinearity)的问题,也就是⾃变项间是否有⾼度相关的问题。如果⾃变项间⾼度相关的话,会影响到对回归系数之假设测定。我们可以⽤因素分析来检查⾃变项间是否有多元共线性,或者是逐⼀将某⼀⾃变项(当成为应变项)和所有其它⾃变项做多元回归分析。
在以SPSS做回归分析时,我们也可在其Statistic之选项中选择Partial Correlation与Collinearity之统计。SPSS所提供之Collinearity的统计包括Tolerance、VIF(Variance Inflation Factor)和Condition Index等。这些统计是有关连性的。如Tolerance与VIF就是互为倒数,如果是Tolerance越⼩,就表⽰该⾃变项与其它⾃变项间之共线性越⾼或⼏乎是其它⾃变项的线性组合。通常,如果发现VIF>10,那么模型就会被认为存在多元共线性。
2、也可进⾏主成分分析,看你所选各变量之间的相关性和所含信息的重叠性!
如果你希望知道⾃⼰数据中⾃变量之间的共线性程度,SPSS(以及其它统计软件)的回归分析程序会替你计算并显⽰与每个⾃变量相对应的两个参数:Tolerance和VIF (Variance Inflation Factor)。Tolerance = 1 - R2, 其中R2是以该⾃变量(如X1)为因变量、以其它所有⾃变量(如X2-X10)为⾃变量的回归⽅程的R2值,即反映X1与X2-X10的相关(或共线性)程度。显然,R2越⼤,Tolerance也就越⼩。⼀般认为,Tolerance不应⼩于0.2,也就是说R2不应⼤于0.8、其根号R(X1与X2-X10)的相关系数不应⼤于0.9。 VIF则是Tolerance的倒数。因此,R2越⼤、即Tolerance越⼩、⽽VIF越⼤(Variance Inflation不就是标准误差被灌了⽔的意思吗?)。如果Tolerance不能⼩于0.2,其倒数VIF就不能⼤于5。