第9章 含定性变量的回归模型
思考与练习参考答案
9.1 一个学生使用含有季节定性自变量的回归模型,对春夏秋冬四个季节引入4个0—1型自变量,用SPSS软件计算的结果中总是自动删除了其中的一个自变量,他为此感到困惑不解。出现这种情况的原因是什么?
答:假如这个含有季节定性自变量的回归模型为:
其中含有k个定量变量,记为xi。对春夏秋冬四个季节引入4个0—1型自变量,记为Di,只取了6个观测值,其中春季与夏季取了两次,秋、冬各取到一次观测值,则样本设计矩阵为:
显然,(X,D)中的第1列可表示成后4列的线性组合,从而(X,D)不满秩,参数无法唯一求出。这就是所谓的“虚拟变量陷井",应避免。
当某自变量xj对其余p—1个自变量的复判定系数超过一定界限时,SPSS软件将拒绝这个自变量xj进入回归模型.称Tolj=1—为自变量xj的容忍度(Tolerance),SPSS软件的默认容忍度为0。0001。也就是说,当>0.9999时,自变量xj将被自动拒绝在回归方程之外,除非我们修改容忍度的默认值。
而在这个模型中出现了完全共线性,所以SPSS软件计算的结果中总是自动删除了其中的一个定性自变量。
9。2对自变量中含有定性变量的问题,为什么不对同一属性分别建立回归模型,而采取设虚拟变量的方法建立回归模型?
答:原因有两个,以例9.1说明。一是因为模型假设对每类家庭具有相同的斜率和误差方差,把两类家庭放在一起可以对公共斜率做出最佳估计;二是对于其他统计推断,用一个带有虚拟变量的回归模型来进行也会更加准确,这是均方误差的自由度更多。
9.3 研究者想研究采取某项保险革新措施的速度y对保险公司的规模x1和保险公司类型的关系(参见参考文献【3】).因变量的计量是第一个公司采纳这项革新和给定公司采纳这项革新在时间上先后间隔的月数.第一个自变量公司的规模是数量型的,用公司的总资产额(百万美元)来计量;第二个自变量公司是定性变量,由两种类型构成,即股份公司和互助公司。数据资料见表9。8,试建立y对公司规模和公司类型的回归.
表9。8
i | y | x1 | 公司类型 |
1 | 17 | 151 | 互助 |
2 | 26 | 92 | 互助 |
3 | 21 | 175 | 互助 |
4 | 30 | 31 | 互助 |
5 | 22 | 104 | 互助 |
6 | 0 | 277 | 互助 |
7 | 12 | 210 | 互助 |
8 | 19 | 120 | 互助 |
9 | 4 | 290 | 互助 |
10 | 16 | 238 | 互助 |
11 | 28 | 164 | 股份 |
12 | 15 | 272 | 股份 |
13 | 11 | 295 | 股份 |
14 | 38 | 68 | 股份 |
15 | 31 | 85 | 股份 |
16 | 21 | 224 | 股份 |
17 | 20 | 166 | 股份 |
18 | 13 | 305 | 股份 |
19 | 30 | 124 | 股份 |
| | | |