6.3 多个自变量的多重线性回归分析(2)
最后更新:2024-06-20
3. 多重线性回归的自变量筛选(建模)
SPSS在线性回归分析中,提供了3种常用的自变量筛选方法:
- 前进法(Forward):模型从无到有,符合条件的自变量依次加入模型,直至没有符合条件的自变量进入模型为止;
- 后退法(Backward):模型从大到小,先将自变量列表中的全部变量加入模型,然后再根据条件,从模型中逐一剔除自变量,直至模型中的自变量没有符合剔除条件的为止;
- 逐步回归法(Stepwise):结合前进法与后退法两个规则,先将自变量加入模型,再执行剔除流程,直至没有新的自变量进入模型、模型中的自变量也没有符合剔除条件的为止。
一般情况下,利用这3种方法,针对同一样本数据建模,应得到相同的模型(也会有二般情况,比如前进法与后退法得到的最终模型不同)。
这里,我们使用前进法,得到的结果如下:
在Variables Entered/Removed表中,记录了自变量进入模型的过程:性别变量先进入模型,之后是父亲身高,最后是母亲身高;进入模型的显著性水平SLE(Significance Level for Entry)为0.05。
在Coefficients表中,我们可以看到,随着新的自变量加入模型,模型中的截距、原有自变量的回归系数均发生了变化。
利用前进法,我们最终得到的线性回归模型,就是最后一个模型(Model 3),这个模型与上述Enter方法得到的模型相同。
4. 多重线性回归模型的诊断
绘制残差图
绘制残差图,可验证残差($\epsilon=Y-\hat{Y}$)的分布特征是否满足LINE假定。
SPSS中的操作如下(与简单线性回归方法相同):
在线性回归分析的对话框中,点击【Plots】按钮,将标准化的预测值*ZPRED(即$\hat{Y}$)放到X坐标,将标准化的残差*ZRESID放到Y坐标,如果想查看残差的分布情况,可把左下角的Histogram也点选上:
设置好【Plots】选项后,点击【Continue】按钮,再点击回归对话框中的【OK】按钮,即可生成残差的直方图以及残差图:
直方图显示,标准化之后的残差,分布的对称性稍差,但分布位置仍在0附近(也可能是SPSS中绘制直方图的算法不太好)。
残差图中,残差比较均匀地分布在 $Y=0$ 的上下两侧,未呈现任何特定趋势,可认为本例数据满足线性回归分析的假定。
多重共线性(multicollinearity)的诊断
在线性回归模型的设置对话框中,点击【统计量】,勾选其中的【共线性诊断】统计量:
输出的统计结果中,Coefficients表增加了2列内容,其中的VIF(Variance Inflation Factor,方差膨胀因子)可用于评价变量之间的共线性程度:
$VIF$的定义: $$ VIF_i = \frac{1}{1-R^2_i} $$ 式中,$R^2_i$是第i个自变量(作为应变量)对其它自变量进行回归的决定系数;由VIF的定义可知,其理论值域在1-$+\infin$,VIF的值越大,说明共线性的程度越高。
一般认为,$VIF \ge 10$意味着变量间的共线性问题比较严重,需采取措施消除或降低共线性的程度;若$VIF \lt 5$,则共线性问题可以忽略;若VIF的值在5-10之间,应关注模型的共线性问题。
当然,上述做法只是一个粗略的原则,可能不同统计学家有不同认识。
References
[1] Galton F. Regression towards mediocrity in hereditary stature. Journal of the Anthropological Institute 1886; 15:246–63.
参考:
https://online.stat.psu.edu/stat501/lesson/7/7.3
https://online.stat.psu.edu/stat501/lesson/5/5.3
https://web.stanford.edu/class/stats202//notes/Linear-regression/Multiple-linear-regression.html
https://www.statology.org/multiple-linear-regression-assumptions/
https://www.statology.org/multiple-linear-regression/
© By StatX..