6.3 多个自变量的多重线性回归分析(1)
最后更新:2024-06-20
多重线性回归分析(multiple linear regression,MLR),是研究一个应变量与多个自变量间线性因果关系的统计方法,是两变量线性回归的简单扩展,模型估计方法、解释、评价及诊断等均与之基本相同。
应用场景:
1个应变量为计量资料,多个自变量(计量、计数等不限数据类型),研究这些因(自变量)对果(应变量)的影响,或者在控制某些因素的情况下,研究特定的因->果关系。
前提条件:
与简单线性回归的LINE假设相似,但主要是从残差角度进行假定:
- L(inear Function): 应变量均值$E(Y_i)$与自变量$(x_{1i}, x_{2i},...)$向量之间存在线性关系;
- I(ndependent): 残差($\epsilon_i$)相互独立.
- N(ormally Distributed): 在向量 $(x_{1i}, x_{2i},...)$ 条件下的残差($\epsilon_i$)服从正态分布;
- E(qual variances): 在向量 $(x_{1i}, x_{2i},...)$ 条件下的残差($\epsilon_i$)等方差($ \sigma_i $);
还有一条,自变量之间的相互性不能太强,否则会产生多重共性线问题(此时模型的估计将出现偏差)。
【例】子代身高与父母身高的线性关系
Francis Galton (弗朗西斯 高尔顿)在1886年发表了论文 Regression Towards Mediocrity in Hereditary Stature
,首次将统计学应用于生物学研究,开生物统计之先河。
感谢 James A. Hanley 为我们整理了Galton 论文中的原始数据(204个家庭父母及子女的身高数据,原论文中为205家庭);我们就以这些开创了一个新学科的数据为例,探究一下100多年前的英国,成年子女身高与父母身高之间的线性关系。
利用统计程序,我们从上述204个家庭中,每个家庭随机抽取1名成年子女(不限男女,当然若仅有1名子女则100%抽中),共有204名不同性别的子女及其父母的身高数据进入数据集,如下:
(注:原身高数据单位为英寸,框中身高数据已变换为厘米单位,性别的编码为1-male,2-female,当然也可用0、1编码等不同方式)
对于本例数据,我们先进行线性模型的估计和检验,再进行模型的诊断。
1. 多重线性回归分析操作
在SPSS中,多重线性回归分析与简单线性回归分析使用同一个对话框,操作几乎完全一样,不同之处就是有多个待选的自变量时,可进行自变量的筛选。
选择分析菜单【Analyze】中回归分析【Regression】项下的【Linear】,设置子女身高为应变量,父亲、母亲及子女的性别为自变量(3个自变量):
上图中Method为自变量的筛选方法,先保持默认的Enter,即所有放入Independents列表中的变量均进入回归模型。
设置好以后点击上图中的【OK】即可输出统计结果。
2. 结果解读
本例共输出4个统计表,因使用Enter模式,全部自变量进入模型,故忽略第1个表,按照回归分析的内容,分述如下:
2.1 多重线性回归方程的估计
由Coefficients表,
可得如下的多重线性回归方程: $$ \hat{y} = 75.363 + 0.350 \cdot x_1 + 0.324 \cdot x_2 - 13.260 \cdot x_3 $$
式中$y$为子女身高,$x_1$为父亲身高,$x_2$为母亲身高,$x_3$为子女性别。
2.2 多重线性回归模型的检验
ANOVA表是针对模型整体进行检验的结果:
$F=115.29, p<0.001$,说明模型整体有统计学意义,即在多个自变量中,至少1个自变量对应变量$y$有影响。
在Coefficients表中,根据每个自变量的t检验结果,可得出相应的结论:该自变量是否对模型中的应变量有影响。
本例中,父亲身高、母亲身高与子女的性别,对应t检验的结果,p值均小于0.05,显示出这3个自变量对子女身高均有影响。
如果模型中有个别的自变量,t检验得到的p值大于0.05,即该自变量对模型的贡献没有统计学意义(或者说,对应变量的影响没有统计学意义),可使用自变量筛选的方法进行建模。
2.3 多重线性回归模型中回归系数的解读
自变量为计算资料,如本例中的父亲身高($x_1$)与母亲身高($x_2$),其对应的偏回归系数分别为,$b_1 = 0.350$及$b_2 = 0.324$,意为:
- 父亲身高每增加1cm,子女的身高将平均增加0.35cm;
- 母亲身高每增加1cm,子女的身高将平均增加0.324cm;
自变量为计数资料,如本例中的子女性别($x_3$),其偏回归系数$b_3 = -13.260$,因数据集中男性编码为1,而女性编码为2,故由此回归系数可知:
性别每增加1个单位
(当然也只有2个分类),也即子女性别若为女性(编码为2)而非男性(编码为1),则身高平均有13.26cm的降低。
据此回归系数可推测:成年男性子女与成年女性子女的身高平均相差13.26cm。
注意:
13.26cm的身高差异,是校正了不同家庭父母身高差异之后的结果,也就是说,父亲、母亲身高分别相等的不同家庭,其成年子女中男性与女性身高之差,平均为13.26cm。
如果不考虑父母身高的差异,成年男性与女性的身高相差12.06cm。
哪一个身高的差异,更接近总体中男性女性身高的差异呢??
本例中,校正了父母身高之后的男性、女性成年子女的身高差异,更接近总体中男女身高之差。
所以使用多重线性回归模型,可以达到对不同分组间的差异(比如本例中不同性别间的身高差异)进行多因素校正的效果,这也是多重线性回归的一个重要用途。
关于多重线性回归的自变量筛选(建模)以及回归模型的诊断,详见6.3 多个自变量的多重线性回归分析(2)
© By StatX..