6.3 多个自变量的多重线性回归分析(1)

最后更新:2024-06-20

多重线性回归分析(multiple linear regression,MLR),是研究一个应变量与多个自变量间线性因果关系的统计方法,是两变量线性回归的简单扩展,模型估计方法、解释、评价及诊断等均与之基本相同。

应用场景:

1个应变量为计量资料多个自变量(计量、计数等不限数据类型),研究这些因(自变量)对果(应变量)的影响,或者在控制某些因素的情况下,研究特定的因->果关系

前提条件:

与简单线性回归的LINE假设相似,但主要是从残差角度进行假定:

  • L(inear Function): 应变量均值$E(Y_i)$与自变量$(x_{1i}, x_{2i},...)$向量之间存在线性关系;
  • I(ndependent): 残差($\epsilon_i$)相互独立.
  • N(ormally Distributed): 在向量 $(x_{1i}, x_{2i},...)$ 条件下的残差($\epsilon_i$)服从正态分布;
  • E(qual variances): 在向量 $(x_{1i}, x_{2i},...)$ 条件下的残差($\epsilon_i$)等方差($ \sigma_i $);

还有一条,自变量之间的相互性不能太强,否则会产生多重共性线问题(此时模型的估计将出现偏差)。

【例】子代身高与父母身高的线性关系

Francis Galton (弗朗西斯 高尔顿)在1886年发表了论文 Regression Towards Mediocrity in Hereditary Stature,首次将统计学应用于生物学研究,开生物统计之先河。

感谢 James A. Hanley 为我们整理了Galton 论文中的原始数据(204个家庭父母及子女的身高数据,原论文中为205家庭);我们就以这些开创了一个新学科的数据为例,探究一下100多年前的英国,成年子女身高与父母身高之间的线性关系。

利用统计程序,我们从上述204个家庭中,每个家庭随机抽取1名成年子女(不限男女,当然若仅有1名子女则100%抽中),共有204名不同性别的子女及其父母的身高数据进入数据集,如下:

img

(注:原身高数据单位为英寸,框中身高数据已变换为厘米单位,性别的编码为1-male,2-female,当然也可用0、1编码等不同方式)


对于本例数据,我们先进行线性模型的估计和检验,再进行模型的诊断。

1. 多重线性回归分析操作

在SPSS中,多重线性回归分析与简单线性回归分析使用同一个对话框,操作几乎完全一样,不同之处就是有多个待选的自变量时,可进行自变量的筛选。

选择分析菜单【Analyze】中回归分析【Regression】项下的【Linear】,设置子女身高为应变量父亲、母亲及子女的性别为自变量(3个自变量)

image-20240620224548419

上图中Method为自变量的筛选方法,先保持默认的Enter,即所有放入Independents列表中的变量均进入回归模型。

设置好以后点击上图中的【OK】即可输出统计结果。

2. 结果解读

本例共输出4个统计表,因使用Enter模式,全部自变量进入模型,故忽略第1个表,按照回归分析的内容,分述如下:

2.1 多重线性回归方程的估计

由Coefficients表,

image-20240621100801686

可得如下的多重线性回归方程: $$ \hat{y} = 75.363 + 0.350 \cdot x_1 + 0.324 \cdot x_2 - 13.260 \cdot x_3 $$

式中$y$为子女身高,$x_1$为父亲身高,$x_2$为母亲身高,$x_3$为子女性别。

2.2 多重线性回归模型的检验

ANOVA表是针对模型整体进行检验的结果:

image-20240621101033256

$F=115.29, p<0.001$,说明模型整体有统计学意义,即在多个自变量中,至少1个自变量对应变量$y$有影响。

在Coefficients表中,根据每个自变量的t检验结果,可得出相应的结论:该自变量是否对模型中的应变量有影响。

本例中,父亲身高、母亲身高与子女的性别,对应t检验的结果,p值均小于0.05,显示出这3个自变量对子女身高均有影响。

如果模型中有个别的自变量,t检验得到的p值大于0.05,即该自变量对模型的贡献没有统计学意义(或者说,对应变量的影响没有统计学意义),可使用自变量筛选的方法进行建模。

2.3 多重线性回归模型中回归系数的解读

自变量为计算资料,如本例中的父亲身高($x_1$)与母亲身高($x_2$),其对应的偏回归系数分别为,$b_1 = 0.350$及$b_2 = 0.324$,意为:

  • 父亲身高每增加1cm,子女的身高将平均增加0.35cm;
  • 母亲身高每增加1cm,子女的身高将平均增加0.324cm;

自变量为计数资料,如本例中的子女性别($x_3$),其偏回归系数$b_3 = -13.260$,因数据集中男性编码为1,而女性编码为2,故由此回归系数可知:

性别每增加1个单位(当然也只有2个分类),也即子女性别若为女性(编码为2)而非男性(编码为1),则身高平均有13.26cm的降低。

据此回归系数可推测:成年男性子女与成年女性子女的身高平均相差13.26cm

注意:

13.26cm的身高差异,是校正了不同家庭父母身高差异之后的结果,也就是说,父亲、母亲身高分别相等的不同家庭,其成年子女中男性与女性身高之差,平均为13.26cm。

如果不考虑父母身高的差异,成年男性与女性的身高相差12.06cm。

image-20240621171941346

哪一个身高的差异,更接近总体中男性女性身高的差异呢??

根据ourworldindata网站给出的数据

image-20240621172618527

本例中,校正了父母身高之后的男性、女性成年子女的身高差异,更接近总体中男女身高之差。

所以使用多重线性回归模型,可以达到对不同分组间的差异(比如本例中不同性别间的身高差异)进行多因素校正的效果,这也是多重线性回归的一个重要用途。

关于多重线性回归的自变量筛选(建模)以及回归模型的诊断,详见6.3 多个自变量的多重线性回归分析(2)

© By StatX..