6.1 两个计量资料的简单线性回归分析
最后更新:2024-06-21
简单线性回归(simple linear regression),用于分析两个计量资料在数值上的线性依存关系,也称简单回归。
回归分析,本质上是应变量与自变量之间因果关系在数值上的线性拟合,而这种因果关系并不能由统计学来确定,比如本教程中的皮肤癌死亡率与纬度之间的关系,如果我们将纬度作为应变量,而皮肤癌的死亡率作为自变量,进行简单线性回归分析,所建立的模型依然有统计学意义,但其实际意义或专业意义却是荒谬的。
所以,进行回归分析,科学合理地确定自变量及应变量,是研究者的一项重要工作。
应用场景:
有1个应变量(为计量资料),有1个自变量(一般为计量资料,当然并不严格限制),研究因(自变量)对果(应变量)的线性影响。
前提条件:
两变量进行简单线性回归分析的前提条件,是满足LINE假定:
- L (Linear):应变量的均值$\mu_{Y|X}$与自变量间应存在线性关系;
- I (Independent):个体观察值之间相互独立;
- N (Normality):Y服从总体均数为$\mu_{Y|X}$、方差为$\sigma^{2}$的正态分布;
- E (Equality):不同X所对应的Y的总体等方差(各总体的方差$\sigma^{2}$相等)
【例】皮肤癌死亡率与纬度的线性关系
上世纪50年代收集的美国 49 个州中心位置的经、纬度,以及各州的皮肤癌死亡率(死因别死亡率)等数据,如下表所示:
注:
上表报告的死亡率数据,为每 1000 万人的死亡人数;
本例数据引自宾夕法尼亚州立大学埃伯利科学学院统计系网络课程STAT 462:2.1 - What is Simple Linear Regression? ;
本数据不是随机抽样取得,并非真正的样本数据,进行统计推断不是十分合适,此处仅用于演示目的。
试分析皮肤癌的死亡率与纬度之间的关系。
对于本例,皮肤癌原因的死亡率与纬度的关系,可以先绘制一个散点图,观察两者在数量上的趋势特征,然后再根据情况进行下一步操作。
1. 建立数据集
下载的数据中有对应变量的名称(第1行),我们予以保留,所建SPSS数据集如下图所示:
变量视图如下:
当然,对于本例,实际只需Lat(纬度)和Mort(皮肤癌死亡率)这两个数据。
2. 绘制散点图
绘制散点图的操作参见:用SPSS绘制常用的统计图。
以皮肤癌死亡率(每 1000 万人的死亡数)为纵坐标,纬度为横坐标,绘制的散点图如下:
可以看出,皮肤癌死亡率与纬度之间具有明显的线性趋势,基于不同纬度地区常年的阳光、紫外线等因素,可能对皮肤癌的发生产生影响,以皮肤癌死亡率为应变量,纬度为自变量,进行简单线性回归分析。
3. 简单线性回归分析操作
选择分析菜单中的回归分析【Regression】中的【Linear】,
定义线性回归模型,将应变量皮肤癌死亡率(Mort变量)放入Dependent框中,将自变量纬度(Lat变量)放在Independent列表中,
设置好线性模型的应变量与自变量后,上图中的【OK】即被激活,其它设置均保持默认(不做其它设置的操作)的情况下,点击【OK】即可输出统计结果。
4. 结果解读
线性回归分析,主要的工作包括:线性回归方程的求解、回归模型与参数的假设检验、回归模型的拟合优度评价、回归模型的诊断等工作。
本例,(SPSS 23 64位)输出的统计结果中共包含4个表格,后3个是我们所需要的,按照上述线性回归分析主要工作的顺序,分述如下:
-
线性回归方程的求解
根据Coefficients表:
可得到线性回归方程:
$\hat{Mart} = 389.189~-~5.978\times Lat$
-
回归模型与参数的假设检验
根据ANOVA表:
由模型的方差分析结果:$F=99.797~,~P=.000$,可推断上述线性回归模型有统计学意义,说明不同地区皮肤癌死亡率与纬度之间存在着线性回归关系。
根据Coefficients表:
由模型回归系数的t检验结果:$t=-9.990~,~P=.000$,可推断模型的回归系数不应为0,说明不同地区皮肤癌死亡率与纬度之间存在着线性回归关系。
注意:在两个变量的简单线性回归分析中,方差分析结果与t检验结果是完全等价的,即P值完全相同。
-
模型的拟合优度
根据Model Summary表:
决定系数$R^{2}=0.680$,(因模型有统计学意义)可认为美国不同地区皮肤癌死亡率的差异,68%源于各地区中心位置的纬度不同。
简单线性回归模型的诊断
数据是否满足LINE假定,可通过绘制残差($\epsilon=Y-\hat{Y}$)图的方法验证。
SPSS中的操作如下:
在线性回归分析的对话框中,点击【Plots】按钮,将标准化的预测值*ZPRED(即$\hat{Y}$)放到X坐标,将标准化的残差*ZRESID放到Y坐标,如果想查看残差的分布情况,可把左下角的Histogram也点选上:
设置好【Plots】选项后,点击【Continue】按钮,再点击回归对话框中的【OK】按钮,生成残差的直方图以及残差图:
直方图显示,标准化之后的残差呈近似的正态分布,分布位置在0附近,符合线性回归对残差的要求。
上图为残差图,残差比较均匀地分布在参考线 $Y=0$ 上下两侧,且未呈现任何特定的趋势,故可判定本例数据满足线性回归分析的条件。
© By StatX..