任何抽样研究,抽样误差都是不可避免的。

当我们抽取了一个样本,如何知道这个样本的特征,就一定是总体特征的真实反映,而不是由于抽样误差导致的假象呢?

比如:

正常的新生儿,体重平均是6斤半,某医生收集了35例早产儿的体重,平均体重是5斤。

那么能不能从他收集的数据,直接得出早产儿的体重,要比足月的新生儿低这个结论呢。

能不能下这个结论,最重要的,要解决一个问题:

样本中的这30个数据,会不会存在较大的抽样误差,即:本来早产婴儿的体重,跟足月婴儿差不多,但是因为医生收集的这30例,体重多数偏轻,所以就给人一种假象:早产儿轻重偏轻

统计学中的假设检验,其实就是解决类似问题的

$H_0$:早产婴儿与足月产婴儿的平均体重相同(针对总体而言);

$H_1$:早产婴儿与足月产婴儿的平均体重不相同(针对总体而言);

当我们求得的P值<=检验水准α时,就可以推断$H_0$为假而$H_1$为真(即拒绝$H_0$、接受$H_1$)

上述推理在统计学中的逻辑实质是:

这个早产儿样本中的婴儿,体重普遍偏轻,不太可能是因为抽样误差造成的,他们的体重偏轻,是因为所有的早产儿(即早产儿这个总体)体重都普遍偏轻,而这位医生收集的样本信息,可以推断,就是总体特征(即H1:早产婴儿与足月产婴儿的平均体重不相同)的真实反映

这样,我们就在排除抽样误差干扰的情况下,作出了一个推论。当然,这个推论并不是100%正确,但大多数情况下是正确的(具体由$\alpha$的水平确定)。