[细说统计]之-统计基础(2)

统计学中的假设检验,是一种基于概率的反证法,我们称之为“小概率反证法”。与数学上的反证法不同,用假设检验的方法证明了的命题,也有可能是错误的。

用假设检验的方法,证明小明同学作弊了,需要分三步走

Step 1:明确两个假设(命题),并明确冤枉小明的概率大小

H0(无效假设):小明没有作弊

H1(备择假设):小明作弊了

检验水准:α=0.05(当拒绝H0、接受H1时,犯错的概率,即冤枉小明的概率)

Step 2:基于小明没有作弊这一假设,计算在这个假设成立的情况下,获得当前信息(即样本)的概率

既然是反证法,当然要基于小明没有作弊(即H0)去做推演

在这一步骤中,根据已经收集的信息(即样本数据),计算出统计量的大小,再根据统计量的分布,求出相应的P值:如果小明没有作弊,那么获得这些信息的概率有多大。

比如,我们计算出统计量t的值,利用t分布就可求得相应的P值。

当然,有时概率P可以直接计算,如Fisher确切概率法,就没有统计量。​

Step 3:根据统计量对应的P值作出推断

在数学上,从H0出发进行推演,若证明H0这个命题是假的,则证明了H1为真,因为H0与H1互相对立,其中必有一真一假。而假设检验,则是根据P≤α 则拒绝H0、接受H1这个规则,进行H0与H1真伪的判断。

比如,根据统计量t的值,我们得到的P值为0.05,这时我们就可以下结论:小明作弊了(拒绝H0、接受H1)。这里的逻辑就是:这个概率P是基于H0-小明没有作弊得到的,既然小明没有作弊时,获得这个样本的概率这么小,那么按照小概率事件原则,这种情况是不太可能出现的,所以我们就推测,可能是前提条件即H0为真是错误的,我们理应接受H1,基于这个逻辑,证明小明作弊了。当然在理论上,H0并不是100%的错,而是很有可能是错误的。

这就是利用假设检验的方法,证明小明作弊与否的步骤。

要是得到的P值大于α--“小明没有作弊”这个命题还不够那么假,那我们就不能拒绝H0。不拒绝H0,我们也不会接受H0,不会认为他没作弊。Why?因为我们的目的,就是要证明他作弊了(假设检验就是要证明H1为真)。现在的情况是没能证明他作弊,可能是我们掌握的信息量还是太小。只要掌握的信息量足够大,我们就一定能用假设检验的方法证明他作弊了:-),因为绝大多数情况下,P值会随着信息量的增大而减小。


在假设检验过程中,α就像一把尺子,让我们做出推断:

-- 若统计量对应的p值≤α,我们的推断就是:H0为假、H1为真。

虽然α很小(常用0.05,这就是统计中小概率事件的概率水平--我们认为在一次抽样中,小概率事件不太可能发生),但毕竟这个α不是0,多次基于α这把尺子,拒绝H0(接受H1为真),犯错的水平就是α。当α=0.05时,我们拒绝H0若有100次,其中就可能有5次是错的,即H0为真但被拒绝了-小明被冤枉了。

这就是统计学中做证明题的方式:​假设检验方法,用一个小概率值α作为判断命题真伪的尺度,这把尺子多数情况下Ok,少数情况会犯错。所谓,常在河边走, 哪有不湿鞋?这把尺子本身所具有的特性,就决定了用它进行度量的结果。因为它是冤枉小明的概率大小,对于我们而言,不冤枉一个好人,远比不放过一个坏人更重要,所以,假设检验要规定α而且它的值要很小。至于为什么α常用0.05,或0.01这样的水平,则是一种约定俗成(当初老大拍脑门定了个0.05的概率水平,一直沿用至今。。。)