[细说统计]之-统计基础(1)

统计学由数学发展而来,因此统计学也构建于“概念”之上。作为细说统计系列的第一篇,本文用一张图,先把统计学中最重要的基本概念讲讲清楚。

总体(population):由研究目的所确定的所有研究对象。如:想研究某降压药对高血压伴冠心病患者的疗效与安全性(研究目的),则研究的总体是高血压且伴有冠心病的所有患者。

随机(random):事件结果的不确定性。比如,抛硬币落地后有两种结果,正面朝上与朝下,在结果出现之前,哪个结果都有可能。统计学中有两个重要的随机过程:随机抽样与随机化,其核心是机会均等与不可人为干预(后面会有专门一篇讲到随机)。

样本(sample):从总体中随机抽取的部分个体。

统计量(statistics):描述样本信息的定量指标。比如均数、标准差,或者例数与百分比,等等定量指标,用于描述样本时,称为样本的统计量。而这些指标如果是针对研究总体,则被称为总体的参数(parameter)。统计量与参数分别用不同的符号表示,比如样本的标准差用S表示,而总体的标准差用σ表示。

统计描述(statistical description):用描述性统计量,定量地描述样本信息。是统计方法中的一种。

统计推断(statistical inference):利用样本信息,推断总体特征。是统计方法中的另一种。所以,其实统计就只有两大类方法:统计描述与统计推断。

统计推断又有两种方法:

参数估计(parameter estimation):用样本信息,估计总体参数。比如:已知样本量为400、均数为120cm,标准差为10cm,对总体均数进行估计,如果直接用120cm作为总体的均数,这种估计方法被称为点估计(point estimation),另一种估计方法是区间估计(interval estimation),即构造一个具有一定置信水平(confidence level,也称可信度,通常为95%)的置信区间(confidence interval,也称可信区间),上述样本对总体均数估计的95%CI为(119.02, 120.98)。

假设检验(hypothesis test):用样本信息,对关于总体的命题进行推断。设总体均数为μ,参数估计是:求μ=?,而假设检验则是:判断μ=120?

最后,什么是统计学?统计学,简言之,是统而计之,研究对象只有一个,就没有统计的必要。但我们面对的研究对象往往不止一个,而且情况千差万别(随机性),只能利用数学的手段,对样本信息进行描述,并在一定概率水平上,利用样本信息对总体特征进行刻画。

统计分析过程,涵盖资料的收集、整理、分析以及结果的解释利用等,并非单纯地把数据进行分析、出几个图表。

统计学最重要的作用,是为验证科学假设提供了另一种技术手段。伴随统计学的发展,生命科学,特别是临床研究才取得了长足进步。

2020/03/20