一、基本概念

样本量(sample size),即样本含量:是指为使研究结论在一定检验效能(把握度)基础上得到证明,所需的最少观察单位数

样本量计算,也称样本量估算,其目的是确定研究所需的观察对象数量,以及相应检验的把握度,从而以一个适当的研究规模,保证研究结论的可靠性

进入在线样本量计算页面: https://www.trialstats.com/statbox/

二、一般考虑

在进行样本含量估算之前,研究者必须首先明确研究目的、研究设计的类型、试验的主要终点指标资料类型、对该指标的统计方法选择、试验总体设计方法(平行对照、交叉对照等)、以及检验水准(α)和检验效能(1-β),对于主要终点是计量资料的,还涉及对均值、标准差等基础资料的估计(可以来自预试验/实验,或者参考文献,下同);主要终点是计数资料的,则一般涉及对率或构成比的估计。

1. 检验水准(α)取值原则

检验水准,即I类错误的水平,是当我们得到阳性结果时,发生错误的概率水平;临床试验/医学研究中,检验水准α一般取0.05(双侧检验)或0.025(单侧检验),其它研究基本也是如此。

假如我们进行的是双侧检验,α=0.05,当我们得到基于主要终点的P值<=0.05,并且我们通过这个P值进行推断(下结论)时,我们发生错误(得到错误的结论)的概率水平就是0.05。所以,基于统计方法得到的结论,并不总是正确,实际上,根据假设检验的基于原理,无论我们如何下结论,我们都有可能犯错,具体参见:常在河边走, 哪有不湿鞋--关于假设检验与检验水准α

2. 检验效能(Power=1-β)

什么是检验效能呢?检验效能,也称把握度,简单地说,就是:如果我们要证明的研究结论确实是对的(成立/为真),那么我们有多大的把握(概率)能够证明它是对的。

检验效能(power)= 1-β

这里的β是检验假设的II类错误水平。所谓II类错误,就是我们要证明的结论(备择假设,用H1表示)本来是正确的,但是我们没能证明它,也就是最终得到的P值>α,无法拒绝原假设(也称零假设,用H0表示)。当我们得到了一个所谓的阴性结果时(P>α),我们就有可能犯II类错误。

检验效能一般选0.8(即II型错误β=0.2)或0.9,即我们有80%或90%的把握得到阳性结果。在样本量估算时,检验效能越大,需要的样本量越多。

3. 界值(Margin,Δ)

如果我们进行的检验是差异性检验,比如证明试验组疗效≠对照组的疗效时,样本量的计算并不涉及界值的问题。只有进行优效性检验(证明类似A-B>Δ的问题,Δ取正值,下同)、非劣效检验(证明类似A-B>-Δ的问题)、等效性检验(证明类似|A-B|<Δ的问题),才会考虑这个Margin如何确定。

1) 临床试验中,(临床)界值的选择,应由研究者与统计学家共同商定,是基于统计推理及临床判断的双重考虑;若无公认界值,可参考EMEA《Guideline on the choice of the non-inferiority margin》及《Issues on the selection of non-inferiority margin in clinical trials》等文献;

2) 请注意界值的正负

高优者,效应值越高越好,进行非劣效性检验,界值应为负值(若为OR值,应小于1),若进行优效性检验,界值为正值(若为OR值,应大于1)

低优者,效应值越低越好,进行非劣效性检验,界值应为正值(OR值应大于1),若进行优效性检验,界值为负值(OR值应小于1)。