统计学致力于在群体层面上探索和发现事物背后的规律。统计分析结果的可靠性高度依赖样本量的大小。正如松哥所言:“样本量要适当,少则不达,多则溢。”这句话强调了样本量选择的重要性。过小的样本量可能会导致即使有显著差异也无法被识别出来,而过大的样本量则可能产生误导,即使实际上没有差异也可能得出存在差异的结论。为了更准确地把握样本量的大小,最好在研究开始前制定一个样本量的预估方案。
样本量的确定受到以下五个主要因素的影响。
(1)检验水平(α):也称为显著性水平,表示在假设检验中,拒绝实际上成立的H 0 (原假设)的概率,即犯Ⅰ型错误的概率。通常,α≤0.05。检验水平α值越小,对差异的要求越严格,所需的样本含量就越大。Ⅰ型错误指的是实际上组间差异不存在,但统计推断错误地认为存在差异的情况。
(2)把握度(1 – β):β称为Ⅱ型错误,指的是在实际上存在组间差异时,统计推断却未能拒绝H 0 (原假设)的概率。把握度(1 – β)是指当组间确实存在差异时,统计分析能够检测到这种差异的能力。β值越小,对差异的检测能力越强,所需的样本量也就越大。通常,β = 0.10,也可以β =0.20。把握度可以理解为“如有差异,统计可见”的能力。
(3)变异(σ):变异反映了样本中个体间的差异程度。如果个体间的差异较大,为了保证统计推断的准确性,就需要更大的样本量来抵消这种变异带来的影响。相反,如果研究对象个体差异较小,则所需的样本量也相应较小。
(4)允许误差(δ):也称为效应量或组间效应的差异程度,它表示不同干预措施可能产生的疗效差异。允许误差越小,即希望检测到的差异越精确,所需的样本量就越大。反之,如果允许误差较大,样本量则可以相应减少。
(5)单双侧检验:在假设检验中,差异性检验和等效性检验通常需要进行双侧检验,即检验差异是否大于或小于某个值。而非劣效性和优效性检验则只需要进行单侧检验,即检验差异是否大于或小于某个值。由于单侧检验只需要考虑一个方向的差异,所以通常所需的样本量少于双侧检验。