抽样调查所需样本量如何计算
关于 Sampling
抽样调查大家都熟悉,最开始是美国的 Literary Digest 杂志作总统大选民意调查所率先使用的方法。相对于 census,它独特的优势是不言而喻的。初学统计的朋友,也一定被要求理解掌握以下这些概念:
population、sample、parameter、statistic、census、taget population、sampling unit、sampling element、sampling frame

这张图即可说明抽样调查的各类区分。
sample size estimation
既然是抽样调查,我们的目标永远是,以最小的成本去获得可接受的的 accuracy 和预期的 confidence level。当我们想要展开一项抽样调查,无论它的 design 设定为如何,我们始终要先搞清楚具体要花多大的成本去调查多少人,才能满足我们该项研究所需要的统计效能,以令人信服地说明我们的研究结果。因而,我们要估算大致需要的样本量。
首先,我们要清楚抽样调查的样本量具体会受哪些因素的影响:
后续分析方法的特定要求;
可接受的 accuracy;
样本异质性情况;
样本可及性;
所使用抽样技术。
也就是说,在确定抽样所需要的样本量时,我们需要考虑以上这五个因素所带来的影响,对于特定的研究要求,我们需要根据具体情况去具体调整。而一般地,我们在计算抽样样本量时,遵循以下公式:
$$
n=\frac{z^2·p·(1-p)}{d^2}
$$
其中,z 确定 confidence level,z 值一般我们选择 95% confidence level 所对应的 1.96;p 为 target population 中某一个特征的百分比,若无前期数据,一般设为 0.5;d 为可接受的 precision/accuracy level,一般我们取 0.05。
举个例子,对于一项 COVID-19 vaccination 的抽样调查,我们作 convenience sampling,确定 95% confidence level, 假定目标人群疫苗接种率为 50%,可接受的 accuray level 为 0.03,因而,对于这项调查研究,样本量至少需要:
$$
n=\frac{1.96^2·0.5·0.5}{0.3^2}=1067
$$
