你想好毕业论文要多少样本量了吗

怎么确定研究的样本量? cr.林林林林林园长
本视频三板块:(1)入门:如何快速完成“研究对象”的书写?(2)进阶:如何使用R语言计算比较客观的样本量?(3)高级:如何衡量与控制因素,以获得良好的样本量?
一、入门:如何快速完成“研究对象”的书写?

可见,效应量可来自于已有的研究或预设中等效应量(d = 0.5 / f = 0.25 / f² = 0.15),而“ 统计检验力 1 - β = 0.8,显著性水平 α = 0.05 ”是相同的。
这是因为效应量是决定样本量较为关键的数据。

在终得效应值测量的情况下,各统计方法的所需的样本量如下表,可见重复测量的方案分析较为复杂。

模板如下:

二、进阶:如何用R语言进行样本量计算?

所用到的三个信息:
1.效应量(effect size,ES)

2.显著性水平:sig.level = 0.05,;统计检验力:power = 1 - beta = 0.8 (经验法则,一般无需更改)
3.实验设计:不同的统计方法会导致不同的样本量
R语言软件操作:
载入需要的包(pwr 和 webPower )并运行(run),标记中等效应量大小;

可在 Package 框中点击 pwr 查看函数种类

它会对不同的统计进行检验,包括效应值(ES)、样本量(sample sizes)等


常用统计:

1. 以 独立样本t检验 为例:样本量 和 效应量 可互求;因为 显著性水平:sig.level = 0.05 和 统计检验力:power = 1 - beta = 0.8 基本不变。

如上图,我们预设效应量 d = 0.5 ,可见我们每一组所需样本量为64人(n = 63.766);一般效应量越大,所需样本量越少,譬如当我们预设一个较大的效应值 d = 0.8 时,样本量仅需 26人;但效应量是否合理还需取决于先前研究。
2.以 单因素方差分析 为例:若我们要求样本量,有三个组别,我们就标记 K = 3 ;预设效应量 f = 0.25

可见每组所需样本量为53(n = 52.3966);即总共需要159个样本(3组)。
3.以 回归分析 为例:u 指的是回归分析中自变量个数,比如我们用 a、b、c三个自变量预测因变量 d ,便填3;v 是样本量与变量个数之和;f² 是效应量,预设是0.15.

可见得出 v = 72.71(73),但 v = 样本量 - 变量个数,所以此时样本量为76
4.以 重复测量的方差分析 为例:需要用到webPomer中的函数,如果要做 2 × 3 的混合实验设计,则 wp.rmanova(ng=2,nm=3,f=0.25,alpha=0.05,power=0.8,type=2)可见其中新增了一个 type,因为重复测量包含两个主效应(组间和组内)和一个交互效应,type为0、1、2,分别对应组间、组内和交互效应。

如图,要获得准确的交互效应所需样本量共为156。
三、高级:如何衡量与控制因素,以获得良好的样本量?
与样本量有关的信息:(1)可能会犯的错误大小(假设检验的两类错误);(2)实验存在的效应大小(效应量);(3)研究设计的特征(组别数、变量数)
1.可能会犯的错误大小(假设检验的两类错误)
Ⅰ类(alpha)错误(熟视无睹)
Ⅱ类(beta)错误(无中生有)

举例:

如图所示,事实上A是比B大的,但由于实验者抽样原因导致了得出B比A 大的错误结论,即 对原本存在差异的两个总体,做出不存在差异的判断,犯了alpha 错误;

反之,对原本不存在差异的两个总体,做出存在差异的判断,即犯了 beta 错误。
为了使得最后得出相对客观的结果,我们需要尽可能降低或消除两类错误的发生概率,因此会有尽可能抽取较大样本量的意图(换句话说,假如我们允许两类错误的存在比例高到一定程度,我们并不在需要样本量)。因此。我们一般设定:
alpha = 0.05 ,即100次中犯错5次Ⅰ型错误,平时会写作 显著性p值(p值越小,效应越显著);
beta = 0.2 (100次中犯错20次);
一般更倾向于使用 统计检验力 power = 1 - beta(=0.8)
※ 在学界,虽然p值较为常用,但p值会随样本量的增大而减小,而对其“显著性证明”产生一定的质疑,原理如下:

2.实验存在的效应大小(效应量)

点评:效应量呈现的是变量间的客观差距,譬如油麦菜和牛肉客观差距较大,但油麦菜和生菜、莴笋、贡菜客观差距较小(都属菊科莴苣属植物);因此其特点是“它不受样本容量大小的影响(或较少)”。

效应量与样本量的关系在于,如若效应量较大,则所需样本量就小;反之,效应量较小,所需样本量就大,如下图。

2.研究设计的特征(组别数、变量数)

点评:越多越多
评论区的小知识:
※ 预实验的样本主要是为了检验实验材料或者问卷可读性,而不是分析分析结果,一般比较主观不需要做样本量分析。
※ 潜变量一般用蒙特卡洛来估计样本量
名词解释:
1.潜变量:
与可观察变量相对,是不直接观察但是通过观察到的其他变量推断(通过数学模型)的变量(直接测量)。旨在用潜在变量解释观察变量的数学模型称为潜变量模型。
来自经济学领域的潜在变量的例子包括 生活质量 ,商业信心, 士气 ,幸福和 保守主义 :这些都是无法直接衡量的变量。但是将这些潜在变量与其他可观察变量联系起来,可以从可观察变量的测量值推断出潜在变量的值。生活质量是潜在的变量,无法直接测量,因此可观察的变量用于推断生活质量。衡量生活质量的可观察变量包括财富,就业,环境,身心健康,教育,娱乐和休闲时间以及社会归属。
2.蒙特卡洛:
蒙特·卡洛(Monte Carlo)方法,也称统计模拟方法,是二十世纪四十年代中期由于科学技术的发展和电子计算机的发明,而被提出的一种以概率统计理论为指导的一类非常重要的数值计算方法。是指使用随机数《或更常见的伪随机数》来解决很多计算问题的方法。蒙特·卡洛方法的名字来源于摩纳哥的一个城市蒙地卡罗,该城市以赌博业闻名,而蒙特·卡罗方法正是以概率为基础的方法。
与它对应的是确定性算法
蒙特·卡罗方法在金融工程学,宏观经济学,计算物理学(如粒子输运计算、量子热力学计算、空气动力学计算)等领域应用广泛。
※ 假如是混合实验设计,也就是同时带组间组内的设计就是用重复测量的方差分析。
※ 当研究中存在多个统计学方法,比如某研究横断面调查里用到了t检验、方差检验、线性回归等,计算样本量以需要样本量最大的那个方法计算。