【心理学考研】统计方法适用情形合集 | 参数检验篇
在开始这一期之前,先给大家分享一个小故事。
某个下午有一群人在品茶,这时有一位女士声称自己在喝英式茶的时候能区分出来是茶先倒进杯子还是奶先倒进杯子。大部分人都觉得这位女士在瞎说,只有一位男士提出要用科学的方法去证明到底一不一样。
常识告诉我们,如果想得到科学的结论,就应随机给女士几杯茶让女士鉴别一番,根据她答对的次数或比例来判断她是否有这个能力。
可是问题是,要做多少次实验呢?
这位男士是这么做的:他调配出了八杯其他条件一模一样而仅仅是倒茶倒奶顺序相反的茶,两类条件各四杯,他首先假设女士尝不出来区别(原假设H0),如果女士全部区分出这八杯茶,就说明在原假设成立的情况下,发生了非常反常的现象,以至于说明原假设是令人怀疑的。
已经学习一轮统计的同学们应该知道,在原假设成立的前提下,发生了非常小概率的事件,那我们就有理由怀疑原假设的真实性。
这个故事最早出现在统计学家Fisher发表于1935年的著作《the design of experiment》中,故事中的男士就是其本人。
同学们在使用描述统计的方法发现了两组数据存在差异后,我们希望知道这种差异是真正存在的差异还是由于一些误差所引起的、以及差异存在在哪里、由哪些变异源产生的,这时我们需要用到推论统计的一些方法。
假设检验是以反证法、小概率原理为基础,提出假设验证假设的过程,并由此提出两类错误。其核心是反证法,思路很简单,下面开始一段绕口令:
若要证明一个结论是正确的,那么先假设这个结论是错误的。以这个假设为前提进行推理,若推理出来的结果与假设矛盾,就说明这个假设是错误的,也即这个结论不是错误的,而是正确的。
接下来又可以分情况,当我们可以假定样本数据来自具有特定分布的总体时,可使用参数检验。如果不能对数据集作出必要的假设,则需使用非参数检验。
今天第一期,咱们就先聊聊参数检验。
先来简单回顾下相一些概念:
同学们最常用到,也即考试最常考到的参数检验,一般包括Z检验、t检验、方差分析。
篇幅有限,太具体的概念和公式等,同学们可以翻阅参考书或浏览我的课程。我这边主要举来讲讲几种参数检验使用的实例。
注:以下思维导图和举例来自学霸分享
同学们回顾下这几种检验的适用情形:
以心理学与生活的统计学部分的一个简单的例子来说明。
假设某心理学系的教授想看看,某门课程助教的性别是否对学习这门课的男女学生的成绩有所影响。为此,教授把一半学生随机分配给一位男助教,另一半分配给另一位女助教。
假设我们是这位教授,分配的时候就要记住控制随机分配给男女助教的学生人数、男女比例、分配的学生的总体能力水平和专业水平、人口特征等。
如果只想看看一个班,样本量只有几十个,那么我们可以使用独立样本t检验的方法,对两组(男助教组和女助教组)数据的差异进行分析;当然,如果数据足够大,例如某一城市或某一区域的整体调查,则可以使用独立样本Z检验的方法进行分析。
同一个研究,根据我们想探究的目的不同,可以随时变换统计方法。
再举个老生常谈又通俗易懂的例子。
假设同学们收到一个任务,要你们去研究某种词汇记忆的方法是否有效,大家能想到的方法便是随机选取某个地区的学生进行词汇记忆任务考察,然后抽取一定容量的样本进行记忆训练培训,最后根据所得的成绩进行差异检验。
咱们按实验设计的思路一步步来。
首先,按惯例,为了更好地突出自变量对因变量的影响,我们要对一些额外变量进行控制。如题目中需要对学生的词汇记忆能力进行测试,所以我们需要控制被试的年龄、年级、性别、智商、学习成绩等因素的影响。
数据收上来后我们得分析。
如果条件允许,抽取了大量的样本,则可以使用Z检验对总体成绩和进行培训后的被试成绩进行差异检验。
如果因为条件限制只能选取小样本,则用T检验对总体成绩和进行培训后的被试的成绩进行差异检验。
害怕总体成绩数据量过大怎么办?我们也可以先所有的被试进行前测,然后全部进行记忆方法培训,最后再进行一次后测,根据样本容量的大小,对被试的前后测成绩使用相关样本Z或T检验。
假如做到一半,任务分配方要求你研究研究这个词汇记忆方法是否存在性别差异,我们便把性别这个变量挑出来,选取一定数量的男生和女生进行词汇记忆训练,得到两组被试成绩的均值。同理,如果选取的被试是大样本,则可以用独立样本Z检验进行差异检验,如果是小样本则可以使用独立样本T检验进行差异检验。
性别的影响分析完,甲方又加要求,想让你看看除了记忆方法,记忆的材料是不是也会有影响。这时一个自变量就变成两个,每个自变量又至少有2个水平,我们便需要求助方差分析。
同样的,在实施实验时,需要控制被试的年龄、年纪、性别、智商、学习成绩等因素,但因为又加入了记忆材料这个变量,所以还需要控制单词、句子的长度、词义等因素。
要注意的是,词汇记忆方法一般只能做被试间变量,即一组使用记忆方法,另一组不使用记忆方法;而记忆材料可以作被试间变量也可以作被试内变量。
如果记忆材料有句子、单词两种,做被试间变量时,我们这个实验就是2×2的被试间设计,用多因素完全随机方差分析;做被试内变量时,那这个实验就是2×2的混合实验设计,采用多因素的重复测量方差分析。
这时你又突发奇想,只想看看不同的记忆材料对学生记忆效果的影响,但记忆材料变为句子、单词、图画三种,那此时研究设计就是单因素的实验设计。同样,当每个被试只接受一种记忆材料的处理时,属于单因素被试间设计,采用单因素完全随机方差分析;当每一个被试要接受所有记忆材料的处理时,属于单因素被试内设计,采用单因素重复测量方差分析。
如果我们想研究疫情严重程度和共情能力对个体心理健康的影响,同学们试着请找出实验的自变量,尝试从不同的目的来说说实验的统计方法。