11.12探索性因素分析--学习笔记
一、目的和描述
因素分析:统计技巧—将某事物多个观测变量缩减成描述事物的少数不可观测变量(潜变量、潜在因素);一种降维的技术
探索性因素分析(EFA):简化数据
验证性因素分析(CFA) :数据是否真的测到了这些因素;是否验证已有理论。
回答问题:
能否提取少数有意义的维度或潜在因素,寻求并确定原始数据背后潜在结构
具体来说:1、众多原始数据中是否能提取少数潜在因素;2、数据驱动方式帮助理论构建(确定测量的心理特质的维度和结构)
二、模型、假设及基本步骤
模型:将观测到的数据表示称几个潜在因素的线性组合(具体公式p132、133)
全分量模型:对n个观测变量用n个新的潜在因素线性来表示。
实际中,常只取少数几个对观测变量方差贡献最大的因素(把方差贡献较小的因素看作特素因子项)
标准:基于整体变异
目的:简化数据结构,找出少数几个潜在因素后对观测变量加以分类
公共因素模型:所有观测变量中的每个观测变量均可表示为m个公共因素和1个特殊因素的线性组合。
公共因素解释观测变量之间的相关,特殊因素用于解释观测变量除去公共因素影响后剩下的部分方差。
标准:基于共同的变异
找到能代表原始变量的潜在结构或维度,寻找潜在因素与观测变量的关系
具体选择:
如果除了共同成分解释外,剩余方差比例很小,则可以使用全分量模型中的主成分分析
实际上,当变量很多(大于30)或者大多数变量共同都超过0.6时,使用两种模型差别不大。
步骤:
因素分析主要目的时从观测变量相关矩阵R中解出因素在和矩阵A。
具体:1、因素抽取,所得到的因素载荷矩阵成为初始因素载荷矩阵
2、因素旋转,所得到的因素载荷矩阵成为旋转因素载荷矩阵
基本概念
因素载荷:因素分析模型中各公共因素和观测变量的加权系数(通常将公共因素的系数称为因素载荷ajm)。它是潜在因素对观测变量影响程度的估计。因素载荷绝对值越大,说明在组成该观测变量的诸多因素中,该因素作用越大。
共同度:指公共因素方差在观测变量总方差中所占的比例,即用公共因素代替观测变量后,每个变量信息被保留的程度,h方表示。
(观测变量总方差=公共因素方差+特殊因素方差+误差方差。
特殊、误差的方差是模型未抽取的部分方差,特殊因素方差一般指每个观测变量特有的部分;误差值随机误差)
理解:1、在心理测量中,共同度反映检测题目测到所要测量行为属性的程度
2、评价区分度的指标(某题目构成因素的共同度大,则该题测被试个体差异强,改题目区分度好)
特征根(λ):反映某公共因素对各观测变量的影响程度,也反映该公共因素的重要性。
贡献率:指各因素的特征根在总的公共因素方差(或总特征根)中所占的比例。(每个变量方差被标准化,则总方差为变量个数n,贡献率=λ/n)
前提假设:
理论假设:变量中确实存在某种潜在结构
统计假设:观测变量间有较强的相关关系(如果相关小,则不可能共享公共因素)
Spss的统计量:
1、变量间相关矩阵:所有或大部分小于0.3,则不适合
2、反映像相关矩阵:非对角线绝对值较小,对角线上MAS值较大(0.5),则适合
3、KMO测度和Bartlett球形检验
KMO:比较观测变量间的简单相关系数和偏相关系数的相对大小,值0-1(偏相关远小于简单相关时KMO接近1)。一般来说:0.5一下不能接受,0.5-0.6很差;0.6-0.7差;0.7-0.8一般;0.8-0.9好,0.9-1非常好
Bartlett球形检验:需要拒绝零假设(整个相关矩阵为单位阵),才适用
基本步骤:(p136)
三、分析前的准备
明确目的
1、数据总结:得到数据的潜在结构,从而用更少的变量来解释和理解原始数据
2、数据简化:进一步采用因素分(因子得分)代替原始变量对原始数据进行描述
(也可以对被试进行因素分析,将其分成不同组别,采用潜在类别分析,或Q类型的因素分析)
设计分析
1、确定针对变量还是个案(对变量的:R分析;对个案的:Q分析)
2、计算原始数据的相关看是否满足探索性因素分析的条件(计算相关、协方差矩阵)
3、根据变量数目、特征等确定分析方法(代表每个因素的变量数目应当大于等于5,最少3)
4、确定样本量是否足够得到稳定结果
检验假设
概念性与统计性的假设检验(p138)
四、因素抽取和旋转
全分量模型:
一般采取主成分分析法
公共因素模型
1、主轴因素法(SPSS中PAF命令)
2、最小二乘法
3、极大似然法(样本量大时,精度更高)
4、映像分析法(SPSS中image命令)(映像:一个变量的映像指它可以在一定领域中被其他变量确定的部分,多重回归求得,其余部分为反映像)
5、α因素分析法(SPSS中α命令)
6、最大相关法7、形心心素法8、参照析因迭代法9、复相关平方法
公共因素数目的确定
1、先验标准:根据已有的理论
2、特征根准则:特征根大于等于1的主成分作为初始因素(最普遍)
3、碎石检验准则:按照因素被提取的顺序,画出因素的特征根随因素个数变化的散点图。找到图中斜率明显不同的点,该点及之前的因素为抽取因素(SPSS中SAS实现)
4、因素累积解释方差的比例标准:保证所有的累积因素解释的方差比例达到一定程度,确保探索性因素分析结果有显著意义。(累积60%以上一般)
实际中,要结合多个标准进行判断
因素旋转
为旋转时,基于因素所解释的方差比例来抽取因素,第一个因素解释的变异最多,越往后解释的越少。
旋转的目的:通过改变坐标轴的位置,重新分配各因素解释的方差的比例,使因素结构简单并易于解释。旋转不改变模型对数据的拟合也不改变每个变量的共同度。
1、正交旋转:(默认因素间不存在相关
1)、四次方最大法
2)、方差最大法
3)、等量最大法
2、斜交旋转:(没有因素见相互独立的限制,因素间夹角任意)
常见oblimin以及promax
解释因素
首先估计最初因素载荷矩阵;其次因素旋转;最后重新定义和解释因素
斜交旋转后一般得到
因素模式矩阵:载荷表示每个变量对因素的唯一贡献
因素结构矩阵:包含唯一贡献和因素之间的相关
(通常会报告因素结构矩阵;正交旋转下两者一致;
如果报告因素模式矩阵还要报告变量间的相关)
如果遇到交叉载荷:课旋转因素得到简单结构因素载荷,或者接删除。
当变量只在某一个因素上有高载荷时,结构最优。同时共同度0.5以上才能接受。
五、应用
效度检验
1、使用验证性因素分析的方法评估结果的可重复性(交叉验证)
2、评估因素结构的稳定性(样本量大,分两半,都因素分析,比较得到的因素载荷)
3、对删除异常值前后的样本进行探索性因素分析,比较结果的一致性(稳定-结果较好的泛化性)
处理结果
探索性因素分析结果被处理后,可以应用于其他的统计分析,方式:
1、针对每个因素选择有代表性的变量进行后续研究
2、合成维度分
选出最能代表某个因素的变量,然后对这些变量值求平均值或加权,使用这个维度分代表潜在因素
3、计算因素得分(缺陷:其他研究中很难重复)
将得到的因素作为因变量做回归分析,对样本进行分类和评价。即对因素进行测度,给出因素对应的每个样本的个案的值,这些值称为因素得分,又叫因子分
因素分与合成维度分的区别:
因素分基于某个因素上有载荷的所有变量计算的,而维度分可能只选取部分变量
因素分计算考虑了每个变量的因素载荷,而维度分可能只是平均数没有加权
六、注意的问题
1、样本量:小于50不适合,一般至少变量数的5倍(甚至更高)
2、缺失值:如果删除被试—样本量是否足够;是否会造成有偏估计结果
如果回归等方式插补—是否会造成模型过拟合,相关偏高
3、抽取因素数充分性:抽取过多,拟合高,方差解释比例大,但也越复杂
(如果某因素只有一个变量载荷,没有必要存在)
4、因素的重要性及内部一致性的问题
1)因素重要性由旋转后,每个因素解释方差或协方差的比例来衡量。
2)因素内部一致性:用因素分多重相关的平方来确定。
多重相关系数:某个因素分与其他因素分你之间的线性线管程度的指标。0-1之间。
较高(大于0.7),因素内部一致性越强,因素越稳定。
大于1则说明分析结果要重新考虑
3)、因素解释的问题:因素载荷超过0.32的变量才考虑作为解释因素的变量。
超过0.71的载荷特别好,0.63也很好0.55较好,0.45一般。
5、局限性
1、选择因素的取舍上的双重困境;2数据分布没有严格要求但会影响结果的准确性