欢迎光临散文网 会员登陆 & 注册

11.12探索性因素分析--学习笔记

2022-11-12 14:22 作者:虚假硬币  | 我要投稿

一、目的和描述

 

因素分析:统计技巧—将某事物多个观测变量缩减成描述事物的少数不可观测变量(潜变量、潜在因素);一种降维的技术

    探索性因素分析(EFA):简化数据

验证性因素分析(CFA) :数据是否真的测到了这些因素;是否验证已有理论。

 

回答问题:

能否提取少数有意义的维度或潜在因素,寻求并确定原始数据背后潜在结构

具体来说:1、众多原始数据中是否能提取少数潜在因素;2、数据驱动方式帮助理论构建(确定测量的心理特质的维度和结构)

 

 

二、模型、假设及基本步骤

 

模型:将观测到的数据表示称几个潜在因素的线性组合(具体公式p132、133)

 

全分量模型:对n个观测变量用n个新的潜在因素线性来表示。

    实际中,常只取少数几个对观测变量方差贡献最大的因素(把方差贡献较小的因素看作特素因子项)

    标准:基于整体变异

    目的:简化数据结构,找出少数几个潜在因素后对观测变量加以分类

 

公共因素模型:所有观测变量中的每个观测变量均可表示为m个公共因素和1个特殊因素的线性组合。

    公共因素解释观测变量之间的相关,特殊因素用于解释观测变量除去公共因素影响后剩下的部分方差。

    标准:基于共同的变异

    找到能代表原始变量的潜在结构或维度,寻找潜在因素与观测变量的关系

 

具体选择:

如果除了共同成分解释外,剩余方差比例很小,则可以使用全分量模型中的主成分分析

实际上,当变量很多(大于30)或者大多数变量共同都超过0.6时,使用两种模型差别不大。

 

步骤:

因素分析主要目的时从观测变量相关矩阵R中解出因素在和矩阵A。

具体:1、因素抽取,所得到的因素载荷矩阵成为初始因素载荷矩阵

2、因素旋转,所得到的因素载荷矩阵成为旋转因素载荷矩阵

 

基本概念

 

因素载荷:因素分析模型中各公共因素和观测变量的加权系数(通常将公共因素的系数称为因素载荷ajm)。它是潜在因素对观测变量影响程度的估计。因素载荷绝对值越大,说明在组成该观测变量的诸多因素中,该因素作用越大。

 

共同度:指公共因素方差在观测变量总方差中所占的比例,即用公共因素代替观测变量后,每个变量信息被保留的程度,h表示。

观测变量总方差=公共因素方差+特殊因素方差+误差方差

特殊、误差的方差是模型未抽取的部分方差,特殊因素方差一般指每个观测变量特有的部分;误差值随机误差)

理解:1、在心理测量中,共同度反映检测题目测到所要测量行为属性的程度

2、评价区分度的指标(某题目构成因素的共同度大,则该题测被试个体差异强,改题目区分度好)

 

特征根(λ):反映某公共因素对各观测变量的影响程度,也反映该公共因素的重要性。

 

贡献率:指各因素的特征根在总的公共因素方差(或总特征根)中所占的比例。(每个变量方差被标准化,则总方差为变量个数n,贡献率=λ/n)

 

前提假设:

理论假设:变量中确实存在某种潜在结构

统计假设:观测变量间有较强的相关关系(如果相关小,则不可能共享公共因素)

Spss的统计量:

1、变量间相关矩阵:所有或大部分小于0.3,则不适合

2、反映像相关矩阵:非对角线绝对值较小,对角线上MAS值较大(0.5),则适合

3、KMO测度和Bartlett球形检验

   KMO比较观测变量间的简单相关系数和偏相关系数的相对大小,值0-1(偏相关远小于简单相关时KMO接近1)。一般来说:0.5一下不能接受,0.5-0.6很差;0.6-0.7差;0.7-0.8一般;0.8-0.9好,0.9-1非常好

   Bartlett球形检验:需要拒绝零假设(整个相关矩阵为单位阵),才适用

 

基本步骤:(p136)

 

 

三、分析前的准备

 

明确目的

1、数据总结:得到数据的潜在结构,从而用更少的变量来解释和理解原始数据

2、数据简化:进一步采用因素分(因子得分)代替原始变量对原始数据进行描述

(也可以对被试进行因素分析,将其分成不同组别,采用潜在类别分析,或Q类型的因素分析)

设计分析

1、确定针对变量还是个案(对变量的:R分析;对个案的:Q分析)

2、计算原始数据的相关看是否满足探索性因素分析的条件(计算相关、协方差矩阵)

3、根据变量数目、特征等确定分析方法(代表每个因素的变量数目应当大于等于5,最少3)

4、确定样本量是否足够得到稳定结果

检验假设

概念性与统计性的假设检验(p138)

 

 

四、因素抽取和旋转

 

全分量模型:

一般采取主成分分析法

 

公共因素模型

1、主轴因素法(SPSS中PAF命令)

2、最小二乘法

3、极大似然法(样本量大时,精度更高)

4、映像分析法(SPSS中image命令)(映像:一个变量的映像指它可以在一定领域中被其他变量确定的部分,多重回归求得,其余部分为反映像)

5、α因素分析法(SPSS中α命令)

6、最大相关法7、形心心素法8、参照析因迭代法9、复相关平方法

 

公共因素数目的确定

1、先验标准:根据已有的理论

2、特征根准则特征根大于等于1的主成分作为初始因素(最普遍)

3、碎石检验准则:按照因素被提取的顺序,画出因素的特征根随因素个数变化的散点图。找到图中斜率明显不同的点,该点及之前的因素为抽取因素(SPSS中SAS实现)

4、因素累积解释方差的比例标准:保证所有的累积因素解释的方差比例达到一定程度,确保探索性因素分析结果有显著意义。(累积60%以上一般

实际中,要结合多个标准进行判断

 

因素旋转

为旋转时,基于因素所解释的方差比例来抽取因素,第一个因素解释的变异最多,越往后解释的越少。

旋转的目的:通过改变坐标轴的位置,重新分配各因素解释的方差的比例,使因素结构简单并易于解释。旋转不改变模型对数据的拟合也不改变每个变量的共同度。

1、正交旋转:(默认因素间不存在相关

1)、四次方最大法

2)、方差最大法

3)、等量最大法

2、斜交旋转:(没有因素见相互独立的限制,因素间夹角任意)

常见oblimin以及promax

 

解释因素

首先估计最初因素载荷矩阵;其次因素旋转;最后重新定义和解释因素

斜交旋转后一般得到

因素模式矩阵:载荷表示每个变量对因素的唯一贡献

因素结构矩阵:包含唯一贡献和因素之间的相关

(通常会报告因素结构矩阵;正交旋转下两者一致;

如果报告因素模式矩阵还要报告变量间的相关)

如果遇到交叉载荷:课旋转因素得到简单结构因素载荷,或者接删除。

变量只在某一个因素上有高载荷时,结构最优。同时共同度0.5以上才能接受

 

 

五、应用

 

效度检验

1、使用验证性因素分析的方法评估结果的可重复性(交叉验证)

2、评估因素结构的稳定性(样本量大,分两半,都因素分析,比较得到的因素载荷)

3、对删除异常值前后的样本进行探索性因素分析,比较结果的一致性(稳定-结果较好的泛化性)

 

处理结果

探索性因素分析结果被处理后,可以应用于其他的统计分析,方式:

1、针对每个因素选择有代表性的变量进行后续研究

2、合成维度分

选出最能代表某个因素的变量,然后对这些变量值求平均值或加权,使用这个维度分代表潜在因素

3、计算因素得分(缺陷:其他研究中很难重复)

将得到的因素作为因变量做回归分析,对样本进行分类和评价。即对因素进行测度,给出因素对应的每个样本的个案的值,这些值称为因素得分,又叫因子分

因素分与合成维度分的区别:

因素分基于某个因素上有载荷的所有变量计算的,而维度分可能只选取部分变量

因素分计算考虑了每个变量的因素载荷,而维度分可能只是平均数没有加权

 

 

六、注意的问题

1、样本量:小于50不适合,一般至少变量数的5倍(甚至更高)

2、缺失值:如果删除被试—样本量是否足够;是否会造成有偏估计结果

           如果回归等方式插补—是否会造成模型过拟合,相关偏高

3、抽取因素数充分性:抽取过多,拟合高,方差解释比例大,但也越复杂

           (如果某因素只有一个变量载荷,没有必要存在)

4、因素的重要性及内部一致性的问题

1)因素重要性由旋转后,每个因素解释方差或协方差的比例来衡量。

2)因素内部一致性:用因素分多重相关的平方来确定。

多重相关系数:某个因素分与其他因素分你之间的线性线管程度的指标。0-1之间。

较高(大于0.7),因素内部一致性越强,因素越稳定

大于1则说明分析结果要重新考虑

3)、因素解释的问题:因素载荷超过0.32的变量才考虑作为解释因素的变量

超过0.71的载荷特别好,0.63也很好0.55较好,0.45一般。

5、局限性

1、选择因素的取舍上的双重困境;2数据分布没有严格要求但会影响结果的准确性


11.12探索性因素分析--学习笔记的评论 (共 条)

分享到微博请遵守国家法律