「SPSSAU|数据分析」:因子分析案例

一、案例说明
1.案例数据
某“教育网站”想要调查用户对于使用、服务等方面的满意度,其中共有12个问题,调研得到259份问卷结果。部分数据如下:

补充说明:因子分析数据要求为定量或者量表题。
【定量:数字有比较意义,比如数字越大代表满意度越高,量表为典型定量数据。量表:通常指李克特量表,测量样本对于某构念(通俗讲即某事情)的态度或看法。】
2.分析目的
希望通过因子分析,用少量因子反映12个题目的信息,从而达到降低维度,便于分析的目的,并对因子命名以便后续分析。
此案例的分析思路如下:

二、前提条件

1.KMO值
KMO检验是为了看数据是否适合进行因子分析,其取值范围是0-1。具体划分如下:

本例中KMO取值为0.887,说明KMO值达到因子分析要求,至于是否可以进行因子分析还需要进一步查看Bartlett球形检验。
2. Bartlett球形检验
我们利用Bartlett检验是为了看数据是否来自服从多元正态分布的总体。本例中p值<0.05,具有显著性差异。说明数据来自正态分布总体,适合进一步分析。
所以使用因子分析进行信息浓缩研究,首先分析研究数据是否适合进行因子分析,从上表可以看出:KMO为0.887,大于0.6,满足因子分析的前提要求,意味着数据可用于因子分析研究。以及数据通过Bartlett 球形度检验(p<0.05),说明研究数据适合进行因子分析。
满足前提条件后接下来我们分数数据提取因子的个数。
三、因子提取

1.方差解释率
方差解释率越大说明因子包含原数据信息的越多。因子分析中,主要关注旋转后的数据部分。由上图可以显示12个指标中,第一个因子的方差解释率为25.799%,是由特征根3.096/12(指标个数)得到的。第二个因子的方差解释率为24.815%,第三个因子的方差解释率为22.117%,累积方差解释率由三者相加为72.730%,累积方差解释率这个值没有固定标准,一般超过60%都可以接受。特征根对于因子的提取有什么作用,以下展开来说。
2.特征根
特征根一般是指标旋转前每个因子的贡献程度。此值的总和与项目数匹配,此值越大,代表因子贡献越大。当然因子分析通常需要综合自己的专业知识综合判断,即使是特征根值小于1,也一样可以提取因子。如果不选择因子个数SPSSAU自动识别因子最佳个数的指标,通常以特征根大于1作为标准。实际应用中,多数时候是自行设置因子个数。特征根只是作为辅助判断之用。如果研究人员并没有预设维度。而选择默认选项,SPSSAU默认以特征根大于1作为标准。如下图:

上表格针对因子提取情况,以及因子提取信息量情况进行分析,从上表可知:因子分析一共提取出3个因子,此3个因子旋转后的方差解释率分别是25.799%,24.815%,22.117%,旋转后累积方差解释率为72.730%。
除了特征根外,碎石图也可以辅助决策提取因子个数。
3.碎石图

从图中可以看出,横轴表示指标数,纵轴表示特征根值,当提取前3个因子时,特征根值较大,变化较明显,对解释原有变量的贡献较大;当提取3个以后的因子时,特征根值较小,变化也很小,对原有变量贡献相对较小,由此可见提取前三个因子对原变量有的显著作用。碎石图仅辅助决策因子个数,如果由此图分析两个因子也是可以的。

本案例按专业知识来看提取三个因子,如果没有预设因子个数也可以默认让系统进行决策。提取后要观察因子的信息浓缩程度。
四、信息浓缩
1.旋转后因子载荷系数表

因子载荷系数表,正是反映因子和研究项对应关系情况。如果某分析项对应的多个因子载荷系数绝对值均低于0.4,可考虑删除该项。上图分析中均大于0.4。所以不用删除调整。
从结果中可以看出,使用因子分析对12个项进行浓缩处理,浓缩为三个因子。因子与题项对应关系如下:
其中Q5-Q9在因子1上有较高的载荷,说明因子1可以解释这几个分析项,它们主要反映了教育网站使用方面的满意度;
Q1-Q4在因子2上有较高的载荷,它们主要反映了教育网站教学质量方面的满意度;
Q10-Q12在因子3上有较高的载荷,它们主要反映了网站服务方面的满意度;
从上表可知:所有研究项对应的共同度值均高于0.4,意味着研究项和因子之间有着较强的关联性,因子可以有效的提取出信息。
2.调整因子
一般情况下,如果12项与3个因子之间的对应关系情况,与专业知识情况不符合,比如Q1被划分到了第一个因子下面,此时则说明可能Q1这项应该被删除处理,其出现了‘张冠李戴’现象。因而在进行分析时很可能会对部分不合理项进行删除处理。除此之外,也有可能会出现‘纠缠不清’现象。
关于因子和题项对应关系,因子和题项之间交叉会得到一个‘因子载荷系数’,此系数绝对值大于0.4,则说明二者有着较强关联性,该题项可以与该维度(因子)有着对应关系。
(1)“纠缠不清”
有时候会出现‘纠缠不清’现象,比如Q6可归属为因子1 ,同时也可归属到因子3(如下图),这种情况较为正常(称作‘纠缠不清’),需要结合实际情况处理即可,可将Q6删除,也可不删除,此案例中Q6按分析应属于因子1,所以不进行删除处理,这时,分析带有一定主观性。因子分析是一个多次重复的过程,比如删除某个或多个题项后,则需要重新再次分析进行对比选择等。最终目的在于:因子与分析项对应关系,与专业知识情况基本吻合。

由于从分析上看,结果良好,所以没有进行删除处理。
PS:题项和因子(维度)对应关系判断规则:某项对应某因子的因子载荷系数绝对值大于0.4,则说明该项对应该因子。
(2)“张冠李戴”
‘张冠李戴’:其指比如本来应该划分在某因子下,但分到其它因子中;此种情况最终不能被接受,需要删除这项,该分析中没有此类情况(所以举其他例子进行说明)。


从上图中可以看出:
A1~A4这4项,它们全部对应着因子3时,因子载荷系数值均高于0.4,说明此4项应该同属于一个维度,即逻辑上A1~A4这4项,并没有出现‘张冠李戴’现象。但是A1和A2这两项出现‘纠缠不清’现象,A1和A2除了可以对应因子3,也可以放在因子1下面。一般出现‘纠缠不清’现象时,暂时保留,先处理清楚‘张冠李戴’问题更好。
B1~B4共4项,B2,B3,B4这3项对应着因子1下面,但是B1却对应着因子2,因此B1这项属于‘张冠李戴’,应该将B1删除。B2同时对应因子1和因子2均可,属于‘纠缠不清’,暂不处理B2。
C1~C3共3项,此3项均对应着因子2,此3项并没有出现‘纠缠不清’或者‘张冠李戴’问题。
D1~D3共3项,D3出现了‘张冠李戴’问题,应该进行删除处理。D2出现了‘纠缠不清问题’(可对应因子1和因子4),应该给予关注。
总结上述分析可知:B1和D3这两项出现‘张冠李戴’,应该首先将此两项删除;而A1,A2,B2,D2共四项有出现‘纠缠不清现象’,暂时不处理(进行关注即可)。将B1和D3这两项删除后,进行第二次分析。
3.载荷图

载荷图用于展示各因子与载荷值关系情况,建议结合实际情况使用即可。
第一:如果提取1个成分(或因子)时,则无法展示载荷成分图;
第二:如果超过个成分(或因子)时,可自主切换查看对应的载荷图。
最后确定了提取的因子数及题项对应关系,即可对提取的因子命名。可以结合旋转后的因子载荷矩阵结果进行命名,最终将三个因子分别命名为F1用户体验、F2教学质量、F3网站服务。
由分析可以看出三个因子浓缩信息较好,涵盖了大部分信息,但是因子分析还可以进行权重的计算,如果只是分析则可以忽略以下步骤。
五、计算权重

线性组合系数及权重结果
(1)计算线性组合系数,公式为:loading矩阵/Sqrt(eigen),即载荷系数除以对应特征根的平方根;

例如:因子1:

因子2:

因子3:

(2)计算综合得分系数,公式为:累积(线性组合系数*方差解释率)/累积方差解释率,即线性组合系数分别与方差解释率相乘后累加,然后除以累积方差解释率;

综合得分系数:

以此类推;
(3)计算权重
将综合得分系数进行归一化处理即得到各指标权重值。

求和归一化:

例:综合得分系数和为3.017,(0.268+0.265+…+0.217=3.017)。

补充说明:上述loading矩阵,特征根eigen,方差解释率或累积方差解释率均为旋转后对应值。
六、其它
1.因子得分


因子分析往往是预处理步骤,后续还需要结合具体研究目的进行分析,如回归分析、聚类分析等。此时,可能需要用到因子得分,返回分析页面勾选[因子得分]即可生成因子得分。

2.综合得分
综合得分如何使用?
综合得分可用于对比综合竞争力情况,综合得分值越高,此时综合竞争力越强。此类应用常见于经济、管理类研究,比如上市公司的竞争实力对比。
综合得分需要选中按钮才会生效,且SPSSAU单独生成一列新标题名称类似为:“Comp_score****”,一般情况下用户需要把综合得分的原始数据下载出来使用,通过右上角‘我的数据->下载’,可将综合得分下载出来使用。

七、案例综述
通过分析我们知道案例数据满足因子分析条件,并且由因子提取个数可以看出三个因子涵盖原变量的大部分信息,信息浓缩也较好,以及得到权重的过程。最后确定了提取的因子数及题项对应关系,即可对提取的因子命名。可以结合旋转后的因子载荷矩阵结果进行命名,最终将三个因子分别命名为F1用户体验、F2教学质量、F3网站服务。