因子分析factor analysis(下)

GridSearchCV,它存在的意义就是自动调参,只要把参数输进去,就能给出最优化的结果和参数。但是这个方法适合于小数据集,一旦数据的量级上去了,很难得出结果。这个时候就是需要动脑筋了。数据量比较大的时候可以使用一个快速调优的方法——坐标下降。它其实是一种贪心算法:拿当前对模型影响最大的参数调优,直到最优化;再拿下一个影响最大的参数调优,如此下去,直到所有的参数调整完毕。这个方法的缺点就是可能会调到局部最优而不是全局最优,但是省时间省力,巨大的优势面前,还是试一试吧,后续可以再拿bagging再优化。

输出结果

spss应用
http://jingyan.baidu.com/article/cbf0e500f0a4572eaa28931a.html
因子分析是一种数据简化的技术,通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。
工具/原料
SPSS软件
数据
1.因子分析
1
1.因子分析
(1)主要思路:降维 简化数据结构
(2)目的:将(具有错综复杂关系的)变量 综合为 (数量较少的) 因子
以再现 原始变量与因子的关系, 通过不同的因子,对变量进行分类
消除 相关性,在信息损失最小的情况下,降维
(3)步骤
选取因子分析的变量(选相关性较大的,利于降维)――标准化处理;
根据样本、估计随机向量的协方差矩阵或相关矩阵;
选择一种方法――估计因子载荷阵,计算关键统计特征;
进行因子旋转,使因子含义清晰化,并命名,利用因子解释变量的构成;
计算每个因子在各样本上的得分,得出新的因子得分变量――进一步分析。
(4)如何分析
检验变量间偏相关度KMO值>0.6,才适合做因子分析;
调整因子个数,显示共同特征后即可命名。
2
2.因子分析操作步骤




3
3.看看结果吧



2.主成分分析
1.主成分分析与因子分析各自特点


2.操作步骤








3.看看结果吧


spss-因子分析/主成分分析-乳腺癌细胞
数据来源from sklearn.datasets import load_breast_cancer
KMO指数>0.8,说明变量共线性很强,适合因子分析或主成分分析
Bartlett的sig显著性为0,说明也OK,只是bartlett在某些场景参考意义不大

从方差解释来看,癌细胞受到6个因子共同决定,而非单一因素决定,和之前蒙特卡洛模拟结论一致
随机森林测试和因子分析的方差解释相差较大,随机森林更加准确,因子分析方差解释仅做参考

主成分图

旋转后因子图,经过和主成分比较,旋转后因子成分变量参数很多大于0.9,比较显著,主成分中大于0.9的变量很少
Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.
Rotation converged in 11 iterations.

因子总结结果:

随机森林测试结果,1000颗树

欢迎各位学习更多相关知识,python机器学习生物信息学系列课(作者录制)
