欢迎光临散文网 会员登陆 & 注册

【中字】主成分分析法(PCA)| 分步步骤解析 看完你就懂了!

2023-07-31 19:34 作者:Siohban  | 我要投稿

PCA 1. PCA是什么:就是降维。

降维的同时不可避免会有数据损失,所以需要选出最好的坐标系/降维方式/PCA算法——“建立的新维度按照方差大小排序,前几个维度包含了原始数据中大部分的方差信息,方差/特征值越大则该主成分(PC)拟合越好。这样,PCA可以将高维数据集中的复杂结构转化为低维空间中的简单结构,从而方便后续的数据分析和可视化。”

基因=变量

维度=主成分PC=通过某算法得到的变量组合

数据点=样本=each老鼠/细胞

2.降维好处:简化特征的复杂程度,减少训练模型计算量;

3. PCA降维缺点:离群点的影响较大。

4. 降维的衡量指标-降维后,在各保留维度中的方差(特征值)要最大:因为方差越大数据越散,防止了数据重叠导致信息失真。

5. 如何找到方差最大/最优拟合维度:理解即可


1.降维--方便绘图(可视化)

2.聚类cluster及其重要维度/基因

e.g.基因3(维度3)在分类上起到重要作用

3.绘图准确性

HOW- 去中心化




HOW-拟合-最优拟合



HOW-判定拟合度




从勾股定理开始,通俗理解如何判定拟合度









07:42

方差最大,误差最小

最大方差平方和SS=主成分1




09:21

向量?



PC1向量=基因1+基因2 的线性组合



11:10

svd是奇异值分解?





PC1的奇异SV/特征向量EV(个人觉得理解PCA的最重要的点是特征向量那块,听不懂的建议复习特征向量知识)

载荷得分LS

PC1的特征值=SS;奇异值


13:10

主成分之间必须保证线性无关,因此只有垂直那一条


用缩放来求得以上术语



14:17






15:02

方差

碎石图A SCREE PLOT:用PC的特征值(方差 平方和),来评估每个主成分PC所占差异率/代表性(对总差异的贡献占比)


16:30


寻找PC2:与PC1垂直的平面内,让距离平方和最大的那条线作为PC2 line。找到最佳拟合的这个过程,即各个样本投影点到原点(中心点)的方差最大化的过程






19:04

去掉差异率低的PC,就可以实现降维;寻找到合适的主成分,保证贡献率在85%以上就可以了?





19:46

降维分析,用2个主要成分(各个PC是几个基因/变量的算法组合)来表示更高维度的数据




【中字】主成分分析法(PCA)| 分步步骤解析 看完你就懂了!的评论 (共 条)

分享到微博请遵守国家法律