【中字】主成分分析法(PCA)| 分步步骤解析 看完你就懂了!

PCA 1. PCA是什么:就是降维。
降维的同时不可避免会有数据损失,所以需要选出最好的坐标系/降维方式/PCA算法——“建立的新维度按照方差大小排序,前几个维度包含了原始数据中大部分的方差信息,方差/特征值越大则该主成分(PC)拟合越好。这样,PCA可以将高维数据集中的复杂结构转化为低维空间中的简单结构,从而方便后续的数据分析和可视化。”
基因=变量
维度=主成分PC=通过某算法得到的变量组合
数据点=样本=each老鼠/细胞
2.降维好处:简化特征的复杂程度,减少训练模型计算量;
3. PCA降维缺点:离群点的影响较大。
4. 降维的衡量指标-降维后,在各保留维度中的方差(特征值)要最大:因为方差越大数据越散,防止了数据重叠导致信息失真。
5. 如何找到方差最大/最优拟合维度:理解即可







1.降维--方便绘图(可视化)

2.聚类cluster及其重要维度/基因

e.g.基因3(维度3)在分类上起到重要作用

3.绘图准确性

HOW- 去中心化




HOW-拟合-最优拟合



HOW-判定拟合度






从勾股定理开始,通俗理解如何判定拟合度








方差最大,误差最小07:42

最大方差平方和SS=主成分1


向量?
09:21



PC1向量=基因1+基因2 的线性组合

svd是奇异值分解?
11:10





PC1的奇异SV/特征向量EV(个人觉得理解PCA的最重要的点是特征向量那块,听不懂的建议复习特征向量知识)

载荷得分LS

PC1的特征值=SS;奇异值

主成分之间必须保证线性无关,因此只有垂直那一条
13:10


用缩放来求得以上术语


14:17




方差
15:02

碎石图A SCREE PLOT:用PC的特征值(方差 平方和),来评估每个主成分PC所占差异率/代表性(对总差异的贡献占比)


16:30

寻找PC2:与PC1垂直的平面内,让距离平方和最大的那条线作为PC2 line。找到最佳拟合的这个过程,即各个样本投影点到原点(中心点)的方差最大化的过程





去掉差异率低的PC,就可以实现降维;寻找到合适的主成分,保证贡献率在85%以上就可以了?
19:04




降维分析,用2个主要成分(各个PC是几个基因/变量的算法组合)来表示更高维度的数据
19:46
