读懂聚类热图与PCA图谱
尔云间 一个专门做科研的团队

在使用GEO数据进行免疫细胞经润分析时,经常需要做一些相关性图来检验组间样本的相关程度是否显著,往往有时候作图不会遇到问题,但是对于得到的图谱读不懂其中的含义,这就需要去提高读图能力,这里就选用了两张图谱来学习下:
1. 聚类热图

在本图中,横纵标轴表示:样本名称;纵坐标轴表示:不同的细胞;右上角的Expression中蓝色表示表达量低,红色表示表达量高;Group表示分两组,分别是tumor与normal组;左边的聚类树是表示纵坐标轴中细胞的聚类情况。
图中可以看出来自同一分组的不同样本在同一类型细胞中的表达量是相近的,来自不同分组不同类型细胞在不同的样本的样本中表达不同。
2. PCA图

PCA是主成分分析(Principle Component Analysis,PCA),是一种数据降维算法,利用它可以帮助我更好地从多个维度去分析数据之间的相关性,至于PCA原理的实现在这里我们不展开描述。
PCA1和PCA2可以看成是数据降维为后形成不同维度的矩阵在空间中的名称,(50.30%)和(9.56%)表示主成分的贡献率;横纵坐标轴的数值表示载荷系数范围,其中带“-”表示变量与数据变化的主成分之间的关系是负的,不带“-”变量与数据变化的主成分之间的关系是正的;红色原点代表肿瘤组的变量,蓝色正方形代表正常组的变量;红色和蓝色线是趋势线。
通过图中可以看到,红色和蓝色线各自圈住的区域,说明它们各自组中样本之间比较聚集,在各自组中重复较好,数据相似性高,反之,就是各自组中样本之间比较离散,在各自组重复性过低,相似性较低,红色和蓝色线圈住的共有区域,说明这些样本在两个组中重复性好,相似性高。

推荐阅读
关注小果,小果将会持续为你带来更多生信干货哦。

生信果
生信入门、R语言、生信图解读与绘制、软件操作、代码复现、生信硬核知识技能、服务器等
原创内容