GSEA与GSVA傻傻分不清楚?一文帮你搞定!/SCI论文/科研/研究生/生信分析热点思路

生信分析的文章中一般都会做“富集分析”
大家最常见到的、也是最基础的就是GO和KEGG富集分析,除了它俩,我们还可以见到GSEA和GSVA ~ ~
GSEA和GSVA长得如此像,你知道它俩分别都是干啥的吗?能分清楚怎么用这两个分析吗?

跟着小云一起来学习啦,争取看完这篇就搞清楚它!
p 基本概念
l GSEA(Gene Set Enrichment Analysis,基因集富集分析):用来评估一个预先定义的基因集的基因在与表型相关度排序的基因表中的分布趋势,从而判断其对表型的贡献;
l GSVA(Gene Set Variation Analysis,基因集变异分析):是一种非参数的无监督分析方法,主要用来评估芯片和转录组的基因集富集结果。简单来说,就是将分析对象由基因换成了基因集,进行基因集(通路)级别的差异分析。
p 分析原理
n GSEA:给定一个排序的基因表L(基因表达矩阵)和一个预先定义的基因集S (可以是GO注释、MsigDB的注释或其它符合格式的基因集定义),GSEA的目的是判断S里面的成员s在L里面是随机分布还是主要聚集在L的顶部或底部。这些基因排序的依据是其在不同表型状态下的表达差异,若研究的基因集S的成员显著聚集在L的顶部或底部,则说明此基因集成员对表型的差异有贡献,也是我们关注的基因集。

n GSVA不需要预先进行样本之间的差异分析,它依据表达矩阵就可以计算每个样本中特定基因集的变异分数。通过将基因在不同样品间的表达量矩阵转化成基因集在样品间的表达量矩阵,从而来评估不同的通路在不同样品间是否富集。
其实就是研究这些感兴趣的基因集在不同样品间的差异,或者寻找比较重要的基因集,作为一种分析方法,主要是为了从生物信息学的角度去解释导致表型差异的原因。

p 应用背景
n GSEA 应用场景通常局限于 Case vs Control 的实验设计。对于表型(分组)复杂的大样本量研究,GSEA已不能满足对大量异质性样本多样化(如TCGA的多表型、多层次大队列研究)的分析需求,GSVA分析在此种情况下应运而生。

n GSVA 是基因集富集分析的扩展,不需要预先进行样本之间的差异分析,它依据表达矩阵就可以计算每个样本中特定基因集(比如某个通路)的变异分数。

p 两者异同
n 相同点:1、基因层面到基因集层面的分析
2、输入文件:基因表达矩阵+基因集
3、都可以通过R语言来实现
4、都可以找到表型间具有显著意义的基因集。
n 不同点:1、GSVA不需要预先做样本间差异基因分析
2、输入基因表达矩阵文件格式不同
3、需要的R包不一样,GSVA可以用GSVA 包,GSEA可以用clusterProfiler包
4、输出结果不同,GSVA输出基因集表达矩阵,可用作下游分析;GSEA直接输出各个基因集的统计值和结果图
如果您的时间和精力有限或者缺乏相关经验,并且对生信分析和思路设计有所需要的话,“生信鸟”非常乐意为您提供如下服务:免费思路评估、付费生信分析和方案设计以及实验项目实施等,有意向的小伙伴欢迎咨询小云哦!
