欢迎光临散文网 会员登陆 & 注册

【生信小知识】GSEA和ssGSEA、单基因GSEA都是什么?GSEA结果图怎么看?

2023-04-24 10:31 作者:尔云间  | 我要投稿

大家好,小云来分享生信小知识喽~

1. 什么是GSEA

Gene Set Enrichment Analysis (GAES,基因集富集分析)用来评估一个预先定义的基因集的基因在与表型相关度排序的基因表中的分布趋势,从而判断其对表型的贡献。

2. 有GO/KEGG富集分析了,为什么还要做GSEA

l GO/KEGG富集分析是先筛选差异基因,再判断差异基因在哪些注释的通路存在富集;这涉及到阈值的设定,存在一定主观性并且只能用于表达变化较大的基因,即我们定义的显著差异基因。

l GSEA则不局限于差异基因,不需要指定阈值(p值或FDR)来筛选差异基因,我们可以在没有阈值限制的情况下分析我们感兴趣的基因集,而这个基因集不一定是显著差异表达的基因。GSEA分析可以将那些GO/KEGG富集分信息中容易遗漏掉的差异表达不显著却有着重要生物学意义的基因包含在内。

3. GSEA原理是什么?

给定一个排序的基因表L(基因表达矩阵)和一个预先定义的基因集S (可以是GO注释、MsigDB的注释或其它符合格式的基因集定义),GSEA的目的是判断S里面的成员s在L里面是随机分布还是主要聚集在L的顶部或底部。这些基因排序的依据是其在不同表型状态下的表达差异,若研究的基因集S的成员显著聚集在L的顶部或底部,则说明此基因集成员对表型的差异有贡献,也是我们关注的基因集。

上个图展示一波:

4. GSEA图怎么看?

1) 富集得分 (ES, enrichment score)反应基因集成员s在排序列表L的两端富集的程度。计算方式是,从基因集L的第一个基因开始,计算一个累计统计值。当遇到一个落在s里面的基因,则增加统计值。遇到一个不在s里面的基因,则降低统计值。富集得分ES最后定义为最大的峰值。正值ES表示基因集在列表的顶部富集,表示富集通路为上调通路;负值ES表示基因集在列表的底部富集,表示富集通路为下调通路。

2) 竖线:图中间部分每一条线代表基因集S中的一个基因,及其在基因列表L中的排序位置。

1) Leading-edge subset (领头亚集): 对富集得分贡献最大的基因成员,也是后续研究中重点关注的通路关键基因。若富集得分为正值,则是峰左侧的基因;若富集得分为负值,则是峰右侧的基因。

2) 显著性判断(p值)

P值是用来进行显著性检验的,用来评估富集得分(ES)的显著性,P值<0.05,代表S基因集在列表L中显著富集,简单点来说,就是关注某个通路在疾病中显著富集。

再来张不一样的

ps:不一样的只是形式,解图的方法还是不变滴,万变不离其宗

(把多个通路的基因集放在一个图中展示,doi: 10.1155/2022/4254195)

当然小伙伴在实际的分析中可能会遇到多个通路,分析的方法也是一模一样~

 那在生信文献中还会看到ssGSEA和单基因GSEA,分别是什么?

l ssGSEA(single-sample gene set enrichment analysis)是一种基于GSEA(Gene Set Enrichment Analysis)的改进方法,用于计算基因集在样本内的表达模式差异。与GSEA不同,ssGSEA将样本内基因表达谱进行归一化处理,然后计算每个基因集对应的ssGSEA得分,以此量化基因集的表达模式差异。

l 单基因GSEA分析是一种基于基因表达谱数据的生物信息学分析方法,它可以用来分析单一基因与一个特定生物过程或疾病状态的相关性以及其调控机制。单基因GSEA分析是在GSEA的基础上,对每个单一基因进行富集分析。

 GSEA和ssGSEA、单基因GSEA的比较?

小云有话说

选分析方向/方法最便捷的方法当然还是持续关注生信番茄公众号中的生信思路推荐,如果你定制创新性思路欢迎直接call小云哦,下一篇生信文章在向你招手!


【生信小知识】GSEA和ssGSEA、单基因GSEA都是什么?GSEA结果图怎么看?的评论 (共 条)

分享到微博请遵守国家法律