欢迎光临散文网 会员登陆 & 注册

富集不到想要的功能?别放弃呀,试试这个方法!

2022-08-10 14:29 作者:尔云间  | 我要投稿

科研有捷径,输入代码,一键获取科研成果!就是这么省事,来具体看下有多方便!


搜索http://985.so/a9kb查看全部代码(目前共计50+持续新增中),也可以点击右侧【目录】,可以看到更多有趣的代码;真香提示:文末可以知道如何获取代码~ 作者:尔云间 https://www.bilibili.com/read/cv17906772 出处:bilibili


      功能富集是生信分析中最常用也是十分关键的一步,基因功能的富集分析已成为高通量组学数据分析的常规手段,对于揭示生物医学分子机制具有重要意义。功能富集分析可以将成百上千个基因、蛋白或者其他分子分到不同的通路中,以减少分析的复杂度。另外,在不同实验条件下,激活的通路显然比简单的基因或蛋白列表更有说服力。

      但是在我们分析的过程中,像GO,KEGG是我们用的比较多的功能富集方法,有时候却富集不到我们想要的通路结果。今天我们来介绍另一种功能富集方法-GSEA。GSEA(Gene Set Enrichment Analysis):基因集富集分析,由Broad Institute研究所提出的一种富集方法,同时还提供对应的分析软件GSEA和一个基因集数据库MSigdb (https://www.gsea-msigdb.org/gsea/msigdb/)。今天我们来介绍下如何具体实现GSEA功能富集分析:

       本文代码及相关文件见如下3个文件夹,可在文末咨询小助手领取

  1. 加载相应R依赖包:

library(GSEABase)

library(clusterProfiler)

library(DOSE)

library(org.Mm.eg.db)

library(ggplot2)

library(enrichplot)

library(stringr)

2. 数据导入

输入数据包含2列,一列是p值,一列是logFC值,具体见下图。

3. GSEA分析

接下来对输入数据进行分析,第一步将基因symbol转成ENTREZID,这样才能将ID对应到数据库中。


第二步将转换好的基因ID与log2FC值一一对应,并将log2FC值反向排序。

    第三步我们先使用clusterProfiler包中gsea分析函数自带的KEGG库试一下,这里使用的是小鼠的基因,所以organism选mmu。

4, 自定义基因集

接下来我们自己选择基因集来做GSEA富集,这就是与常规的GO,KEGG有区别的地方,让GSEA分析的结果更理想一点。首先需要准备gmt文件,人的可以去这里下载相应的基因集https://www.gsea-msigdb.org/gsea/msigdb/index.jsp,小鼠可以去这里下载http://download.baderlab.org/EM_Genesets/current_release/Mouse/symbol/。


    到这里分析就结束了,最后的图我们选择了前4个通路作为展示,是可以任意展示想要的通路哦!

如需代码及示例数据等文件,请扫码聊天框回复 “B33”领取! 






富集不到想要的功能?别放弃呀,试试这个方法!的评论 (共 条)

分享到微博请遵守国家法律