欢迎光临散文网 会员登陆 & 注册

GEO数据库多数据集差异分析整合利器,再也不用纠结去除批次效应

2022-03-09 15:02 作者:尔云间  | 我要投稿

不同芯片数据的差异基因整合,常规的思路是先进行样本整合,然后去除批次效应,最后进行差异分析。阅读相关文献也有很多文章用了R包—RobustRankAggreg:对每个数据集进行独立分析,然后RRA整合DEG,拿到多个数据集共有的DEG

插播:文末查看代码获取方式哈

稳健排序整合( Robust rankaggregation,RRA)法是一种利用概率模型整合排序列表的方法,这个RobustRankAggreg包超级简单,RRA算法中最核心的为aggregateRanks函数,aggregateRanks函数其实就是对多个排好序的基因集,进行求交集的同时还考虑一下它们的排序情况。总体上来说,就是挑选那些在多个数据集都表现差异的基因,并且每次差异都排名靠前的那些。

先来看看如何获取及安装R包

方法一:根据操作系统,下载对应的压缩包,直接在R中安装

CRAN - Package RobustRankAggreg (r-project.org)

方法二:使用代码直接安装

前期准备

你可以很轻松的在GEO中获取这几个数据集:GSE7476, GSE13507, GSE37815 and GSE65635 ,然后得到每个数据集的差异表达基因结果

差异结果示例图

RobustRankAggreg包整合数据

现在可以使用RobustRankAggreg包对这4个数据集的差异分析结果进行整合啦。

当然,不仅仅是mRNA的表达芯片,其它,比如circRNA芯片也是如此 

来看下具体的操作流程 

Step1 四个GSE数据集差异表达基因(按logFC值排序)并为一个list,正序倒序各一个list 

Step 2所有差异基因在四个GSE数据集中logFC矩阵

Step 3 筛选共同上调基因,得到共同的上调差异表达基因

Step 4筛选共同下调基因,得到共同的下调差异表达基因

Step5 把top10的上调基因和下调基因的差异倍数进行热图可视化 logFC.pdf

有了多数据集共有差异基因结果,后面可以进行比如富集分析、蛋白互作分析、TF调控网络预测、药物靶点预测等等各种各样的分析,可以关注我们的宫主好eryunjian2014持续学习。如果有个性化分析要求不知道如何实现,可以联系小编定制自己的分析。

有需要代码的筒子,可以关注宫主好回复“26PC”获取


GEO数据库多数据集差异分析整合利器,再也不用纠结去除批次效应的评论 (共 条)

分享到微博请遵守国家法律