欢迎光临散文网 会员登陆 & 注册

尔云间生信代码|基于逆累计分布函数识别显著偏差通路

2022-11-01 13:52 作者:尔云间  | 我要投稿


通路富集分析方法已经是生物学功能分析中非常有效的手段,通过利用富集算法如超几何分布,fisher精确检验等可以获得与表型显著相关的生物学通路。然而几乎所有的富集工具所利用统计学方法都是从通路基因与表型相关基因之间的重合率或关联度来评价通路的重要性的,通常我们通过显著性P值来进行评估。然而在生物学角度讲,尽管一些基因富集到了通路中,但是这些基因本身有着不同程度的差异表达,即有些基因异常变化程度很高,体现出与表型的高度关联性,而有些基因尽管差异表达,但是差异程度不明显,很可能是受到关键基因诱导发生共表达,或噪音干扰造成的。因此在评价一个通路与表型变化是否相关的过程中,除了基因数目的影响,我们也应该考虑基因自身表达情况的差异。


本代码充分考虑了基因本身的差异表达程度(pvalue值),利用逆累计分布函数将其转化为Z值,通过算法得到通路在这些差异表达基因的差异表达下的偏差值,以挖掘显著偏差的通路以及对通路的显著偏差做出最大贡献的差异表达基因集合。


只需要基因表达谱、样本分组文件及通路富集结果,软件将自行计算出差异表达基因及相应的p.value值,同时挖掘出实验条件或疾病状态下显著偏差的通路以及对通路的显著偏差做出最大贡献的差异表达基因集合。


使用方法

Rscript   pathway_score.r  -exp=  -group=  -lfc=  -KEGG_pathway=


参数说明:

USAGE:

USAGE:

pathway_score.r -exp=-group=-lfc=-KEGG_pathway=

PARAMETERS:

-exp    the matrix of gene expression ,input csv format.

-group  the group of sampple ,input txt format,"group" column must exsist.

-KEGG_pathway   the KEGG pathway that DEGs were enriched,input txt format.

-lfc    the cutoff of logFC.default:1


操作步骤:

1、打开命令行界面,输入“Rscript pathway_score.r”调阅帮助文档,确定该程序所需的输入文件。


2、用户根据帮助文档中的参数说明内容,对参数进行设置。这里,必须输入参数有3个,分别是-exp,表示基因表达矩阵文件,这里必须保存为csv格式;-group表示样本分组文件,输入格式为txt文本文件,并且必须包含group列且顺序一定要和基因表达矩阵列对应,相应的分组这里必须设置为“Tumor”,“Normal”,如需修改,需进入程序源代码进行相应修改。-KEGG_pathway表示通路富集结果文件,这里默认的是用clusterProfiler跑出来的结果,要用到p.adjust列。


可选参数有1个,为-lfc,表示差异分析设置的logFC阈值,默认为1,需要注意的是,一旦这里的值发生变化,相应的-KEGG_pathway也需要重新输入,因为是差异基因富集到的通路。


3、完成参数提交后,按下回车键,整个程序即正式开始进入执行。每步执行内容都会给出提示。程序执行完毕后,界面会显示”Program execution is completed"结束语。


结果展示:

diff.xls(所有基因差异分析结果)

logFC:差异表达倍数的log2值

AveExpr:基因在所有样本表达均值

t:limma包采用t检验的t统计值

p.value:显著性p值

adj.P.Val:经过BH校正后P值

B:该基因差异表达的概率,越大,差异表达概率越大


diff_exp.xls(按照所设阈值得到的差异基因表达矩阵文件)


result.txt(通路偏差得分结果)

第一列表示通路名称,第二列表示校正后的通路偏差得分,越高表示该通路偏离正常水平越明显,与表型越相关,第三列表示原来富集分析的p.value值,第四列表示对该条通路贡献最大的基因个数,第五列表示最大贡献的基因集合


PCA.pdf(基于表达谱矩阵绘制的PCA图)

不同形状和颜色分别表示不同分组


pheatmap.pdf(差异基因双向层次聚类热图)

顶部横条不同样色表示不同分组,纵向表示样本,横向表示基因,基因表达越高,颜色越红


volcano.pdf(火山图)

差异基因火山图(蓝色表示下调基因,红色表示上调基因,灰色表示差异不显著基因)

通路偏差得分富集结果图,条形长度表示最大贡献基因个数多少,纵坐标表示通路名称,颜色越深,表示偏离正常水平越明显


特别说明:本代码经申请软件著作权,仅转让使用权,不转让所有权

如需代码及示例数据等文件,请扫码聊天框回复 “代码”领取!


写在文末:

如果您近期想做生信方面的文章而苦于没有思路,或者不知道如何来入手生信分析,或者兑具体的某一个图有作图需求,都可以扫码咨询小云,我们有专业的技术团队,生信热点思路设计、生信分析、热点方向生信挖掘等,如有需要,可扫码下方二维码了解详情 ! 


尔云间生信代码|基于逆累计分布函数识别显著偏差通路的评论 (共 条)

分享到微博请遵守国家法律