尔云间生信代码|基于表达信息挖掘与关注基因密切相关的基因

2022-09-20 14:46 作者:尔云间 0人读过 | 我要投稿

在生信分析中，我们往往希望对我们关注的某一个基因进行下游功能的探索，然而，单个基因想要研究，大多数情况下只能是通过实验进行，通常会对该基因进行敲除或过表达后进行测序，从而和正常组进行比较，得到差异基因认为是受该基因影响的，但是这样做一是耗时耗力，而是得到的差异基因仍然是一堆，我们仍然不知道哪些基因和该基因密切相关。皮尔森相关系数和斯皮尔曼相关系数为研究基因之间的表达相关性提供了很好的思路，因此本软件通过基于基因在各个样本中的表达矩阵，利用皮尔森相关系数和斯皮尔曼相关系数计算原理，分别获得各个基因与关注基因的相关性排名，通过给定的基因个数N，绘制相关性最强的TOPN基因和关注基因的散点分布图，并标识出具体的相关系数和显著性p.value值，从而为下游功能研究提供参考。

使用方法：

batchCorrelation.r -Eset= -symbol= -topnumber=

参数说明：

USAGE:

batchCorrelation.r -Eset=<Eset> -symbol=<symbol> -topnumber=<topnumber>

PARAMETERS:

-Eset the gene expression matrix ,gene as row,sample as column, input csv format.

-symbol the gene of interested ,input gene symbol format.

-topnumber the number genes of most significantly related to the gene of interested, input integer format.

操作步骤：

1、打开命令行界面，输入“Rscript batchCorrelation.r”调阅帮助文档，确定该程序所需的输入文件。

2、用户根据帮助文档中的参数说明内容，对参数进行设置。这里，必须输入参数有3个，分别是-Eset，表示基因表达矩阵文件，以基因为行，样本为列，保存为csv文件；-symbol，表示关注的基因名称，为gene symbol格式，必须包含在基因表达矩阵的行名中；-topnumber，表示预期绘制的与关注基因最相关的基因个数，这里假如是6，则会绘制与关注基因最正相关的6个和最负相关的6个基因的相关性散点图。

3、完成参数提交后，按下回车键，整个程序即正式开始进入执行。每步执行内容都会给出提示。程序执行完毕后，界面会显示“rogram execution is completed”结束语。

结果展示：

1.HDAC1_cor.pdf