欢迎光临散文网 会员登陆 & 注册

尔云间生信代码|基于参数型经验贝叶斯算法和支持向量机(SVM)筛选疾病亚型特征基因

2022-10-09 15:34 作者:尔云间  | 我要投稿


目前许多疾病往往包含着不同的疾病亚型,例如白血病经常包含ALL急淋淋巴细胞白血病、AML:急性髓细胞白血病、CML:慢性髓细胞白血病、CLL:慢性淋巴细胞白血病。

如何识别挖掘不同疾病亚型的标志性基因集是研究热点之一,这对于疾病的针对性治疗有着巨大的意义。常规的方法通常是进行两两亚型之间的差异比较,如果亚型较少,这样的方法固然可靠,但是当疾病亚型大于3个,很显然增大了工作量,因此本代码通过基于参数型经验贝叶斯算法对疾病相关基因进行分类能力的预测,其次采用支持向量机(SVM)构建分类器,找到各个疾病亚型的显著基因集,这些基因能够明显将某个亚型与其它亚型显著分开。

用户只需要输入基因表达矩阵及样本的表型信息(这里指疾病亚型分类),代码将自行计算出每个疾病亚型下的关键基因,同时给出基因共表达网络构建的相应节点及边文件,可以直接导入到网络构图软件Cytoscape进行网络图绘制。


使用方法:

Rscript  geNetClassifier.r  -Eset=   -sampleLabels=  -postThr=  -corThr 


参数说明:

USAGE:geNetClassifier.r -Eset=<Eset> -sampleLabels=<sampleLabels> -postThr=<postThr> -corThr=<corThr>
PARAMETERS:

-Eset   the gene expression matrix ,gene as row,sample as column ,input csv format.

-sampleLabels   the sample classification labels ,the first column is sample name which is consistent with Eset column in order,the second column is the classification labels, input csv format.

-postThr        The threshold of posterior probability that represents how much each gene differentiates a class from the other classes.

-corThr The threshold of Pearson correlation that built gene networks derived from gene to gene co-expression analysis.


操作步骤:

1、打开命令行界面,输入“geNetClassifier.r”调阅帮助文档,确定该程序所需的输入文件。

2、用户根据帮助文档中的参数说明内容,对参数进行设置。这里,必须输入参数有2个,分别是-Eset,表示基因表达矩阵文件,以基因为行,样本为列,保存为csv文件;-sampleLabels表示样本表型信息,这里指疾病亚型分类,包含两列,第一列为样本名称,顺序要和基因表达矩阵列一致,第二列为对应的表型;可选参数有两个,分别是-postThr,为后验概率,表示某个基因有多大的可能性将某个亚型与其它亚型区分开,默认是0.95;-corThr 表示两个基因之间的pearson相关系数,主要用于后期网络构建过滤,默认是0.8。

3、完成参数提交后,按下回车键,整个程序即正式开始进入执行。每步执行内容都会给出提示。程序执行完毕后,界面会显示”Program execution is completed"结束语。


结果展示:

每个表型都会输出6个文件,包含2个PDF文件和4个txt表格文件,这里以ALL举例说明。

1、ALL_genes_expression.pdf


该图表示在ALL亚型中识别出的关键基因在各个亚型中的表达值,可以看到该基因很明显在ALL亚型中高表达


2、ALL_genes_discriminant_power.pdf


该图表示在ALL亚型中识别出的关键基因能够将该亚型和其它亚型区分的能力,和正负无关,绝对值越大,区分能力越强


3、ALL_GeneRankingDetails.txt

该表格表示初步按照我们设置的后验概率postThr,筛选出的符合大于该概率的亚型标志基因集。

Class:基因所属的class

postProb: 基因的后验概率

exprsMeanDiff:基因在该class相对于其他classes的均值差异。

exprsUpDw:基因在该class相对于其他classes的表达上下调情况。exprsMeanDiff大于0,表达上调,小于0表达下调。


4、ALL_ClassGeneDetails.txt

该表格表示进一步通过SVM构建分类器,最终筛选出的亚型标志基因集。格式与ALL_GeneRankingDetails.txt一致。

discriminantPower: 基因将该class与其他classes区分的power。


5、ALL_GeneNetwork_node.txt

该表格表示按照我们设置的相关系数corThr,筛选出的符合大于该相关系数的亚型基因集,为最后网络构建的节点。格式与ALL_GeneRankingDetails.txt一致。


6、AML_GeneNetwork_edge.txt

该表格表示按照我们设置的相关系数corThr,筛选出的符合大于该相关系数的亚型共表达关系对,为最后网络构建的边。


特别说明:本代码经申请软件著作权,仅转让使用权,不转让所有权

如需代码及示例数据等文件,请扫码聊天框回复 “代码”领取!



写在文末:

如果您近期想做生信方面的文章而苦于没有思路,或者不知道如何来入手生信分析,或者兑具体的某一个图有作图需求,都可以扫码咨询小云,我们有专业的技术团队,生信热点思路设计、生信分析、热点方向生信挖掘等,如有需要,可扫码下方二维码了解详情





尔云间生信代码|基于参数型经验贝叶斯算法和支持向量机(SVM)筛选疾病亚型特征基因的评论 (共 条)

分享到微博请遵守国家法律