尔云间生信代码|基于甲基化数据评估肿瘤纯度及下游可视化软件

肿瘤甲基化水平和纯度之间的高度相关性可以表明肿瘤甲基化水平严重受肿瘤纯度的影响,而从癌症病人那里通过手术获得的肿瘤组织又都是不纯的,从而可以说明我们所获得的肿瘤样本的甲基化水平值由于受肿瘤样本纯度的影响偏离“纯癌症”样本的甲基化水平值更远,并不能代表此癌症样本的纯的甲基化水平,所以估计“纯化”癌症样本的甲基化水平值是非常必要的。
考虑肿瘤样本的纯度值,对于每一个CpG位点,构造此位点甲基化水平的线性模型,因为在此位点处来源于并不成对的癌症和癌旁组织,所以可以假设肿瘤样本与癌旁样本的甲基化水平是相互独立的,利用最小二乘法对线性回归中的参数进行估计,从而得到检验统计量。再通过自由度为n1+ n0-2的t检测获得pval值,通过FDR获得qval值,进行差异甲基化位点分析。
然后结合R包InfiniumPurify通过考虑肿瘤样本的纯度,利用线性回归模型建模,从而可以达到“纯化”癌症样本的目的。通过对肿瘤样本,正常样本以及肿瘤细胞的纯度数据建立线性回归模型,矫正纯度效应后,在甲基化相关差异位点,得到纯化的肿瘤样本甲基化水平值。
使用方法:
Rscript tumorPurify.r -Eset= -case= -control= -group_file= -cell_type=
参数说明:
USAGE:
tumorPurify.r -Eset=-case=-control=-group_file=-qvalue=
PARAMETERS:
-Eset the gene expression matrix ,gene as row,sample as column ,input csv format.
-case the name of the case,string.
-control the name of the control,string.
-group_file the sample classification labels ,the first column is sample name which is consistent with Eset column in order,the second column is the classification labels whith named"group", input txt table format.
-qvalue the DMC Threshold ,string
操作步骤:
1、打开命令行界面,输入“Rscript tumorPurify.r”调阅帮助文档,确定该程序所需的输入文件。
2、用户根据帮助文档中的参数说明内容,对参数进行设置。这里,必须输入参数有5个,分别是-Eset,表示基因表达矩阵文件,以基因为行,样本为列,保存为csv文件;-case 表示疾病组分组名称,字符型,注意要和group_file 中保持一致,例如"septic_shock";-control表示对照组分组名称,字符型,注意要和group_file 中保持一致,例如"healthy";-group_file表示样本表型信息,包含两列,第一列为样本名称,顺序必须和基因表达矩阵的样本一致,第二列为对应的表型分组,并且表头设置为”group”;- qvalue 差异甲基化位点筛选阈值,建议阈值为0.01,可根据需要调整。
3、完成参数提交后,按下回车键,整个程序即正式开始进入执行。每步执行内容都会给出提示。程序执行完毕后,界面会显示”Program execution is completed"结束语。
结果展示:
1. purity value.txt

2.DMC all.txt

3. DMC 0.01.txt

4. cgxxx.pdf.pdf

特别说明:本代码经申请软件著作权,仅转让使用权,不转让所有权
如需代码及示例数据等文件,请扫码聊天框回复 “代码”领取!

写在文末:
如果您近期想做生信方面的文章而苦于没有思路,或者不知道如何来入手生信分析,或者兑具体的某一个图有作图需求,都可以扫码咨询小云,我们有专业的技术团队,生信热点思路设计、生信分析、热点方向生信挖掘等,如有需要,可扫码下方二维码了解详情 !
