欢迎光临散文网 会员登陆 & 注册

3.2IF纯生信文章?肿瘤样本纯度评估ESTIMATE算法实战

2020-11-20 19:34 作者:雷枪医学信息技术  | 我要投稿

ESTIMATE算法是一种用于评估样本肿瘤纯度的算法。是由美国著名的MD安德森癌症开发和维护。

通过输入一个简单的基因的表达矩阵,我们可以等到免疫细胞、基质细胞的含量水平分值,以及样本纯度的数值。

输入文件:

ESTIAMTE评估算法的代码也相当简短:


library(utils)#安装 rforge <- "http://r-forge.r-project.org" install.packages("estimate", repos=rforge, dependencies=TRUE) library(estimate)


###读取数 file_dir='/Users/bloodborne/Desktop/用所选项目新建的文件夹/bioinfortest/bioinfo/tumor_immune/sample_input.txt' ##关键函数,生成GCT文件 filterCommonGenes(input.f = file_dir,output.f = "gene.gct",id="GeneSymbol") ###通过GCT文件评估肿瘤样本纯度 estimatescore("gene.gct","estimat_score.gct",platform = "affymetr") score_table=read.table("estimat_score.gct",skip = 2,header = 1) rownames(score_table)=score[,1] score=t(score_table) colnames(score)=score[1,] #score_matrix最终肿瘤纯度评分矩阵 score_matrix=score[-1,]


运行完课得到每个样本的肿瘤纯度等信息:

一般来说肿瘤的样本纯度越高,侵袭能力越强,因此可以结合其他表型数据做进一步分析。

下面我们来介绍一篇简单的ESTIMATE肿瘤免疫微环境评估算法的文章运用思,IF3.2,逐年下降中:


这是一篇3.5分纯生信文章,直接看method:



原始数据是俩张GEO芯片,生存分析和LASSO cox回归模型筛选出14个基因。



后面就是一个RISKscore模型的顽梗(其实就是系数*表达值加和),这。。。3年前的想法还能留到现在。。。后面是GO PPI等灌水组合拳。



最后才是我们的重点:



通过ESTIMATE计算出肿瘤纯度,作者研究RISK score和肿瘤纯度、基质细胞、免疫细胞评分的相关性,以及亚组之间三个评分的差异。最后就是一个肿瘤的CIBERSOFT免疫浸润的分析,这个我们可以用多种工具代替,后面会视频讲



作者整体的这个分析流程可以说是非常简单,没有实现难度。GOkegg和PPI这些我的TCGA视频都有讲,后面肿瘤免疫浸润也会讲解,唯一对大家的难点可能就是LASSO cox。

seer数据论文体系的机器学习部分包含了这一讲解和实战,有兴趣的同学可以看一下:

那么这次的讲解就到这里,相信这样的思路对大家实现起来应该是很快速的。


3.2IF纯生信文章?肿瘤样本纯度评估ESTIMATE算法实战的评论 (共 条)

分享到微博请遵守国家法律