机器学习预测原发性前列腺癌的临床结果,掌握这个思路,8分文章不在话下!
尔云间 一个专门做科研的团队
小果 生信果
欢迎点赞+收藏+关注

今天小果发现了一篇题为A machine learning framework develops a DNA replication stress model for predicting clinical outcomes and therapeutic vulnerability in primary prostate cancer(基于机器学习框架开发DNA复制应激模型以用于预测原发性前列腺癌的临床结果及治疗易感性DOI: 10.1186/s12967-023-03872-7),该文发表于Journal of Translational Medicine(IF=8.44)。让小果带你来看看这篇文章的主要研究内容吧!

一、 研究流程

二、 主要结果
1. 鉴定TCGA-PRAD中的DNA复制应激相关特征
从982个DNA复制应激特征中共收集了21个基因,在TCGA-PRAD中回收了894个基因。单变量cox回归分析在TCGA-PRAD数据集中确定了198个与PCa生化复发显着相关的基因。bootstrap方法进一步选择了136个预后基因中的198个,采用Boruta算法,将选定的基因缩小到47个(图1A, B),对基因进行排名, EMD,HJURP,PLK5,TROAP和CENPK这5个基因位于前5(图2A),并在TCGA-PRAD的复发性PCa样品中具有更高的mRNA表达(图1C)。

图1 Boruta算法选出的基因进行单变量Cox回归分析的结果

图2通过机器学习基准测试,建立了一个稳定的DNA复制应激标志(RSS)
2. DNA复制应激特征的构建
对7种与生存相关的机器学习算法进行了基准测试,包括Enet,lasso,Ridge,XGBoost,plsRcox,SuperPC和CoxBoost,以筛选具有最佳准确性和较低过度拟合风险的超参数调整模型。在TCGA-PRAD中执行了嵌套CV,外部10折用于验证,内部5折用于超参数调整(图2B-D),XGBoost生存模型表现最佳。将具有调优超参数的XGBoost模型拟合到整个TCGA-PRAD数据集中,并称为RSS。推断的特征包括EMD, CCNE2, PTTG1, TROAP和TK1在内对RSS的贡献如图2E.
3. DNA复制应激特征的评估
对TCGA-PRAD训练队列和四个外部验证队列使用1年AUC、3年AUC、5年AUC和C-index,检查RSS的预后价值,结果表明RSS在验证数据集中表现出了强大的预测能力(图3A-E)。进行了单因素和多因素Cox回归分析,并发现RSS作为一个连续变量在所有数据集中都与生化复发时间短相关,因此被认为是前列腺癌复发的独立风险因素(图3F)。使用“SurvivalROC” R软件包测试了是否可以使用固定的RSS阈值将所有包括的前列腺癌患者分为高危和低危两组(图3G-K)。综合看来RSS有潜力为原发性前列腺癌的离散风险分层提供帮助。

图3在多个队列中评估DNA复制应激签名(RSS)
4. RSS与临床变量和已发表特征的比较
使用C指数将Gleason评分、血清PSA和TNM分期其与RSS进行比较。RSS在TCGA-PRAD和GSE70768数据集中的预测准确度优于大多数临床特征,在DKFZ-PRAD、GSE70769和GSE94767数据集中具有不劣的预测能力(图4A-E)。

图4比较DNA复制应激标记(RSS)与临床特征和预后标记的预测表现
5. TCGA-PRAD 中 RSS 高组和低 RSS 组的多组学比较
在 RSS 高组中检测到复发的 (图5A)拷贝数增加和 (图5B) 拷贝数删除区域,在 RSS 低组中检测到复发的(图5C)拷贝数增加和(图5D) 拷贝数删除区域。图5E 显示了受复发性拷贝数改变影响的基因的癌基因图谱,右侧的条形图显示了每组中变化比例的对应比例。(图5F)显示了常见体细胞基因突变的癌基因图谱,右侧的条形图显示了每组中体细胞突变的对应比例。图5G-I 分别显示了 TCGA-PRAD 数据集中 RSS 高和 RSS 低患者的错乱分数、肿瘤突变负荷和肿瘤新抗原负荷的分布情况。盒子的上下界代表 75% 和 25% 百分位数,而盒子中心线表示中位数,星号表示统计 P 值(*P < 0.05; **P < 0.01; ***P < 0.001, ****P < 0.0001)。

图5 RSS 高和 RSS 低患者的多组学表征
6. RSS与临床特征和生物学过程的关联
比较了所有队列中RSS高组和RSS低组的临床特征,使用ssGSEA研究了RSS对生物途径的影响。热图的上部分显示了RSS高组和RSS低组患者之间临床特征的分布,热图的下部分展示了单样本基因集富集分析的z分数,右侧文本注释的不同颜色表示相应组中通路的相对富集程度,左侧的注释表示统计学P值。

图6临床病理学和生物特征与复制应激标志的关联。
7. RSS与免疫微环境的关联
利用CIBERSORT量化了905个PCa样本中的免疫细胞浸润,并研究了RSS与免疫浸润之间的关联。图7A为CIBERSOR分析结果,图7B为RSS和CD8+ T细胞之间的散点图,图7C为RSS和调节性T细胞之间的散点图。D为RSS和M2型巨噬细胞之间的散点图,相关系数R和相应的P值来自Spearman等级相关分析。E为RSS高和RSS低患者的免疫相关基因表达。F为atezolizumab应答者和非应答者之间RSS分布的比较。G为RSS高和RSS低组中应答者和非应答者的百分比。F和G中,"R"代表应答者,"NR"代表非应答者。方框的上限和下限分别表示75%和25%的百分位数,而方框中心线表示中位数,星号表示统计P值(*P <0.05; **P <0.01; ***P <0.001,****P <0.0001)。

图7复制应激标记与免疫细胞浸润之在Meta-cohort中的关联
8. 在计算机中发现RSS高PCa患者的潜在靶点和药物
图8A-B为Spearman等级相关分析得到的RSS与可药物化mRNA表达之间的相关系数点图,其中A为TCGA-PRAD数据集,B为DKFZ-PRAD数据集。浅色点表示在Spearman等级相关分析中通过阈值筛选的潜在靶点(R > 0.3且调整P < 0.05),而深色点则表示通过CERES分析筛选出的靶点。C为在前列腺癌细胞系中鉴定出的靶点的CERES得分分布。D为CMap分析所选的化学物质组成,只显示前10个药物类别。E和F为在TCGA-PRAD和DKFZ-PRAD数据集中比较了伊立替康和托泊替康在RSS高和RSS低患者之间推断的AUC值。G和H为在TCGA-PRAD和DKFZ-PRAD数据集中比较了ADT、紫杉醇和PARP抑制剂在RSS高和RSS低患者之间推断的AUC值。箱形图中的上下边界代表第75和25百分位数,而箱体中心线表示中位数。星号表示统计P值(*P < 0.05;**P < 0.01;***P < 0.001;****P < 0.0001)。

9. 敲除FEN1和RFC5抑制细胞生长
选择FEN1和RFC5进行实验验证,FEN1和RFC5可以通过促进细胞生来促进前列腺癌的进展。在 A 实时 qPCR 和 B 蛋白质印迹分析中测量的 siRNA 敲低可降低 C1-4B 和 PC-2 中 FEN3 和 RFC 表达的水平。通过C CCK-1和D集落形成测定比较C5-4B和PC-2中对照,FEN3和RFC8敲低组之间的细胞生长。E 通过流式细胞术测量对照组、FEN1 和 RFC5 敲低组中的细胞凋亡。用膜联蛋白V-荧光素5-异硫氰酸酯/ PI测定法对细胞进行染色。星号表示统计 P 值 (*P < 0.05; **P < 0.01; ***P < 0.001, ****P < 0.0001)

三、 文章小结
本篇文章内容十分丰富,先筛选出特征数据用于机器训练、测试及优化并获得可靠的预测模型,然后对RSS进行多组学分析并识别预测与DNA复制应激相关的靶点和治疗药物,最后进行基因敲除的验证了预测结果的可靠性。
后记:
机器学习+生信+湿实验验证,8分文章发文思路get!
我们提供云生信平台(云生信 - 学生物信息学 (biocloudservice.com)),文章中用到的生信方法可以用它试试哦~
生信人R语言学习必备
立刻拥有一个Rstudio账号
开启升级模式吧
(56线程,256G内存,个人存储1T)
往期代码:
【1】lncRNA的拷贝数变异下游相关分析
【2】R可视化:ggstatsplot包—科研界的美图秀秀
【3】随机森林算法用于分类预测和筛选诊断标志物
【4】基于本地Java版GSEA的输出结果整合多个通路到一张图
【5】基于岭回归模型和基因表达矩阵估算样本对药物反应的敏感性
【6】基于R包NMF对样本进行分型分析
【7】DALEX包用于探索、解释和评估模型;分析不同特征变量对响应变量的影响
【8】根据肿瘤突变负荷TMB进行KM生存分析寻找最佳的cutoff
【9】基于单样本富集分析算法评估组织中的免疫细胞浸润水平
【10】代码分享│什么?你还在用散点图来可视化数据之间的相关性
【11】代码分享│诊断列线图、校准曲线、决策曲线和临床影响曲线的构建
【12】代码分享│你了解基因的动态变化模式吗
【13】代码分享│生物信息分析之SCI热门图表-复杂热图
【14】代码分享│生物信息分析之SCI热门图表-火山图
【15】代码分享│生物信息分析之SCI热门图表-箱型图和小提琴图
【16】代码分享│深度学习-人工神经网络(ANN)的构建
【17】代码分享│R可视化:高分文章绘图之基于RCircos包的多类型圈图绘制
【18】代码分享│R可视化:基因与功能之间的关系--GO功能富集网络图绘制
【19】代码分享│生物信息分析之SCI热门图表—KM曲线和tROC曲线
【20】代码分享│R可视化:肿瘤预后模型之Cox回归分析后用R语言绘制森林图
【21】代码分享│生物信息分析之SCI热门图表—相关性热图和散点图
【22】代码分享│生信分析之R语言分析相关性及可视化的N种风格
【23】代码分享│TCGA数据获取有困难,不会预处理,学习起来
【24】代码分享│机器学习-支持向量机递归特征消除(SVM-RFE)的构建
【25】代码分享│R可视化:对两个矩阵进行相关性可视化分析
【26】GEO数据库多数据集差异分析整合利器RRA,再也不用纠结去除批次效应
【27】你与生信大佬的距离,只差2分钟搞定预后模型构建和性能评估
【28】9+SCI纯生信,模型构建中的“流量明星”,你不得不知的LASSO
【29】手把手教你画美观大气的lasso回归模型图,为你的SCI增砖添瓦
【30】R可视化:clusterProfiler包做组间比较GO富集图
【31】代码分享|R可视化:复杂热图绘制技巧之热图中添加柱状图
【32】代码分享——基于基因突变信息分析肿瘤突变负荷
【33】代码分享│富集不到想要的通路?别放弃呀,试试GSEA
【34】代码分享│还在用PCA做降维聚类吗?最强降维模型tSNE--你值得拥有
【35】代码分享│GSVA:原来功能通路也能做差异分析!
【36】代码分享│Slingshot:你不知道的单细胞拟时序分析还有它
【37】基于基因功能注释信息挖掘关键作用基因
【38】基于癌症分类预测的标志物特征提取的SVM-RFE分析代码
【39】依据表型数据基于无监督聚类算法对研究群体进行分层聚类分析
【40】基于稳健排序整合算法对多数据集进行整合及可视化
【41】基于基因表达谱估算样本免疫基质评分和肿瘤纯度
【42】自动化绘制LASSO算法回归模型图
【43】用于临床诊断和临床决策影响的DCA分析
【44】基于样本预后生存信息和临床因素用于评价不同模型的一致性指数软件
【45】用于探索、解释和评估模型的DALEX残差分析软件
【46】基于细菌群落功能丰度结果进行差异功能分析及可视化
【47】基于基因差异分析结果绘制其在染色体上的分布
【48】利用逐步回归法筛选特征基因构建Cox风险模型分析
【49】基于Immune Subtype Classifier进行肿瘤免疫亚型分类
【50】不同物种之间的同源基因名称转换分析
【51】基于逐步多因素cox回归筛选预后标记基因并构建风险评分模型
【52】基于表达信息挖掘与关注基因密切相关的基因
【53】基因组学基因名称修正分析
【54】基于Spearman算法构建关联网络
【55】基于线性建模方法对代谢组和转录组数据整合分析
【56】基于lasso回归模型方法筛选特征基因
【57】基于线性建模方法对代谢组和转录组数据整合分析
【58】基于参数型经验贝叶斯算法和支持向量机(SVM)筛选疾病亚型特征基因
【59】基于LDA(线性判别分析)算法的微生物biomarker的筛选
【60】基于R包xCell计算64种免疫细胞相对含量及下游可视化
【61】基于甲基化数据评估肿瘤纯度及下游可视化
【62】基于DiffCorr包识别不同表型下的差异共表达关系对
【63】基于逆累计分布函数识别显著偏差通路
【64】基于差异基因对通路的影响挖掘关键通路
【65】基于高通量数据的样本相似性分析
需要以上代码私信小果哦 !

“生信果”,生信入门、R语言、生信图解读与绘制、软件操作、代码复现、生信硬核知识技能、服务器、生物信息学的教程,以及基于R的分析和可视化等原创内容,一起见证小白和大佬的成长。