纯生信,6张图8分+!cfDNA甲基化+生信分析挖掘生物标志物+机器学习算法构建分类器
目前中科院认可的期刊越来越少,数据挖掘的不够充分是达不到优质期刊的门槛儿的。今天教大家纯生信分析方法挖掘生物标志如何发高分。

小谷今天又找到一篇挖掘生物标志的高分文章,该文使用了基因组学、生物信息学和统计学分析以及机器学习分析的方法 (ps:之前已经小谷介绍过一篇联合分析的,今天又来啦!)。今天这篇没有取交集的操作,非常硬核的生信挖掘,只是使用机器学习算法构建了个分类器,用的数据集不多,为新的药物研发以及转移性疾病的临床治疗等方面提供了有力支持。

题目:cfDNA甲基化作为SWOG S1314肌层浸润性膀胱癌患者新辅助化疗反应的预测生物标志物
杂志:European Urology Oncology
影响因子:IF=8.208
发表时间:2023年4月
研究背景
新辅助化疗(Neoadjuvant chemotherapy, NAC)是肌层浸润性膀胱癌(Muscle invasive Bladder Cancer, MIBC)的标准治疗。然而,治疗强度大,总体效益小,因此需要有效的生物标志物来确定收益。
数据来源

研究思路
作者首先72 名患者中采集了血液样本,通过Infinium MethylationEPIC BeadChip平台进行DNA甲基化水平分析,并结合随机森林模型(Random Forest, RF)和Elastic Net进行分类器构建。通过在基线信息中添加治疗数据来构建mR-score(methylation-based response score),预测NAC的响应概率,并确定了一种结合mR-score和循环膀胱DNA fraction的风险分层模型,以预测NAC响应。
主要结果
1.样本采集流程以及患者特征作者使用S1314中73名患者的pre-NAC blood,这些患者在试验中接受了基于顺铂NAC,随后进行了膀胱切除术以确定他们在试验中的病理反应如图1所示。图1也总结了临床病理特征。所有特征(性别、年龄、临床分期、体能状态和cfDNA(cell-free DNA)浓度)均与病理反应显着相关。


2.使用mR-score评估NAC反应生物标志物
作者选择DML(differentially methylated loci)在DMR(differentially methylated regions)中的NR中甲基化程度较低的DML作为机器学习的starting point。使用NR(less methylated in NR, lmNR)DML中甲基化程度较低的前500个,我们发现t分布随机邻域嵌入(t-distributed stochastic neighbor embedding, tSNE)图将Rs聚集在远离NR的位置(图2A)。随后使用重采样程序来计算每个样本的mR-scores。该mR-scores通过比较Rs和NRs之间的甲基化特征进行训练,旨在预测NRs的概率。因此,高mR-scores与无反应相关,而低mR-scores与反应相关。作者首先创建了十个随机选择的62个样本训练集,其中不包含感兴趣的患者。在训练集中选择DML并用于训练RF模型。每个训练模型都提供一个预测分数,每个患者的mR-scores被确定为十个训练模型的预测分数的中值。使用RF模型预测R与NR,获得了接受者操作特征(ROC)曲线下面积(AUC)为0.636。还观察到渐进相关性,中位mR-scores在CR中最低,在PR中较高,在NR中最高(图2B)。进一步观察到两种化疗方案具有相似的预测能力(图2C)作者还使用了ElasticNet(机器学习算法模型),构建分类器并获得相似的结果。在mR-scores和基于弹性网络的预测分数之间观察到很强的相关性(图2D)

3.治疗中期的 mR-scores与反应相关作者对57个治疗样本的cfDNA甲基化数据进行了分析,并使用在72个预处理样本上训练过的RF模型分配了mR-scores。治疗中期mR-scores的表现略好,AUC为0.720。治疗前和治疗中mR-scores之间也存在显着相关性(图3A)。同样,根据mR-scores观察到对两种化疗方案的相似预测能力(图3B)。

4. 使用循环膀胱 DNA fraction和 mR-scores预测 NAC 反应的组合风险分层模型作者用基于组织特异性甲基化模式估计cfDNA(circulating tumor DNA)组织来源相对流行率的方法(ps:他人的研究基础)计算循环膀胱DNA fraction,并可以作为膀胱ctDNA的替代指标。比较来自CR、PR和NR的样本中的循环膀胱DNA fraction时,观察到循环膀胱DNA fraction逐渐增加(图4A)。在Rs中,84%的循环膀胱DNA<1.11%,结果表明低循环膀胱DNA对识别NACRs具有高敏感性。观察到循环膀胱DNA fraction与治疗前mR-scores之间没有线性相关性(图4B)。鉴于这两个候选生物标志物相互独立,作者提出并测试了一种风险分层模型,该模型结合了治疗前循环膀胱DNA fraction和mR-scores,然后结合治疗中的mR-scores对中度风险患者进行分层,之后作者选择Youden指数作为这三项指标的临界值,并根据患者相对于这些临界值的测试值将患者分配到风险组(图4C-E)。在该队列中,所提出的模型的总体预测准确性为79%。

文章小结
这篇文章篇幅不长,研究的点很好,主要亮点就是给出血浆cfDNA甲基化法的应用案例,为新的药物研发以及转移性疾病的临床治疗等方面提供了有力支持。 (ps:在他人的研究基础上找出研究方向)。有一个好的研究目标非常重要,机器学习算法构建分类器也是常规操作了。(ps:未来小谷还会推送相关的文章赶快关注小谷吧!)