Q1区6分+纯生信!依靠“机器学习”,没有验证就能发高分!还有代谢分析新思路等你来学
现在生信热点更新非常的快,但需要抓住新热点刚出现时的红利期,如果错过了,只靠简单的分析很难发高分的文章。
还有一种方法,就是从分析思路上进行创新,比如机器学习。

今天番茄君给大家找一篇只用一种机器学习算法挖掘信息的文章,6张图6分+!
虽然分析的是代谢,但是分析思路非常新颖,是基于17条代谢途径的富集评分构建了代谢风险评分模型,纯生信也能轻松发表!(ps: 没有思路、不知道怎么创新关注番茄君的公众号,手把手教你打开思路!)一起来学习一下吧!

题目:基于随机森林的代谢风险模型评估卵巢癌的预后和代谢相关药物靶点
杂志:Computers in Biology and Medicine
影响因子:IF=6.698
发表时间:2023年2月
一.数据来源


二.研究思路
首先使用随机森林算法确定了17条具有预后价值的代谢途径,构建了基于代谢途径富集评分的代谢风险评分模型,并将卵巢癌患者分类为两种亚型。然后研究了不同亚型在预后、差异基因表达、免疫特征富集、Hallmark特征富集和体细胞突变方面的差异。此外通过加权相关网络分析确定了与高代谢风险和低代谢风险卵巢癌表型相关的5个药物靶点,并研究了它们在卵巢癌发生中的作用。最后,开发了一个XGBoost分类器来预测卵巢癌患者的代谢风险类型,预测效果良好。
三.主要结果
1.卵巢癌不同代谢风险亚型的预后分析
作者在训练集中使用随机森林算法挖掘了17条与预后相关的代谢途径。在这些代谢途径中,心磷脂代谢和维生素K代谢途径的风险比大于1,而其余代谢途径的风险比小于1(图1A)。然后根据17条通路的富集评分构建卵巢癌患者代谢风险评分模型,并根据最优阈值将卵巢癌患者分为高代谢风险亚型和低代谢风险亚型。随后,作者比较了不同风险亚型之间17条通路的富集分数。结果显示,在训练集中,低代谢风险亚型中大多数通路的富集得分显着高于高代谢风险亚型中的通路(图1B)。基于对训练集和测试集中高代谢风险亚型和低代谢风险亚型患者的生存分析,观察到低风险亚型患者的总体生存优于高风险亚型患者(图1C- D)。比较了TCGA队列中高代谢风险亚型和低代谢风险亚型卵巢癌患者的总生存期,结果表明,低代谢风险亚型的总生存期优于高代谢风险亚型。(图1E)。

图1 不同代谢风险亚型的预后评估结果
2.高代谢风险亚型和低代谢风险亚型基因表达差异分析
作者进一步研究高代谢风险亚型和低代谢风险亚型的分子功能,在TCGA数据中对两种风险亚型进行了差异基因分析,共鉴定出1527个上调的差异表达基因和1510个下调的差异表达基因。使用clusterProfiler包,对差异基因进行了GO以及KEGG通路的富集分析。差异基因在线粒体翻译延伸、RNA剪接和ATP合成耦合电子传输和亨廷顿病、帕金森病和化学致癌活性氧中显着富集(图2A-B)。
之后对TCGA队列中卵巢癌患者的不同风险亚型进行了Hallmark特征和ImmPort免疫特征的GSEA,发现六个Hallmark特征(如氧化磷酸化和干扰素-γ反应)在低代谢风险亚型中显着富集,六种Hallmark特征(如上皮-间质转化和肌生成)和一种ImmPort免疫特征在高代谢风险亚型中显着富集(图2C-D)。最显著富集的四种Hallmark特征和ImmPort免疫特征的GSEA结果如图2E-F。

图2 TCGA队列中不同风险亚型的差异基因表达和GSEA结果
3.TCGA队列中高代谢风险亚型和低代谢风险亚型的体细胞突变
作者分析了TCGA队列中高代谢风险亚型和低代谢风险亚型之间体细胞突变的差异。使用maftoolsR包分析了TCGA队列中高代谢风险和低代谢风险亚型的体细胞突变,并根据突变频率列出前20个基因。在高代谢风险亚型和低代谢风险亚型中,存在多种突变类型,其中一些基因(如TP53、TTN、FLG2)在高风险和低风险亚型中均表现出高频率突变(图3A),而某些基因(如RALGAPA1、NPAS3、TNIK)的突变频率在高代谢风险亚型和低代谢风险亚型之间存在显着差异(图3B)。研究结果表明,TNIK对于结肠肿瘤生长过程中WNT信号通路的激活至关重要,MUC16基因可作为癌症治疗的靶点,并且FASTKD5的缺失导致线粒体翻译和电子传递链复合物上的氧化磷酸化缺陷。

图3 TCGA队列中不同风险亚型的体细胞突变
4. 不同代谢风险亚型的药敏分析
作者检查了不同代谢风险亚型对紫杉醇和铂类化疗药物的不同敏感性。TCGA卵巢癌患者化疗药物反应数据已由Jia等人研究计算得出。使用GDSC数据库的药物数据,比较了不同风险亚型患者的药物IC50值。结果显示,低风险亚型对多西紫杉醇的药敏显着优于高风险亚型,高风险亚型对紫杉醇的药敏性显著优于低风险亚型,而化疗药物顺铂的敏感性在两种亚型之间没有显着差异(图4A)。三种药物的累积IC50比率表现出相同的分布(图4B)。

图4 不同代谢风险亚型的药敏分析
5. TCGA 队列中不同代谢风险亚型的 WGCNA
作者使用WGCNA包构建了一个基因共表达网络,以识别TCGA队列中与高和低代谢风险表型相关的基因模块。当软阈值为5时,基因分布与无标度网络的分布相匹配(图5A),因此使用power=5构建了共表达网络。之后,基于层次聚类构建基因聚类树,并对基因模块进行分类(图5B)。通过计算模块特征与高风险和低风险表型之间的相关性,生成了模块与高风险和低风险表型之间的相关关系图。棕色基因模块与高风险和低风险表型的相关性最显着(图5C)。

图5 基因共表达网络构建及相关性挖掘
6. 通过 XGBoost分类器预测高风险和低风险亚型
最后作者构建了一个分类器,用于使用XGBoost R包预测训练集中的两种风险亚型。将识别出的17条代谢途径的富集分数作为分类器的输入样本特征集,将高风险和低风险亚型特征作为样本特征。对于训练集,分类器的样本分类准确率为93.4%(图6A)。为了进一步评估分类器的性能,分别计算了其在测试队列和TCGA队列中的分类准确率和AUC。结果显示,测试集的分类准确率为82.9%,AUC为0.823(图6B),TCGA队列的分类准确率为97.6%,AUC为0.974(图6C)。

图6 XGBoost分类器的分类性能结果
四.文章小结
这个文章内容比较丰富,使用的数据集也比较多,对数据的挖掘十分充分。主要亮点就是使用了17条通路的富集评分构建的代谢风险模型,识别卵巢癌患者的不同代谢风险亚型,发现了代谢通路和免疫特征之间的关联,为开发更准确的治疗方法提供了新思路,得到的结果也比较可信,最后开发了一个XGBoost分类器。选题方向是生信热点“代谢”,但并不拘泥于常规思路,分析思路非常新颖,创新性很不错,再加上机器学习的助力,轻松发表6分+的纯生信!值得借鉴~