欢迎光临散文网 会员登陆 & 注册

这篇7分+纯生信玩出了花!集齐线粒体、18种细胞死亡和10种机器学习算法,审稿人

2023-09-19 09:08 作者:尔云间  | 我要投稿

要说,常规生信里最火的分析方向是什么?那必须非“细胞死亡”莫属! 要说,生信分析方法里最火的是什么?那必须非“机器学习”莫属! 如果将其联合会产生怎样的神奇效果呢?小云下面就用今天要分享这篇文章给各位小伙伴们展示一下!走过路过不要错过哟~ 这是个可以称得上“群英荟萃”的文章,集齐多种创新点,直接预订7分+高质量生信文章:

1) 选题创新

:18种细胞死亡形式+线粒体的多热点串联,从选题上就赢了普通思路一大截;

2) 分析方法创新

:应用10种机器学习算法和多组学分析,打高端分析战;

3) 思路设计创新

:一文几乎包含常规生信的所有经典分析模式(预后模型构建、分型分析、泛癌分析),用魔法(套路)战胜魔法(套路)。 都在说纯生信不好发了,这样子高质量、多点开花的纯生信审稿人看了都称绝,还能不好发?所以遇到好思路就赶紧学起来吧!换个癌种就能复现,下一个发高分纯生信的就是你啦!

l 题目:集成机器学习生存框架开发了一个预后模型,该模型基于一个大型多中心低级别胶质瘤队列中线粒体功能和细胞死亡模式的相互干扰定义 l 杂志:

Journal of Translational Medicine

l 影响因子:IF=7.4 l 发表时间:2023年9月

研究背景

低级别胶质瘤(LGG)是一种高度异质性的疾病,对准确预测患者预后提出了挑战。线粒体在真核细胞的能量代谢中起着重要作用,并可以影响程序性细胞死亡(PCD)机制,这在肿瘤发生和发展中是至关重要的。然而,在LGG,线粒体功能和细胞死亡之间相互作用的预后意义需要进一步研究。

数据来源

研究流程

首先在TCGA-LGG队列中分析线粒体和PCD相关基因在正常对照和LGG组织中的差异表达,再利用pearson共表达分析鉴定参与线粒体和PCD共表达的基因(mtPCD相关基因)。应用cox回归分析筛选预后相关基因,再利用10种机器学习算法来构建基于18个mtPCD相关基因的风险模型(mtPCDI),并进行模型评估和验证。随后分析两mtPCDI亚组间的多组学特征、潜在生物学机制和免疫特征。此外,作者基于18个特征基因进行一致性聚类,分为2个亚型并分析两亚型间的预后差异、功能富集情况和肿瘤免疫状态。然后又对mtPCDI标记基因进行泛癌分析,包括表达、预后分析以及多组学分析。最后,利用HPA数据库中的IHC染色图像验证18个特征基因的蛋白差异表达。

主要结果

1. mtPCD共表达基因的筛选和mtPCDI的构建

在TCGA-LGG队列中比较正常组织和肿瘤组织中的差异基因,获得11581个DEGs(图1B),分别与线粒体相关基因和PCD相关基因取交集,获得134个差异表达线粒体相关基因和333个差异表达PCD相关基因(图1C)。应用pearson相关性分析鉴定mtPCD(线粒体程序性细胞死亡)共表达基因,产生215个mtPCD共表达基因,应用Cox回归分析来评估其预后,得到146个与OS相关的mtPCD共表达基因。在TCGA-LGG训练队列中基于146个mtPCD共表达基因,整合了10种不同的机器学习算法来建立预后模型,并在训练集和5个外部验证集中评估了101种算法组合的平均C指数以筛选最佳模型,最终的RSF算法确定了18个最有价值的mtPCDI特征基因,建立mtPCDI(图1D)。使用相应队列的中位数得分将LGG患者分为高和低mtPCDI组,进行KM分析评估预后(图1E),利用ROC曲线评估模型预测性能(图1F),总体结果显示,高mtPCDI评分显示不良预后且模型预测性能良好。

2. mtPCDI组间多组学特征分析

通过GISTIC2.0比较高低mtPCDI组间的拷贝数变异,发现高mtPCDI组表现出更高频率的重复拷贝数改变(图2A, B)。随后又比较了高和低mtPCDI个体中常见的体细胞突变,发现低mtPCDI患者中有更高频的IDH1突变(图2F)。此外,与低mtPCDI组相比,高mtPCDI组表现出显著升高的非整倍体评分、比例变化、同源重组错误、非沉默突变率、片段数和肿瘤突变负荷(TMB )(图2G, H)。  

3. mtPCDI组间潜在生物学机制分析

首先鉴定高低mtPCDI组之间的差异表达基因,针对这些基因进行GO、KEGG富集分析(图3A, B),和GSEA分析(图3E, F)。GSEA结果显示,低mtPCDI组在环境信息处理和细胞过程相关途径,如ECM受体相互作用和病灶粘附方面明显富集;高mtPCDI组主要与DNA复制、细胞周期和其他增殖相关的生物学过程相关。随后作者分析了干细胞特征与mtPCDI的相关性,在TCGA-LGG样本中分别计算了mRNAsi评分和mDNAsi评分,并分析两种评分与mtPCDI值的相关性以及高低mtPCDI组之间的mRNAsi和mDNAsi差异,发现较高的mtPCDI值与较低的mRNAsi评分和较高的mDNAsi评分相关(图3C, D)。

4.

 

mtPCDI组间免疫特征分析

利用ssGSEA、TIMER、CIBERSORT、CIBERSORT-ABS、QUANTISEQ、MCP-counter、Xcell和EPIC评估了LGG样本中不同免疫细胞亚群的丰度,并比较高低mtPCDI组间的免疫细胞浸润情况,发现高mtPCDI组表现出更多的免疫细胞浸润(图4A)。随后分析两个亚组之间免疫调节剂表达的差异,发现免疫调节剂在高mtPCDI组中显示较高的表达(图4 B)。利用“Estimate”算法计算TME评分,结果显示高mtPCDI组患者的基质评分、免疫评分和估计评分显著低于低mtPCDI组患者(图4G)。

5. 共识聚类分析

作者基于18个特征标记的表达进行了一致的聚类分析,所有LGG样本分成两个亚组:C1 (n = 410)和C2 (n = 96)(图5C),KM曲线显示两亚型间的预后又明显差异(图5D)。t-SNE和PCA分析进一步揭示了两亚型间的显著差异(图5E)。利用“Estimate”算法比较两亚型间的TME评分,结果显示C2亚型患者的免疫评分、间质评分和评估评分水平较高,而肿瘤纯度水平较低(图6A)。使用ssGSEA评估了亚型和各种免疫细胞亚群和功能之间的关系。结果显示,几乎所有的免疫功能评分在C2亚型高于C1亚型(图6B),C2亚型中几乎所有功能性免疫细胞都表现出显著较高的ssGSEA评分(图6C)。

6. 泛癌分析和蛋白表达验证

为了证实LGG 中18个mtPCDI标记基因的重要价值,作者针对这18个基因进行了泛癌分析,首先通过利用TCGA记录的基因表达水平和患者生存结果之间的联系,开发了相关基因的生存谱(图7A)。比较了18个基因在TCGA数据库肿瘤组织和健康样本间的差异表达(图7B),还分析了不同癌种中18个标记基因的甲基化模式、CNV和SNV频率(图7C-E)。最后利用HPA数据库中收集的18个mtPCDI特征基因相关蛋白的IHC染色图像,比较其在LGG和健康脑组织中的差异表达(图8)。

文章小结

这篇文章不论是18种PCD+线粒体多热点整合的选题角度,10种机器学习+多组学分析的分析手段,还是预后+分型+泛癌分析的思路设计,创新性都很高,三管齐下,内容丰富,数据量庞大,群英荟萃打造出了一篇7分+的纯生信文章。这种审稿人都称绝的高质量思路,你不想试试吗?换个癌种能复现,快行动起来吧! 

这篇7分+纯生信玩出了花!集齐线粒体、18种细胞死亡和10种机器学习算法,审稿人的评论 (共 条)

分享到微博请遵守国家法律