又来!公共数据集+分型分析+多种机器学习算法挖掘生物标志物,分析简单好复现
现在被预警的文章越来越多,只靠简单的分析很难发不错的期刊,今天给大家带来用多种方法来挖掘信息的思路。
布小谷今天又找到到了一篇的使用多种机器学习算法挖掘生物标志物的论文,6分+。
这篇文章和之前推荐的一篇文章很像,对数据的挖掘非常充分,用的数据集也不算多,作者结合了生信方法和多种机器学习算法对数据分析,挖掘出关键基因,结果具有较高的可靠性和准确性,为临床治疗方案提供了重要的参考。

题目:慢性髓细胞白血病的机器学习预测治疗反应及诊断标志物的确定与验证
杂志:Cancer Cell International
影响因子:IF=6.429
发表时间:2023年4月
研究背景
慢性粒细胞白血病(Chronic myeloid leukemia,CML)是一种造血细胞恶性增生的血液肿瘤。CML 患者会产生耐药性,其中包括原发性耐药性和治疗反应后的复发。所以深入探讨CML的发病机制并确定新的诊断生物标志物或治疗靶点非常重要。
数据来源

研究思路
本研究使用了两组测序数据的共表达谱分析,鉴定了CML和正常样本之间的基因表达差异,得出共210个差异表达基因。使用共识聚类算法鉴定了两种分子亚型,并使用评价指标评估它们的性能。使用三种机器学习方法(SVM-RFE,LASSO和RF)识别了四个CML诊断基因,在临床队列中进一步验证了4个基因和风险评分模型的诊断价值,风险评分可用于CML和其他血液恶性肿瘤的鉴别诊断。风险评分还可用于识别分子亚型和预测对伊马替尼治疗的反应。分子亚型和生物标志物的识别为临床诊断和治疗提供了新的思路。
主要结果
1.鉴定 CML 和正常样本之间的DEG
作者对分析了两组CML测序数据。GSE13159 队列中确定了总共 378 个 DEG,在 GSE144119 队列中确定了 3937 个(图 1A-B),在两个队列中共有 210 个相同表达趋势的 DEG(图 1C),使用这些基因后续分析。在两个队列中都观察到,与正常样本相比,CML样本中表达上调的基因更少,表达下调的基因更多。进一步对这些共享的 DEG进行了功能分析,KEGG 分析的结果表明,大多数 的下调基因主要富集于免疫相关信号通路,如Th1和Th2细胞分化、原发性免疫缺陷、T 细胞受体信号通路(图1D)。GO注释表明,这些基因的分子功能和生物学过程集中在炎症和免疫特征上(图1E)。

2.CML的肿瘤免疫特征分析与DEGs的上游调控网络构建
作者进一步挖掘了CML与正常样本之间生物学特性的差异。GSEA富集分析结果再次证实CML免疫相关信号通路活性显着降低,而α-亚麻酸代谢、花生四烯酸代谢、组氨酸代谢等被显着激活(图2A-B)。除中性粒细胞外,CML样品中显着富集(图2C)。在CML样本中观察到 PD-L1、PD-1和CTLA4的表达增加(图2D)。结果表明,CML患者在抗肿瘤免疫方面表现出惰性,这可能是 CML 进展的重要因素。之后作者对这些 DEGs进行了PPI网络构建(图2E)。提取了连接性最高的前20个基因,这些基因如 CD8A、CD3D、CD3E、CD3G、GZM与免疫细胞的功能密切相关(图2F)。进一步使用 DEGs 来预测 CML 发病机制的上游调控网络,包括转录因子、激酶和中间蛋白。最显着相关的激酶包括 HIPK2、CSNK2A1、CDK1等(图2G)。最显着相关的转录因子包括 IRF8、TRIM28、SUZ12等(图2H- 2I)。

3. 鉴定CML中不同分子亚型
作者根据DEG的表达对CML患者进行了共识聚类,并确定了两种分子亚型(Cluster A 和 Cluster B)(图3A)。使用PCA算法进一步验证了分类的可靠性(图3B)。与Cluster A相比,大多数DEGs在Cluster B中上调(图3C)。此外,免疫浸润分析表明,CD8 + T细胞等在B组中显着富集,而单核细胞和中性粒细胞在A组中浸润程度更高(图3D)

4.预测不同分子亚型的治疗反应
作者预测了不同分子亚型的治疗反应。TIDE评分反映了肿瘤细胞的免疫逃逸能力,观察到Cluster B的TIDE评分高于Cluster A(图3F),表明B簇具有更高的免疫逃逸能力,暗示该亚型患者可能从免疫治疗中获益更多。用另一个数据集绘制了CML患者的表达谱,该数据集包含47名对免疫疗法有反应的黑色素瘤患者。结果显示,Cluster B患者更有可能对抗CTLA4和抗PD-1疗法产生反应(图 3G)。然后,预测了不同分子亚型对常用于CML治疗的TKI的反应,结果显示Cluster B患者对伊马替尼等具有更高的治疗敏感性(图 3H-J)。两组之间对伯舒替尼的治疗敏感性没有显着差异(图3K)。

5.诊断生物标志物的鉴定和验证
作者进一步挖掘DEGs在CML中的诊断价值。使用LASSO、RF和SVM-RFE算法分别从DEG中识别出与CML相关的13、30和110个基因(图4A-E)。最后,从三种算法中取交集得到HDC、SMPDL3A、IRF4和AQP3。与正常组相比,HDC的表达在CML样本中显着上调,而SMPDL3A、IRF4和AQP3显着下调(图4G)。在验证集GSE144119中,观察到一致的表达差异,四种诊断基因在缓解患者中表现出恢复到正常表达水平,表明了这些生物标志物的治疗评估价值(图4H)。然后,使用LASSO回归分析构建了基于四种诊断的风险评分模型来探索结合这些生物标志物的诊断价值。图4I展示了诊断基因的模型系数。CML患者的风险评分明显高于正常组(图4J-K),缓解期患者的风险评分降低至正常组水平(图4K)。通过ROC曲线分析,证实了四个诊断基因在两个CML队列中的高诊断效率,而风险评分模型进一步提高了诊断能力(图5A-B)。ClusterA的风险评分明显高于ClusterB,后者在两个分析队列中观察到一致的分布特征(图5C-D)。在GSE2535队列中,12名对伊马替尼无反应的患者的风险评分显着高于16名对治疗有反应的患者(图5E)。结果表明风险评分不仅可以用于CML的诊断,还可以用于分子亚型的评价和耐药性的预测。


6.诊断生物标志物与生物学特性的相关性分析
作者挖掘了诊断性生物标志物与CML生物学特性的关系,分别分析了它们在CML样本中的表达与免疫细胞浸润水平和癌症相关信号通路活性的相关性。IRF和SMPDL3A与CD8+T细胞和静息NK细胞呈正相关,与单核细胞呈负相关;HDC与静息肥大细胞呈正相关,与单核细胞呈负相关(图6A)。诊断标志物与癌症相关信号通路之间存在更强的相关性。SMPDL3A、IRF4表达越高,VEGF、Toll样受体等信号通路活性越强(图6B)。而AQP3则表现出相反的相关性。上述结果为探索这些生物标志物与CML生物学特性之间的关系提供了线索。首先在ENCORI数据库中获得了具有与诊断基因结合位点的miRNA,并检索到三个诊断基因(AQP3、SMPDL3A和IRF4)。从GSE90773数据集中获得了CML样本和正常样本之间差异表达的miRNA。基于这些数据,进行了miRNA调控网络的构建(图6C)。在DGIdb数据库中预测与HDC相互作用的药物,以改善相关研究的线索(图6D)。

文章小结
这个文章内容比较丰富,亮点还是用多种机器学习算法挖掘生物标志,但是光用机器学习算法是不行的,生物学家感兴趣是为什么是这个基因,需要再深度的分析,大家可以挖掘到这个基因之后更深的去挖掘为什么是这个基因,例如单基因分析就可以弥补这个缺点。多种机器学习算法找生物标志物这种操作现在越来越普遍了,这个操作也越来越常规。