双硫+机器学习,在乳腺癌中机器学习识别双硫死亡相关模型
预测签名的构建
聚类 A 和聚类 B 之间总共有 239 个 DEG,其中包括 71 个与预后相关的双硫死亡-DEG,被选择进行单变量 Cox 回归分析。然后通过基于训练队列的 LASSO 回归分析开发了四种双硫死亡-DEG 的预后特征。然后我们在细胞水平验证了四种双硫死亡-DEG 的表达水平。KIF21A和ALOX15B在癌细胞中低表达,APOD在癌细胞中高表达,并且ELOVL2表达在癌细胞和正常细胞之间没有显着差异(。集群 B 的风险评分高于集群 A。除NDUFA11外,九个 DRG 的表达在高风险组和低风险组之间存在差异。在这九个基因中,NUBPL在高危组中低水平表达,而其余八个基因在高危组中高表达

结果
BC双硫死亡相关基因遗传变异分析及筛选
我们鉴定了 10 个与双硫死亡密切相关的基因( NCKAP1、LRPPRC、NDUFS1、GYS1、SLC3A2、RPN1、SLC7A11、OXSM、NDUFA11和NUBPL )。我们首先确定了 BC 样本中的体细胞突变水平、CNV、基因表达水平和 DRG 的预后价值。
这些基因中的体细胞突变并不普遍。987 个样本中,有 47 个样本存在 DRG 体细胞突变,频率为 4.76%。其中,NCKAP1、LRPPRC、NDUFS1、GYS1的突变频率最高。通过调查 CNV 的频率,我们注意到 DRG 在 CNV 中存在广泛的改变,并且大多数基因的增益状态高于丢失状态。显示 CNV 扩增的主要基因是SLC3A2和NUBPL。相比之下,NDUFA11的 CNV 缺失数量最多。然后我们分析了这 10 个基因在癌症及其邻近正常组织中的表达水平。NDUFA11、LRPPRC、SLC7A11、SLC3A2、OXSM和RPN1在癌组织中表达水平较高,而NDUFS1和NUBPL表达水平较低(p < 0.01)。NCKAP1和GYS1的表达在癌组织和癌旁正常组织中没有显着差异。OS分析显示, NDUFA11高表达组和NDUFS1、SLC7A11、OXSM、NCKAP1、LRPPRC低表达组预后较好(p < 0.05)。NUBPL、RPN1和SLC3A2表达组之间的 OS 没有显着差异。

双硫死亡相关基因的基因突变、拷贝数变异(CNV)、差异表达和生存分析。(A)瀑布图显示基因突变频率和基因突变类型。(B,C)条形图和马戏团显示了CNV频率和双硫死亡相关基因在染色体上的位置。(D)正常样本和乳腺癌样本之间的基因表达分析。(E)基因高表达和低表达之间的 K-M 生存分析。** p < 0.01,*** p < 0.001。
BC 特异性 DRG 的鉴定和不同的表达模式
单变量 Cox 回归分析确定了三个主要遗传风险因素:LRPPRC、NDUFS1和SLC7A11 ( p < 0.01)。通过八个 DRG、六个预后 DRG 和来自单变量 cox 回归分析的三个风险因素的交叉,确定了三个 BC 特异性 DRG。这些是基因NDUFS1、LRPPRC和SLC7A11。基于这些基因,对整个队列进行无监督共识聚类,并将整个队列中的 BC 患者分为 A 组和 B 。PCA 显示 BC 样本可以根据不同的表达模式进行区分,并且我们的 KM 生存曲线显示 A 簇的中位 OS 优于 B 簇()。

不同双硫死亡相关表达模式的构建。(A)双硫死亡相关基因之间的单变量Cox回归和相关性分析。(B)根据差异表达分析、单变量 Cox 回归分析和 K-M 生存分析的结果显示共享基因的维恩图。(C)使用共识聚类矩阵 ( k = 2) 将乳腺癌 (BC) 患者分为两个聚类。(D)具有累积分布函数 (CDF) 的共识聚类模型,k 范围为 2-9。(E)集群 A 和 (B) 之间的 KM 生存分析(F)热图显示了每个不同簇中临床病理因素的差异。
表达模式与BC分子亚型的相关性
我们构建了一个热图,显示集群 A 和 B 之间临床因素的差异。为了进一步探讨乳腺癌分子亚型与我们确定的表达模式之间的关系,我们绘制了桑基图和KM生存曲线。结果显示,在A簇中,Luminal A、Luminal B、HER2和Basel亚型的患者分别占60.4%、17.4%、8.8%和13.4%。在B簇中,luminal A、luminal B、HER2和Basel亚型分别占39.8%、26.0%、5.8%和28.4%。结果表明,A簇中Luminal A亚型患者比例显着高于B簇,B簇中Basel亚型患者比例显着高于A簇。KM生存分析结果结果表明,Luminal 亚型 A 簇和 B 簇患者的预后存在显着差异,而 HER2 和 Basel 亚型则没有发现差异
分析两个簇之间的免疫浸润水平分析和功能富集分析
GSVA功能富集分析表明,A簇主要富集于与花生四烯酸和药物代谢途径相关的突变。B簇主要富集于肿瘤相关途径(如DNA复制和细胞周期)和代谢途径(如初级胆汁酸生物合成、嘧啶代谢、半胱氨酸和蛋氨酸代谢、乙醛酸和二羧酸代谢),A簇和B簇之间的免疫细胞浸润程度明显不同。观察到CD56明亮自然杀伤细胞、未成熟B细胞、未成熟树突状细胞、MDSC、巨噬细胞、自然杀伤T细胞、滤泡辅助T细胞和1型辅助T细胞。A簇的免疫细胞浸润高于B簇。PCA分析显示A簇和B簇能够更好地将患者区分为不同组。因此,我们进一步探讨了两个集群之间的差异(图3C)。在 A 簇和 B 簇之间鉴定出 239 个双硫死亡DEG。双硫死亡-DEGs的GO和KEGG富集分析表明,这些基因主要富集于细胞分裂相关通路(如核分裂、有丝分裂核分裂和染色体分离。KEGG分析结果显示,二硫键-DEG在癌症相关通路(如细胞周期、p53信号通路、ECM-受体相互作用等)显着富集;

预测签名的构建
聚类 A 和聚类 B 之间总共有 239 个 DEG,其中包括 71 个与预后相关的双硫死亡DEG,被选择进行单变量 Cox 回归分析。然后通过基于训练队列的 LASSO 回归分析开发了四种双硫死亡DEG 的预后特征。然后我们在细胞水平验证了四种双硫死亡-DEG 的表达水平。KIF21A和ALOX15B在癌细胞中低表达,APOD在癌细胞中高表达,并且ELOVL2表达在癌细胞和正常细胞之间没有显着差异。集群 B 的风险评分高于集群 A。除NDUFA11外,九个 DRG 的表达在高风险组和低风险组之间存在差异。在这九个基因中,NUBPL在高危组中低水平表达,而其余八个基因在高危组中高表达
双硫死亡相关预后特征的验证
高风险组的风险评分高于低风险组,并且训练和测试队列以及所有队列中的死亡人数随着风险评分的增加而增加。热图显示了高风险组和低风险组之间双硫死亡-DEGs 的差异表达。其中,KIF21A在高危组中高表达,而APOD、ALOX15B和ELOVL2在低危组中高表达

评估预后特征的独立作用并构建预后预测的预测列线图
我们还证实,低风险组的总生存期(OS)显着长于高风险组(p < 0.05)。我们还探讨了 BC 不同分子亚型的预后模型的预后价值的一致性。我们发现在Luminal和Her2亚型中,高危组的PFS和DSS比低危组差。巴塞尔亚型高、低组的预后无差异,这可能是由于低危组患者数量较少(巴塞尔亚型低危组和高危组的患者数量相同)。风险组分别为 14 和 175)。然而,我们发现在KM生存曲线中,低风险组的7年PFS和DSS也明显优于高风险组。总的来说,预后模型对于 BC 的不同分子亚型具有良好的预后价值。预后特征的 AUC 表明该模型具有良好的预测准确性。列线图是预测 BC 患者临床结果的另一种定量模型。因此,根据风险评分和其他临床特征(例如年龄、疾病阶段和分子亚型)开发列线图,以便计算每位 BC 患者 1 年、3 年和 5 年的生存概率。用于折线图内部验证的校准图显示预测的 OS 结果与实际观察结果之间具有良好的一致性

免疫细胞浸润、TMB、RNAss、药敏分析
我们使用 CIBERSORT 算法计算了 22 个免疫细胞的浸润水平与我们识别的双硫死亡-DEG 之间的相关性。其中,APOD和幼稚 B 细胞以及ELOVL2和静息肥大细胞显示出显着的正相关。APOD和 M0 巨噬细胞,以及ELOVL2和 CD4 静息记忆 T 细胞呈负相关。然后我们分析了肿瘤微环境(TME)中基质细胞免疫细胞的含量与风险评分之间的相关性。低风险组显示出较高的基质分数和估计分数。接下来,我们分析了高风险组和低风险组之间的 TMB 是否存在差异。结果显示,高危组的TMB频率高于低危组。TMB 与风险评分呈正相关。在BC中,20个突变频率高的基因的TMB在高风险组和低风险组之间存在显着差异。例如, PIK3CA的突变频率在高风险组和低风险组中分别为 23% 和 46%。TP53在 46% 的高风险组和 18% 的低风险组中发生突变。在肿瘤干性分析中观察到 RNAss 与风险评分之间呈正相关。药敏分析结果显示,低危组对顺铂、环磷酰胺、多西他赛、拉帕替尼、紫杉醇、他莫昔芬的敏感性高于高危组,而高危组对瑞博西尼的药物敏感性为高于低危组,有助于指导临床治疗的选择
