欢迎光临散文网 会员登陆 & 注册

用于预测乳腺癌存活率的新型糖酵解相关基因特征的鉴定

2022-02-01 19:02 作者:275276  | 我要投稿


Identification of a Novel Glycolysis-Related Gene Signature for Predicting Breast Cancer Survival

摘要:

为了确定用于评估乳腺癌患者预后的糖酵解相关基因特征,我们分析了来自 TCGA 数据库的训练集和来自 GEO 和 ICGC 数据库的四个验证队列的数据,其中包括 1,632 名乳腺癌患者。我们进行了 GSEA、单变量 Cox 回归、LASSO 和多重 Cox 回归分析。最后,一个 11 -开发了与糖酵解相关的基因特征,用于预测乳腺癌患者的存活率。Kaplan-Meier 分析和 ROC 分析表明,该特征在 TCGA、ICGC 和 GEO 数据集中显示出良好的 BC 预后能力。单变量Cox回归和多变量Cox回归分析表明,它是独立于多种临床特征的重要预后因素。此外,构建了一个结合患者基因特征和临床特征的预后列线图。这些发现为识别预后不良的乳腺癌患者提供了见解。

关键词:生物信息学,乳腺癌,糖酵解,预后特征,癌症基因组图谱

结果

使用基因集富集分析初步筛选基因

我们获得了一个数据集,其中包含 1,057 名 BC 患者和 112 名正常对照的临床信息以及来自 TCGA 的 24,991 个 mRNA 表达水平的数据。下载了5个糖酵解相关的MSigDB 6.2版基因集,共获得443个基因。我们使用上述数据和 GSEA 来验证哪些基因组在 BC 组织和匹配的相邻正常组织之间具有显着差异。结果表明,四个显着富集的基因组,标准化 P 值 <0.05,来自以下途径:BIOCARTA_GLYCOLYSIS_PATHWAY、GO_GLYCOLYTIC_PROCESS、HALLMARK_GLYCOLYSIS 和 REACTOME_GLYCOLYSIS(表 2,图1)。从这四个基因组中选择相应的 381 个基因进行后续分析。

图1
通过执行 GSEA 对正常组织和 BC 组织之间具有显着差异的五个基因集进行富集图。

糖酵解相关风险特征的构建与评价

我们进行了单变量 Cox 回归分析以分析 GSEA 后的 381 个基因。最后,使用 LASSO 和多变量 Cox 过滤后,共有 11 个基因(PGK1、SDC1、NUP43、NT5E、IL13RA1、GCLC、CACNA1H、P4HA1、TSTA3、MXI1和STC1)与 OS 显着相关(调整后 P < 0.05)回归分析(图 2)。建立基于基因的预后模型以评估每位患者的生存风险,如下所示:风险评分 = 0.00710 × PGK1 表达 + 0.00187 × SDC1表达 + 0.05107 × NUP43表达 + 0.05599 × NT5E表达+ 0.00587 × IL13RA1 + 0.05692 × GCLC的表达 + 0.01385 × CACNA1H的表达+ (-0.00535) × P4HA1的表达 + 0.011698 × TSTA3 的表达+ 0.026129 × MXI1的表达+ 0.00305 × STC1的表达. 然后,我们分析了 cBioPortal 数据库中 TCGA BC 样本中这 11 个选定基因的突变状态。图 S1A显示了 11 个基因的变化。我们还对相邻正常和 BC 组织中 11 个基因的表达进行了差异分析。11 个基因在肿瘤组织中均显着上调(P < 0.05,图 S1B)。

图 2
GRGs 选择使用 LASSO 模型和多变量 Cox 模型。(A) LASSO 模型中 326 个 GRG 系数的十倍交叉验证。(B) 21 个选定 GRG 的 X-tile 分析。(C)森林图说明了 11-GRG 风险特征中每个基因的多变量 Cox 模型结果。

我们根据 11 基因特征计算了训练集中每位患者的风险评分。高风险评分患者的死亡率高于低风险评分患者(P < 0.0001,时序检验)(图 3A)。1 年、3 年和 5 年 OS 的曲线下面积 (AUC) 值分别为 0.719、0.762 和 0.742(图 3B)。图 3C、D显示训练集中 BC 患者的风险评分等级分布和生存状态。高/低风险组中 11 个 GRGs 的表达模式显示在热图中(图 3E)。为了评估 11-GRG 签名的稳健性,我们使用来自 ICGC 和 GEO 数据库的验证队列评估其性能。与之前的分析相似,高危亚组患者的生存率低于低危组(P < 0.05;图 4Aa–Da)。ICGC 队列的 1 年、3 年和 5 年 AUC 值分别为 0.782、0.79 和 0.675(图 4Ab),在GSE42568队列中分别为 0.683、0.723 和 0.752 (图 4Bb)。在GSE7390队列中,OS 的 AUC 在 1 年时为 0.715,在 3 年时为 0.701 在 5 年时为 0.76 (图 4Cb),在GSE58812队列中,1 年为 0.711,3 年为 0.822,5 年为 0.795 (图 4Db)。

图 3
TCGA 队列中的 KM 生存分析、GRG 相关基因特征和时间依赖性 ROC 曲线的风险评分评估。(A)高风险和低风险样本的知识管理生存分析。(B)训练集总体存活率的 ROC 曲线。在 1、3 和 5 年评估 AUC。(C)风险评分分布,(D),生存状态,和(E)。11-GRG 特征对高风险和低风险组患者的 11 种 GRGs 表达模式。
图 4
ICGC 和 GEO 队列中的 KM 生存分析和时间依赖性 ROC 曲线。(A) (ICGC), (B) a ( GSE42568 ), (C) a ( GSE7390 ), (D) a ( GSE58812 ), 用双边对数秩检验进行 Kaplan-Meier 分析以估计在低风险和高风险组患者之间的 OS。(A) b (ICGC), (B) b ( GSE42568 ), (C) b ( GSE7390 ), (D) b ( GSE58812),8-GRG 特征的 1 年、3 年和 5 年 ROC 曲线用于证明预测 BC 患者 OS 的敏感性和特异性。

列线图的建立和评估

进行单变量分析以检查几种临床病理学特征(年龄、病理分期、ER、PR 和 HER2)的预后价值。因此,11-GRG 风险特征与 OS 相关(风险比 [HR] = 1.178;95% 置信区间 [CI],1.128-1.231,P < 0.001)(表3)。并且年龄>60,(HR = 1.047;95% CI,1.030-1.064,P < 0.001),高病理分期(III/IV)(HR = 2.022;95% CI,1.541-2.654,P < 0.001)也是BC 的危险因素。此外,多变量分析后,结果显示风险评分(HR = 1.136;95% CI,1.083-1.191)、年龄(HR = 1.047;95% CI,1.030-1.065)和分期(HR = 1.986;95 % CI,1.522-2.591)仍然是独立的预后因素,调整后的 P 值 <0.001。此外,ROC 分析显示 11 基因特征的敏感性和特异性高于其他临床病理学特征。图 5A)。此外,基因风险模型被证明是 BC 生存预测的竞争性预后因素。这些结果表明,该特征可以成为预测 BC 患者 OS 的有希望的预后指标。为了开发一种可以预测 BC 患者 OS 的定量方法,构建了列线图。预测因素包括风险评分、年龄和肿瘤分期,在多变量 Cox 分析中产生显着的 P 值(图 5B)。C-index (0.812)、AUC (1-year, 0.836; 3-year, 0.767 and 5-year, 0.792) 和校准图的结果显示列线图预测的准确度很高(图 5C、D) .

图 5
具有临床特征的 BC 患者的临床特征和风险模型、列线图和 Kaplan-Meier 生存分析的 ROC 曲线:(A)关于单一临床特征和风险模型的时间依赖性 ROC 曲线。(B)用于预测 BC 患者总体生存概率的列线图。(C)列线图的 1 年、3 年和 5 年 ROC 曲线。(D)分别为 1 年、3 年和 5 年的列线图校准曲线。具有不同临床特征的 BC 患者的 Kaplan-Meier 生存分析可以预测患者生存(E、年龄、F、阶段)。

数据分层分析

OS的单变量Cox回归分析结果表明,年龄和分期可以有效预测BC患者的生存。Kaplan-Meier 曲线显示临床特征和结果是一致的。年龄超过 60 岁且患有 III-IV 期疾病的 BC 患者与预后不良相关(图 5E、F) . 在 TCGA 队列中,根据临床病理变量(年龄、肿瘤分期、T/M/N 分期、ER 状态、PR 状态、HER2 状态和辅助化疗)进行亚组分析。根据 Kaplan-Meier 曲线,在按年龄、肿瘤分期、T/N 分期、ER 状态、PR 状态、HER2 状态和辅助化疗(否/是)分层的 BC 患者中,风险评分保持稳定的预后因素 (图 6A-D,F-I)。然而,风险评分在亚组或按转移阶段分层的患者中发挥不同的作用。在无远端转移的亚组中,高危组的 OS 显着短于低危组(P < 0.001),而有远端转移的两组间差异无统计学意义(P = 0.324) (图 6E)。该结果表明,风险模型对没有转移的 BC 患者的临床结果具有比远端转移患者更好的预测价值,并且需要更多证据和更大的队列进行进一步验证。

图 6
根据临床特征分层的 GRG 相关基因特征对所有 BC 患者进行 KM 生存亚组分析。(A) 年龄 <60 岁,年龄 >=60 岁。(B)早期(I-II 阶段),晚期(III-IV 阶段)。C,T1-2,T3-4。(D)淋巴结阴性患者、淋巴结阳性患者。(E)没有远端转移的患者,有远端转移的患者。(F) ER 阴性患者、ER 阳性患者。(G) PR 阴性患者、PR 阳性患者。(H) HER2阴性患者、HER2阳性患者。(一世)无辅助治疗,辅助治疗。GRGs,糖酵解相关基因;BC,乳腺癌;ER,雌激素受体;PR,孕激素受体;HER2,人类表皮生长因子 2。

与其他预后特征的比较

将我们的列线图和签名与其他已知的预后标志进行了比较。为了排除异质性的影响,所有这些基于 TCGA 数据库开发的标志都包括在内。考虑到我们的研究是基于所有类型的 BC 并且使用总 TCGA BC 队列作为训练集,因此我们进一步排除了针对特定 BC 亚型(42-44)的模型构建的研究以及TCGA队列被随机划分的研究进入训练和测试集(45、46)。最后,纳入了 15 个相关的预后特征,以与我们的基因特征和列线图进行比较(表 4)。我们研究中签名和列线图在 1 年、3 年和 5 年的 AUC 分别为 0.719、0.762、0.742 和 0.836、0.767、0.792。表 4显示四个预后特征的 AUC,包括 12 个干性相关 lncRNA 特征(5 年时为 0.813)(47)、11 个免疫相关 lncRNA 特征(5 年时为 0.836)(52)、27 个免疫相关基因特征(0.844 在5 年)(54)和四个甲基化基因特征(5 年时为 0.791)(61)明显高于其他生物标志物。此外,我们的签名在预测 BC 患者的 OS 方面也比基于与自噬 ( 48 )、肿瘤微环境(免疫、基质和增殖)( 49 )、肿瘤突变负荷 ( 50 )、缺氧 ( 51 ), DNA 修复 (55 )、lncRNA ( 56 )和 miRNA ( 57、58 ) 。生物标志物的 AUC 值越大,标志物的预测能力就越好。这清楚地表明,我们的列线图和 GRG 签名在预测 BC 患者 OS 的四个高质量模型之后优于其他模型。

讨论

BC 是全世界恶性肿瘤和女性癌症相关死亡的最常见原因 ( 6 , 62 )。由于其表型和分子多样性,很难预测 BC 的预后。预后模型的应用有助于指导临床决策,对精准医疗至关重要。亚型识别、风险分层和潜在机制的表征对于改进现有治疗方法、开发更精确和个性化的疗法以及延长生存时间至关重要。糖酵解是一个多步骤的酶促反应,被认为是癌症发生和发展的根源(63)。由于越来越多的研究已经确定了 GRG 的预后标志物,因此必须建立基于 GRG 的风险特征来预测 BC 患者的生存率,以提高预后的准确性。

GSEA是一种评估全基因组表达谱芯片数据的方法,可以整合不同层次和来源的数据。在本研究中,GSEA 是使用 1,096 名 BC 患者的 mRNA 表达谱数据进行的。四个 P 值 <0.05 的基因组表现出显着差异,并被选择用于后续分析。进行单变量、多变量 Cox 和 LASSO 回归分析以确定 BC 患者的 11 个预后基因。基于 11 个最有价值的生物标志物,我们开发并验证了一个有效的模型来预测 BC 患者的临床结果。生存分析显示高危和低危 BC 患者的预后明显不同。该模型还在 GEO 和 ICGC 数据集中得到验证,显示出良好的临床预测能力。此外,BC 患者的预测模型可以通过多变量 Cox 分析作为独立的预后工具。我们还发现,在我们的预测模型中风险评分较高的患者往往年龄较大、疾病晚期且预后较差。与传统临床因素相比,我们研究中的预测模型具有相似或更好的临床应用潜力。此外,我们整合了预测模型和临床特征,建立了一个新的列线图。列线图利用了临床特征和预测模型的互补值,并提供了更好的 OS 估计。结果表明,C-index、ROC 和校准图在我们的研究中表现良好。此外,基因特征可以进一步对临床定义的患者组进行分层(例如,根据年龄、分期、T/N/M 分期、ER 状态、PR 状态、HER2 状态和辅助化学疗法分层的组,分成具有不同生存结果的亚组。该风险模型可以有效预测所有亚组BC患者的预后,但不能应用于有远端转移的BC患者亚组。未来应深入探讨这一结果的潜在机制。结果表明,风险评分的计算对BC患者具有重要的预后意义。这不仅增加了预测预后的手段,还可以帮助临床医生为患者选择更合适的治疗方案。

化疗仍然是癌症治疗的重要途径。化疗药物对肿瘤细胞的杀伤具有氧依赖性作用,大部分是通过氧化细胞内的自由基和活性氧来杀伤细胞。缺氧会显着降低化疗的效率(64)。Warburg 效应是癌细胞中的有氧糖酵解,已被发现与各种类型的人类癌症的化疗耐药性有关 ( 65 , 66 )。Warburg 效应促进表观遗传和遗传变化,导致多种新细胞表型的出现,包括耐药细胞的存在(67)。为了确认我们的签名是否可以为接受辅助化疗的患者的预后提供有效的预测方法,我们进行了亚组分析,结果表明风险模型可以有效预测接受和未接受辅助化疗组的 BC 患者的预后. 这也显示了我们模型的广泛临床应用。

为了进一步探索我们的列线图的预测能力,对用于预测 BC 患者 OS 的几个重要分子特征进行了比较。我们纳入的研究(47、48、52、54、61 )是该模型是基于整个 TCGA 队列构建的,涉及所有类型的乳腺癌,而不是某个亚型。最终结果表明,我们的特征和另外四个预后特征包括 12 个干性相关 lncRNA 特征(47)、11 个免疫相关 lncRNA 特征(52)、27 个免疫相关基因特征(54)和 4 个甲基化基因特征(61 )) 在预测 BC 患者的 OS 方面比基于自噬 ( 48 )、肿瘤微环境(免疫、基质和增殖)( 49 )、肿瘤突变负荷 ( 50 )、缺氧 ( 51 )相关标志的特征表现更好, DNA 修复 ( 55 ), lncRNA ( 56 ) 和 miRNA ( 57 , 58 )。考虑到我们模型的临床应用成本可能低于两种基因模型 [12 干性相关 lncRNA 特征 ( 47 ) 和 27 免疫相关基因特征 ( 54)] 并且糖酵解与 BC 的预后密切相关,我们的签名可能是丰富临床预测方法所必需的。更重要的是,列线图的 AUC 大于我们研究中特征的 AUC,这表明风险评分与临床因素的结合在预测 BC 患者的 OS 方面比单独的甲基化特征更有希望。

本研究确定的 11 个 GRG 包括PGK1、SDC1、NUP43、NT5E、IL13RA1、GCLC、CACNA1H、P4HA1、TSTA3、MXI1和STC1。在这些基因中,已确定PGK1 (磷酸甘油酸激酶 1)通过与 HIF-1α 形成正前馈环来促进 BC 进展和转移。高PGK1表达预示着 BC 的不良预后 ( 63 )。SDC1(syndecan-1) 是一种肝素细胞表面蛋白聚糖,可作为生长因子和趋化因子的共同受体 ( 68 )。SDC1在 BC 组织中的高表达与侵袭性表型和不良临床行为有关 ( 69 )。Nup43(核孔蛋白 43 kDa)是 Nup107 160 复合物的稳定成分,定位于有丝分裂的动粒并调节有丝分裂进程和染色体分离 ( 70 )。NUP43的较高表达通常伴随着 DNA 扩增,并且与 luminal A 和 HER2+ BC 中较差的 OS 有关 ( 71 )。NT5E (ecto-5-nucleotidase),也称为CD73, 是一个有前景的预后因素,其高表达与 BC 患者的淋巴结转移显着相关 ( 72 )。一项研究报告说,白细胞介素 13 和白细胞介素 13 受体 α 1 (IL13RA1) 之间的相互作用促进了癌细胞的生长和转移,并且 IL13RA1 的表达与侵袭性 BC 患者的不良预后相关 ( 73 )。胶原蛋白脯氨酰 4-羟化酶 α 1 (P4HA1) 是大多数细胞类型和组织中的主要异构体,它还可以增强大多数脯氨酰 4-羟化酶的活性 ( 74 )。在 BC 的发展过程中,P4HA1表达被诱导 ( 75 )。当P4HA / HIF - 1轴被激活,癌细胞干性增强,而氧化磷酸化和活性氧的水平降低(76)。异常的糖基化促进了细胞的恶性转化和肿瘤的发展,这取决于TSTA3基因功能(组织特异性移植抗原 P35B)(77)。TSTA3表达较高的 BC 患者的存活率较低 ( 78 )。MYC 相关蛋白 X interactor-1 (MXI1) 是致癌 MYC 蛋白的拮抗剂,MXI1基因的缺失会导致多种人类癌症 ( 79 )。MXI1的低表达与 BC 患者的不良预后有关 ( 80 )。斯钙素-1 (STC1) 是一种分泌型糖蛋白,其高表达水平与 BC 中的肿瘤生长和转移有关 ( 81 )。然而,其他基因(GCLC和CACNA1H)首次被确定在 BC 患者中具有预后价值。有必要对这些基因在 BC 中的生物学功能进行更深入的研究。

据我们所知,我们的研究是第一个通过评估来自公共 TCGA 数据库的数据来识别和全面分析预后 GRG 以预测 BC 患者生存的研究。此外,识别并验证了基于 11 个 GRG 的新型风险特征。该特征可用作高风险患 BC 患者的筛查工具,并对患者进行分层以提高靶向治疗的有效性。此外,我们成功地建立了一个结合临床因素和分子标志物的 GRG 相关列线图,以有效的定量方法预测 BC 患者的 OS。我们还分析了 cBioPortal 数据库中 9 个选定基因的突变状态。我们的研究不仅可以更好地了解BC的遗传学,而且对指导未来的研究具有重要意义。

我们的研究存在一些局限性。首先,这是一项回顾性研究,所有 BC 患者均来自公共数据库。其次,需要大规模的多中心队列来验证我们模型的预测性能并评估其临床适用性以更好地管理 BC。此外,将需要在我们医院进行未来的基础实验,以验证我们的研究结果并阐明 GRGs 在 BC 的启动和发展中的功能作用。此外,基因特征可能更有效地预测没有远端转移的 BC 患者的生存率,其预后作用值得进一步评估。

结论

我们构建了一个有效、创新和可靠的 11-GRGs 预后模型(PGK1、SDC1、NUP43、NT5E、IL13RA1、GCLC、CACNA1H、P4HA1、TSTA3、MXI1和STC1)来预测 BC 患者的预后。我们的签名是 BC 的一个独立且重要的风险因素。此外,构建了结合预测模型和临床因素的列线图,可以作为预测预后和指导临床实践的有用工具。


用于预测乳腺癌存活率的新型糖酵解相关基因特征的鉴定的评论 (共 条)

分享到微博请遵守国家法律