肺腺癌 RNA 结合蛋白相关预后模型的开发和验证

摘要:
RNA结合蛋白(RBPs)失调在多种恶性肿瘤中均有报道,并与癌症的发生和发展有关。然而,RBP 在肺腺癌 (LUAD) 中的作用却知之甚少。我们从癌症基因组图谱 (TCGA) 数据库下载了 LUAD 的 RNA 测序数据,并确定了正常组织和癌症组织之间不同表达的 RBP。然后,该研究通过一系列生物信息学分析系统地研究了这些 RBP 的表达和预后价值。共鉴定出 223 个不同表达的 RBP,包括 101 个上调和 122 个下调的 RBP。八个 RBP(IGF2BP1、IFIT1B、PABPC1、TLR8、GAPDH、PIWIL4、RNPC3和ZC3H12C)被鉴定为预后相关的中枢基因,并用于构建预后模型。进一步分析表明,基于该模型,高风险亚组患者的总生存期(OS)低于低风险亚组患者。预后模型的时间依赖性接受者操作特征曲线的曲线下面积在 TCGA 队列中为 0.775,在GSE31210队列中为 0.814,证实了良好的预后模型。我们还在 TCGA 队列中建立了基于 8 个 RBP mRNA 和内部验证的列线图,显示出对肺腺癌的良好鉴别能力。
关键词:肺腺癌,RNA结合蛋白,总生存期,预后模型
结果
识别 LUAD 患者中不同表达的 RBP
在这项研究中,我们通过几种先进的计算方法对 LUAD 中 RBP 的关键作用和预后价值进行了系统分析。研究设计如图所示图1. 从TCGA下载的肺腺癌数据库包含524个肿瘤样本和59个正常肺组织样本。R 软件包用于处理数据并发现不同表达的 RBP。共纳入1542个RBP[ 6 ],223个RBP符合本研究筛选标准(P <0.05,|log2FC)| >1.0),其中包括 101 个上调和 122 个下调的 RBP。这些不同表达的 RBP 的表达分布显示在图 2.


不同表达RBP的GO和KEGG通路富集分析
为了研究确定的 RBP 的功能和机制,我们将这些不同表达的 RBP 分为两组:上调或下调表达。然后我们将这些不同表达的 RBP 上传到在线工具 WebGestalt 进行功能丰富分析。结果表明,下调的不同表达的RBPs在与翻译负调控、RNA磷酸二酯键水解、mRNA代谢过程调控、翻译调控和mRNA加工相关的生物学过程中显着富集。表格1)。上调的不同表达的RBPs在有机氮化合物生物合成过程、细胞酰胺代谢过程、RNA加工、肽代谢过程和酰胺生物合成过程中显着富集。表格1)。在分子功能方面,减少的不同表达的 RBP 显着富集 RNA 结合、mRNA 结合、核糖核酸酶活性、双链 RNA 结合和 mRNA 3'-UTR 结合。表格1(表格1)。通过细胞成分(CC)分析,我们发现减少的不同表达的RBPs富集于微核糖核蛋白复合物、ELL-EAF复合物、RISC复合物、微核糖核蛋白复合物和核糖核蛋白复合物,上调的不同表达RBPs主要富集。在核糖体、核糖体亚基、核糖核蛋白复合物、大核糖体亚基和胞质核糖体中(表格1)。此外,我们发现下调的不同表达的 RBPs 主要富集于真核生物中的 mRNA 监测途径、RNA 降解和核糖体生物发生,而上调的 RBPs 显着富集于核糖体、剪接体和 RNA 降解。表格1)。

蛋白质-蛋白质相互作用(PPI)网络构建和关键模块选择
为了进一步研究不同表达的 RNA 结合蛋白在 LUAD 中的作用,我们使用 Cytoscape 软件创建了 PPI 网络,该网络基于 STRING 数据库的数据包含 197 个节点和 1484 个边。图 3A)。共表达网络使用 MODE 工具处理,识别可能的关键模块和获得的第一个重要模块,由 107 个节点和 1088 条边组成(图 3B)。关键模块 1 中的 RBP 在 mRNA 监测途径、RNA 转运、RNA 降解、RNA 加工、真核生物中的核糖体生物发生、核糖核蛋白复合物生物发生、RNA 结合、肽代谢过程、酰胺生物合成过程和翻译中非常丰富。
预后相关的 RBP 选择
从 PPI 网络中共识别出 197 个关键的不同表达的 RBP。为了研究这些 RBP 的预后意义,我们进行了单变量 Cox 回归分析并获得了 22 个与预后相关的候选中心 RBP。图 4)。随后,通过多重逐步 Cox 回归分析这 22 个与预后相关的候选中心 RBP,以研究它们对患者生存时间和临床结果的影响,发现 8 个中心 RBP 是 LUAD 患者的独立预测因子。图 5,表 2)。



预后相关遗传风险评分模型构建与分析
从多重逐步 Cox 回归分析中确定的八个中心 RBP 用于构建预测模型。根据以下公式计算每位患者的风险评分:
R i s k s c o r e = ( 0.1362 * ExpIGF 2 BP 1 ) + ( 1.6799 * ExpIFIT 1 B ) + ( 0.2843 * ExpPABPC 1 ) + ( - 0.2663 * ExpTLR 8 ) + ( 0.3882 * ExpGAPDH 1 ) + 0.8073 * ExpPIWIL 4 + ( - 0.3219 * ExpRNPC 3 ) + ( - 0.4965 * ExpZC 3 H 12 C ) 。
然后,我们进行了生存分析以评估预测能力。共有 458 名 LUAD 患者根据中位风险评分分为低风险和高风险亚组。结果表明,与低风险亚组患者相比,高风险亚组患者的 OS 较差(图 6A)。为了进一步评估八种 RBPs 生物标志物的预后能力,进行了时间依赖性 ROC 分析。我们发现这个 RBPs 风险评分模型的 ROC 曲线下面积(AUC)为 0.775(图 6B),这表明它具有中等的诊断性能。表达热图、患者的生存状态和由低风险和高风险亚组中的 8 个 RBP 组成的签名的风险评分显示在图 6C. 此外,我们评估了在其他 LUAD 患者队列中具有相似预后价值的八 RBP 预测模型是否将相同的公式用于GSE31210数据集。我们发现,在GSE31210队列中,高风险评分的患者的 OS 也比低风险评分的患者差。图 7A–7C)。这些结果表明预后模型具有更好的敏感性和特异性。


基于八个中心 RBP 的列线图构建
为了开发 LUAD 预后的定量方法,我们整合了 8 个 RBP 签名来建立列线图(图 8)。基于多变量 Cox 分析,通过使用列线图中的点标度将点分配给各个变量。我们画一条水平线来确定每个变量的点,并通过对所有变量的点求和来计算每个患者的总分,并将其标准化为 0 到 100 的分布。我们可以计算 LUAD 患者的估计生存率1、3 和 5 年通过在总点轴和每个预后轴之间绘制一条垂直线,这可能有助于相关从业者为 LUAD 患者制定临床决策。此外,我们通过 COX 回归分析评估了 TCGA 中 LUAD 患者不同临床特征的预后意义。结果显示,肿瘤分期、原发肿瘤部位、P <0.01) (表3)。然而,我们仅通过多元回归分析发现年龄、肿瘤分期和风险评分是与 OS 相关的独立预后因素(P <0.01)(表3)。


验证中心 RBP 的预后价值和表达
为了进一步探索 LUAD 中八个中心 RBP 的预后价值,使用 Kaplan Meier 绘图仪确定中心 RBP 与 OS 之间的关系。Kaplan Meier-plotter 服务器识别了八个中心 RBP 中的六个(GAPDH、IGF2BP1、PABPC1、PIWIL4、RNPC3 和 TLR8)。对数秩检验结果表明 6 个 RBP 与 LUAD 患者的 OS 相关。图 9)。为了进一步确定这些中枢 RBP 在 LUAD 中的表达,我们使用来自人类蛋白质图谱数据库的免疫组织化学结果表明,与正常肺组织相比,肺癌中的 IGF2BP1、PABPC1 和 GAPDH 显着增加。图 10)。然而,TLR8、PIWIL4和ZC3H12C的抗体染色水平在肺癌组织中相对降低。此外,IFIT1B的蛋白表达在肿瘤和正常肺组织之间没有显着差异(图 10)。
