Q1区8分+纯生信!肿瘤内异质性加持,且看预后模型如何转型升级?
肿瘤预后模型的构建套路,大家看过多少了?是不是快视觉疲劳了呢? 那么,路博今天带来一版转型升级款的肿瘤预后模型。 保证让大家眼前一亮~ 今日转型升级的创新点是:肿瘤内异质性(Intratumour heterogeneity,ITH) 在过去的二十年里,许多研究已经评估了从肿瘤和/或邻近非肿瘤组织的高通量表达数据中建立多种能够预测预后的基因标记物,然而距离临床实践尚有一段距离,可能是由于重复性较差,并且缺乏标准化的检测方法。 肿瘤内异质性(Intratumour heterogeneity,ITH),就是大多数类型癌症临床应用失败的主要原因之一。因为在多种癌症类型中,转录组学ITH混淆了现有的基于表达的生物标记物,并可能导致抽样偏差。因此,在预后标志物设计中,将ITH这一混杂因素排除,对精确医学至关重要。 当看到肿瘤内异质性在大多数类型的癌症中均存在时,路博的小脑袋瓜灵机一动,这不妥妥的套路又来了嘛,换个癌种又是一篇的岂不快哉!路博的生信敏感神经立马做出反应,迫不及待的想分享给大家啦~ 话不多说,还是用事实说话,来看今天这篇8分+的文章:这篇文章不拘泥于常规肿瘤预后模型的构建套路,而是通过引入、量化和整合了肿瘤间和肿瘤内的异质性,开发了一种克服临床抽样偏差的无ITH表达生物标志物(AUGUR)。在整个过程中,不仅包括机器学习算法,还有生存分析、基因突变、列线图构建等多角度的分析与验证。此外,这篇文章的最大亮点是纳入了多个具有多区域肿瘤样本的大型队列,数据量是非常抗打的!发到8分+绝对名副其实!!这个思路在很多肿瘤相关疾病都很合适,换个疾病快去复现吧!
(ps:没有思路、不知道怎么创新的找路博,超多个性化的分析思路供你选择哦!)
题目:在肝细胞癌预后风险分类中,转录组学肿瘤内无异质性标志物克服了抽样偏差
杂志:
JHEP Reports.
影响因子:IF=8.3
发表时间:2023年3月
研究背景
转录组学肿瘤内异质性(ITH)已被证明在多种癌症类型中混淆了现有的基于RNA表达的生物标记物,并可能导致抽样偏差。此外,ITH被认为是利用分子生物标志物进行患者精确分层的一个未解决的混杂因素。这可能是缺乏临床合格的肝细胞癌(HCC)生物标记物的原因。因此,本研究旨在寻找一种无ITH的肝细胞癌预测标志物。
研究思路
利用三个涉及30名患者142个肿瘤区域的多区域HCC转录组数据集,探讨了ITH对分子生物标志物性能的混杂影响,并量化了转录组异质性。设计了一种基于异质性指标的从头策略,使用三个数据集,利用机器学习算法提取肿瘤中差异表达的无ITH标志物,并提供最大的患者间区分,从中开发了一种克服抽样偏差的监测生物标志物(一种使用RNA的实用工具;AUGUR)。然后,在3个基于RNA序列的数据集和3个基于微阵列的转录组数据集中评估和验证了AUGUR的预后和预测准确性,并将其与之前报道的13个HCC预后模型进行了比较。最后,基于AUGUR和TNM分期系统建立并验证了经过良好校准的诺模图,以提供更个性化的方法来预测HCC患者的预后信息。
主要结果
1. 肿瘤内异质性广泛影响标志物表现
在MultiRRnaSeq1队列、MultiRRnaSeq2队列或MultiRArray队列中,对大多数变异基因的无监督分层聚类都显示出患者的独立聚类,这表明来自同一肿瘤区域的聚类一致性,并显示出比ITH更强的肿瘤间RNA异质性(图1A)。然而,整个转录组图谱的PCA分析清楚地揭示了同一HCC不同区域之间的RNA ITH,例如来自MultiRRnaSeq1队列中H2、H3、H9和H11的这些样本没有特殊的抽样地理分布(图1B)。为了评估RNA ITH对分子生物标志物性能的影响,首先在MultiRRnaSeq1队列中使用先前发表的上皮和免疫相关HCC ProGESigs研究了患者风险偏差(图1C)。使用与原始研究中相同的风险评分计算方法,将肿瘤区域分为高风险或低风险,分别有55%和46%的患者表现出不一致的风险分类。采用同样方法,使用细胞焦亡相关、DNA甲基化驱动、突变衍生、微血管侵袭相关、新血管生成相关、最广泛引用的五个基因标志物和其他HCC ProGESigs,观察到平均不一致率为39.9%(图1D)。不一致的风险分类率与标志物的基因大小没有显著相关性。这些结果表明,在不考虑肿瘤异质性的情况下,ProGESigs评估HCC患者的预后风险经常受到抽样偏差的影响,这可能导致ProGESig在独立队列中的有效性和可重复性有限,从而潜在地限制了ProGESigs的临床实用性。
图1 肿瘤内异质性广泛影响标志物表现
2. 开发无ITH HCC预后标志物的从头策略
使用MultiRRnaSeq1队列推导每个基因的肿瘤间和肿瘤内异质性指标,并根据其平均值将这两个异质性指标分为高或低组,从而形成了HCC的四个RNA异质性象限(图2B)。Q4组中的基因(1477个具有高肿瘤间异质性和低ITH的基因)在肿瘤之间表现出高度可变,在肿瘤内表现出高度同质,从而限制了抽样偏差,并可能促进患者分层(图2B)。为了在Q4基因集中获得具有可重复生存相关性的基因,从两个独立数据集(分别为ICGCLIRI-JP和TCGA-LIHC)中获得的HCC差异表达基因和预后基因相结合,得到了包含34个基因的候选基因集(图2C)。对于包含HCC和正常肝组织的五个队列进行差异表达分析,结果显示,这34个基因的表达都具有显著差异(图2D),验证了这些基因在HCC中普遍失调,而与最初的基因谱平台无关,因此它们可能在HCC的进展中发挥关键作用。随后,使用弹性网络算法来缩小34个候选基因的范围,以去除冗余并选择最有用的HCC预后标志物,该算法生成了一个不含ITH的12基因预后标记物,称之为AUGUR(图2E)。图1 肿瘤内异质性广泛影响标志物表现
2. 开发无ITH HCC预后标志物的从头策略
使用MultiRRnaSeq1队列推导每个基因的肿瘤间和肿瘤内异质性指标,并根据其平均值将这两个异质性指标分为高或低组,从而形成了HCC的四个RNA异质性象限(图2B)。Q4组中的基因(1477个具有高肿瘤间异质性和低ITH的基因)在肿瘤之间表现出高度可变,在肿瘤内表现出高度同质,从而限制了抽样偏差,并可能促进患者分层(图2B)。为了在Q4基因集中获得具有可重复生存相关性的基因,从两个独立数据集(分别为ICGCLIRI-JP和TCGA-LIHC)中获得的HCC差异表达基因和预后基因相结合,得到了包含34个基因的候选基因集(图2C)。对于包含HCC和正常肝组织的五个队列进行差异表达分析,结果显示,这34个基因的表达都具有显著差异(图2D),验证了这些基因在HCC中普遍失调,而与最初的基因谱平台无关,因此它们可能在HCC的进展中发挥关键作用。随后,使用弹性网络算法来缩小34个候选基因的范围,以去除冗余并选择最有用的HCC预后标志物,该算法生成了一个不含ITH的12基因预后标记物,称之为AUGUR(图2E)。
图2 开发无ITH HCC预后标志物的从头策略
3. 无ITH标志物AUGUR在HCC中具有强大的预测作用
为了研究AUGUR的预后表现,首先使用中位数风险评分将TCGA-LIHC患者分为两组,发现AUGUR风险评分与死亡率呈现显著正相关(图3A);高AUGUR评分组HCC患者的中位OS间期为3.48年,而低AUGUR评分组HCC患者的OS间期为6.72年。随后,在另外三个独立的基于RNA-seq的HCC数据集中观察到相同的结果,即高AUGUR评分组HCC患者的中位生存间期更短(图3B-D)。此外,还纳入了三个基于微阵列的HCC数据集,以评估AUGUR的预后能力,结果显示AUGUR与生存率显著相关(图3E)。在考虑所有训练和测试队列的meta分析中,AUGUR也显示出与结果的显著相关性(图3F)。这些结果证明了AUGUR在来自不同分析平台的多个队列中的预测性、重复性和一致性。
4. 无ITH标记物AUGUR与其他基因表达标记物的比较
时间相关ROC曲线和C指数的结果表明,AUGUR在1年、3年和5年生存预测方面优于或相当于其他13个模型(图4A-C);尤其是在1年生存率和C指数AUC方面,AUGUR明显优于其他模型(图4A)。此外,只有MultiRRnaSeq1纳入HCC患者的9%和MultiRRnaSeq2纳入HCC患者的14%使用AUGUR表现出不一致的风险分类(图4D-E),这甚至低于Nault等人开发的最广泛引用的五个基因标志物(图1D)。此外,AUGUR,与其他标志物相比,预测来自同一患者的多区域样本的中位风险偏倚最低(图4F)。并在另外两个多区域样本数据集(MultiRRnaSeq2和MultiRArray队列)中证实了这一结果(图4G)。这些结果表明,AUGUR与已建立的ProGESigs的一致率相比是有利的(图4E、图1D),更有力地克服了抽样偏差,并可应用于单一活检以进行患者风险分类。 鉴于AUGUR的成分来源于Q4象限,为了了解其他标志物的基因主要分布在哪个象限,使用MultiRRnaSeq1队列评估了13个标志物中所有基因的肿瘤间和肿瘤内异质性(图4H),发现显著超过预期数量的60%的基因位于Q1象限,其中基因表现出高度的肿瘤内和肿瘤间异质性(图4I)。突变衍生的标志物和ceRNA调控网络相关标志物,分别包含100%和75%的Q1基因,分别表现出46%和55%的不一致风险分类(图1D,图4H),其高于包含100%Q4基因的AUGUR(低ITH)(图4D和E),这表明标志物中基因的ITH水平影响标志物对ITH的敏感性。
图4 无ITH标记物AUGUR与其他基因表达标记物的比较
5. AUGUR与肿瘤不良特征有关
使用TCGA-LIHC HCC队列探索AUGUR标志物的临床病理和生物学基础(图5A),在高AUGUR风险组中观察到高TNM分期(图5B)和组织学分级(图5C)表现出显著较高的富集率。此外,发现AUGUR风险评分与基于GSE54236队列的成像数据计算的HCC倍增时间呈显著负相关(图5D),AUGUR评分高的患者HCC倍增次数显著更短(图5E)。高AUGUR风险评分预测了TCGA-LIHC队列中血管侵袭和转移的高风险(图5F),ICGC-LIRI-JP队列中也获得了相同的结果。在训练和验证数据集以及基于RNA-seq和基于微阵列的平台中,AFP(一种公认的HCC生物标志物)的血清水平也与AUGUR风险评分显著正相关(图5H)。此外,在TCGA-LIHC队列中进行了显著突变基因(SMG)分析,结果显示,TP53(31%)和CTNNB1(27%)是HCC中最常见的两个突变基因(图5I);AUGUR评分高的患者TP53的突变概率显著更高,而AUGUR评分低的患者CTNNB1的突变概率明显更高。这些结果表明,AUGUR评分高的HCC患者具有侵袭性特征,包括晚期肿瘤状态、更快的肿瘤生长速度以及高侵袭性和转移潜力。
图5 AUGUR与肿瘤不良特征有关
6. 构建和验证一个融合AUGUR和其他独立预测因素的结果预测列线图
为了提供一个定量模型来预测特定HCC患者的生存概率,构建了一个结合AUGUR和临床病理风险因素的列线图,使用TCGA-LIHC数据集预测1年、3年和5年的结果。根据多变量分析,AUGUR和TNM分期在多个队列中也显示出独立的预后能力(图6A)。生成了1年、3年和5年生存率的校准图,并显示列线图预测的结果在所有TCGA-LIHC训练和三个验证队列中接近实际(图6B-E)。时间依赖性ROC曲线进一步证明,预后列线图的特异性和敏感性优于1年(图6F)、3年(图6G)和5年(图6H)生存率的任何单一独立预测因素。总之,与单一预后因素相比,基于AUGUR和TNM分期的合作列线图可以提高生存预测。
图6 构建和验证一个融合AUGUR和其他独立预测因素的结果预测列线图
文章小结
这篇文章基于常规肿瘤预后模型的构建套路,通过引入、量化和整合了肿瘤间和肿瘤内的异质性,开发了一种无肿瘤内异质性的HCC生物标志物(AUGUR)。文章的选题方向创新性比较高、纯生信数据量满满,并且思路又很高级。目前“肿瘤异质性”这个方向发文量比较少,创新性比较高,是个很不错的方向呢,有兴趣的小伙伴赶快冲一波吧!