欢迎光临散文网 会员登陆 & 注册

再来一个不蹭热点的6分+思路——从“疾病特征”入手,45天即接收!

2023-06-08 11:29 作者:尔云间  | 我要投稿


生信分析一定要追热点吗?

能不能从自己深耕的疾病方向入手分析呢?

不追热点能不能发高分?怎么才能发高分?···· 

这是小云选取的一些粉丝的私信问题,看来朋友们对于生信追热点还有一些疑问。小云分享的大部分思路都是追热点的,那是因为新热点、大热点确实容易发文,尤其是新热点刚出现的红利期,很容易简单分析就发个高分纯生信。

但是,这并不意味着生信只能追热点,小云也非常喜欢看到从疾病出发另辟蹊径的文章,也乐得分享这种文章(ps:小云之前也分享过类似文章,可以点击文末链接或关注公众号查看哦),其实这种文章与你自己深耕的疾病更加契合,并且方向越小众竞争越少、越好发文。如果想再增加些创新性,可以分析方法上求创新和多元化,比如机器学习算法、单细胞数据分析和多组学分析等~ ~

 还是用实例说话!这篇文章从疾病特征入手,利用机器学习算法建立分类器,同时还进行单细胞数据分析、多组学分析、公共病理数据分析验证,分析内容上的丰富多彩,直接打造出一个6分+纯生信文章,并且一个半月就接收,这性价比,这速度都非常哇塞!小伙伴们心动了吗?心动不如行动,要复现思路可以找小云哦!

l 题目:头颈部鳞状细胞癌神经侵袭风险评估机器学习模型的建立

l 杂志:Int J Mol Sci.

l 影响因子:IF=6.208

l 发表时间:2023年5月


研究背景

血液和淋巴扩散以及局部和周围神经侵犯(PNI)包括实体瘤扩散的主要途径。PNI是多种癌症中的常见威胁,包括头颈鳞状细胞癌(HNSCC )并且由于局部复发率增加和肿瘤复发时间缩短而成为不利生存的预后指标。由于手术切除的肿瘤样本的可用性,通过病理检查对神经周围侵犯的充分诊断是有限的,并且目前还没有针对HNSCC PNI患者的治疗干预措施。这些问题表明,迫切需要可靠的分子分类器来支持诊断性PNI评估和预后风险预测,并探索确切的潜在分子原理。


数据来源 


研究思路

将有PNI状态注释的TCGA-HNSC队列作为训练集,筛选PNI相关的差异表达基因根据44个PNI基因特征进行聚类分析,比较不同亚型间的生存差异并在验证队列中验证。随后利用单细胞数据分析PNI相关的44个基因特征在特定细胞类型中的表达情况。然后基于PNI相关的44基因特征表达的分子分类,建立一个机器学习(ML)模型进一步诊断隐匿性PNI,模型在CDSA病理数据中验证最后分析PNI机器学习分类器与突变、DNA甲基化以及免疫浸润的相关性。

 

主要结果

1. PNI相关基因特征的识别和聚类分析

首先在有PNI状态注释的TCGA-HNSC队列中基于组织病理学PNI状态进行KM生存分析,以评估PNI的预后作用。结果显示不同PNI状态5年总生存率(OS)、疾病特异性生存率(DSS)和无进展间期(PFI)存在显著差异(图1A)。以此队列为训练集,分析PNI-HNSCCPNI+HNSCC间的差异基因,获得60个DEGs(图1C)。基于这些DEGs的转录水平进行无监督的分级聚类,获得了两个主要的聚类,其富集了PNI-(聚类A) PNI+(聚类B)。但聚类分析显示在PNI+肿瘤中突出了一组上调的DEGs(n = 16),其与肌肉组织相关,表明解剖亚位点的偏差,遂予以剔除,最终得到一个PNI相关的44个基因特征(图1D)。

图1 PNI相关的基因特征的识别


2. 基于PNI相关的基因特征的聚类分析和验证

基于PNI相关的44个基因组的转录水平的无监督系统聚类证实了两个主要的聚类A和B,后者细分为两个亚聚类B1和B2,其中PNI+肿瘤在亚簇B2(图2A)。在PNI相关上调和下调基因中,比较聚类AB1和B2间的GSVA富集分数,显示差异显著(图2B)。根据单变量Cox回归模型,对来自TCGA-HNSC的具有注释性PNI状态的患者的5年OS、DSS和PFI进行生存分析,显示通过PNI相关的44基因特征分类OS、DSS和PFI与通过病理性PNI状态分层相似(图2C)。总之,与PNI相关的44个基因特征使得具有注释的PNI状态TCGA-HNSC队列能够分层,并且在分子层面定义具有不同临床特征和预后的群体。为了证实PNI相关的44基因标记与临床特征及其预后价值之间的联系,没有PNI状态注释的TCGA-HNSC队列验证了其表达模式,无监督的分级聚类显示了验证队列被分层为与训练队列类似的聚类A和子聚类B1和B2(图3A)。并且验证队列中的KM曲线显示,A/B1组和B2组的OS和PFI存在显著差异(图3B)。

 图2 基于PNI相关基因特征的聚类分析


 图3 PNI相关的基因特征的分类效果和预后价值验证


3. PNI相关的基因特征的单细胞分析

作者GSE103322数据集和TISCH2在线工具分析PNI相关的44个基因特征在不同类型细胞中的表达情况(图4A分析显示,PNI相关的44基因标记的37个下调基因(包括CDKN2A)和7个上调基因(包括IFNK)主要在恶性细胞的不同亚群中表达,而在基质细胞(包括成纤维细胞)中的表达值明显较低,在免疫细胞中几乎检测不到(图4AB 

图4 PNI相关的基因特征的单细胞分析


4. PNI相关机器学习模型的建立

将有PNI状态注释的TCGA-HNSC队列分成训练(80%)和测试(20%)数据集,并且聚类A(PNI-富集)子聚类B2(PNI+富集) 被选为单个机器学习模型训练的类别。基于PNI相关的44基因特征表达建立机器学习(ML) 分类模型,比较了三种常用的分类模型(随机森林、神经网络和逻辑回归)的预测性能,最终选择了与其他两个模型相比性能稍好的随机森林模型,用于进一步分析(图5A, B)。基于随机森林模型,TCGA-HNSC肿瘤被分为ML A(富含PNI)和ML B2(富含PNI+)(图5 C)。生存分析显示,ML B2分类的HNSCC表现出不利的OS、DSS和PFI(图5D)。最后利用CDSA中的HE染色图片证实了临床上PNI注释的肿瘤和没有PNI注释的肿瘤PNI的存在,其通过随机森林模型预测为ML B2(图5E),也就说明随机森林分类器能够识别HNSCC的隐匿性PNI。

图5 机器学习分类模型的建立


5. ML A和ML B肿瘤之间突变景观、DNA甲基化和免疫浸润分析

作者分析了ML A和ML B肿瘤之间的突变景观和全局DNA甲基化。CNAs分析显示,与TCGA-HNSC的ML B2相比,ML A的CNAs改变分数显著增加(图6A),并确定了拷贝数增加或减少的不同热点区域(图6B)。突变分析显示,ML A HNSCC的总体细胞突变计数明显高于ML B2(图6C),并且几个MutSig基因显示出两组间体细胞突变频率的显著差异(图6D)。然后又分析了TCGA-HNSC的DNA甲基化模式,结果显示,与ML B2肿瘤相比,ML A的总体β平均值显著降低(图6F)。最后,利用xCell、CIBERSORTx和Kassandra分析ML A和ML B2肿瘤中的免疫细胞浸润情况,发现ML A中的B细胞和T细胞的数量显著更高(图6G)。(ps:突变分析、甲基化分析、免疫浸润分析也可以用云生信平台分析工具实现哦,云生信分析工具平台包含超多零代码小工具,上传数据一键出图,网址:http://www.biocloudservice.com/home.html,欢迎朋友们来探索~ ~

图6 ML A和ML B肿瘤之间突变景观、DNA甲基化和免疫浸润分析


文章小结

这个文章从HNSC的疾病特征“周围神经侵犯PNI”切入进行分析,分析中应用机器学习进行模型构建、单细胞数据分析、多组学分析和病理数据验证,相当丰富,所以创新性也很高。仅用45天就接收的6分+纯生信,文章性价比也很高!并且这种在疾病上深入分析的文章不容易思路撞车,所以想做创新性分析的小伙伴,不要犹豫啦,用上这个思路行动起来吧!


再来一个不蹭热点的6分+思路——从“疾病特征”入手,45天即接收!的评论 (共 条)

分享到微博请遵守国家法律