欢迎光临散文网 会员登陆 & 注册

8分+双疾病生信思路强势回归!干湿结合发高分不要太简单哦!

2023-06-12 14:19 作者:尔云间  | 我要投稿


当~ 当~ 当~ ~

又到了“双疾病分析”安利时间,欢迎小伙伴们的到来~ ~

小云为啥一直在不遗余力地推荐 “双疾病分析”思路呢?

能让小云频繁推荐,肯定有其可取之处,最大的优势就是性价比超高!并且“双疾病分析”就更适合在非肿瘤疾病以及与肿瘤联合中使用,属于非肿瘤疾病中的优势思路。

已经上车的小伙伴应该享受到了它的发文红利,就说香不香! 

还在观望的朋友也不要再犹豫了,内卷越来越厉害,上车越晚享受的红利越少,看中这个方向就及时出手吧,机会只留给有准备的人!(ps:小云之前分享了很多双疾病思路,并且还在持续更新,对这个方向感兴趣的话可以去公众号主页搜索观看哦)

小云这次再分享一个双疾病分析干湿结合思路——利用“机器学习算法”构建非肿瘤诊断模型,再加上自有队列的验证实验,干湿结合与机器学习的分析方法创新性叠加,发到8分+不要太简单哟!看好方向就抓紧行动吧!

l 题目:基于综合生物信息学分析和机器学习筛选与慢性肾脏疾病和钙化性主动脉瓣疾病相关的免疫相关分泌蛋白

l 杂志:J Transl Med

l 影响因子:IF=8.44

l 发表时间:2023年6月


研究背景

慢性肾脏疾病(CKD)是最重要的心血管危险因素之一,在各种心血管疾病如钙化性主动脉瓣疾病(CAVD)中起重要作用。文章旨在探索潜在涉及CAVD发病机制的CKD相关基因,并发现用于诊断CKD伴CAVD的候选生物标志物。


数据来源


研究流程

首先在综合CAVD数据集中通过差异表达和WGCNA分析鉴定了124个CAVD关键基因,再通过CKD-PBMC/肾脏数据集的差异表达分析,共筛选出983个CKD相关分泌蛋白。采用PPI分析、功能富集和cMAP分析来揭示CKD相关CAVD致病基因和CKD相关CAVD的潜在机制,以及用于CAVD治疗的潜在药物。然后,利用包括LASSO回归和随机森林在内的机器学习算法来筛选候选生物标志物并构建用于预测CKD相关CAVD的诊断诺模图。此外,还应用ROC曲线、校准曲线和决策曲线分析来评价诺模图的诊断性能,使用CIBERSORT算法研究了CAVD的免疫细胞浸润情况。最后,在自有外部队列中验证2个关键基因的表达,并构建列线图评估模型的诊断价值。

 

主要结果

1. CAVD关键基因的鉴定

在综合CAVD数据集中筛选CVAD和对照组间的差异基因,获得173个DEGs(图1A, B)。进一步进行WGCNA分析以确定与CVAD中最相关的基因模块(图1D)。数据显示,粉色模块与CAVD有最高的正相关性(358个基因),而黄色模块与CAVD最负相关(769个基因)(图1E, F),将这两个模块确定为关键模型,共包含1127个与CAVD显著相关的关键基因。然后将这1127个基因与173个DEGs取交集,共获得124个基因作为CAVD的关键基因(图1G)。 

图1 CAVD关键基因的鉴定


2. CKD中差异表达分泌蛋白的鉴定

分别在CKD-PBMC/肾脏数据集中进行差异表达分析,在CKD-PBMC中共鉴定了2681个DEGs(图2A, B),而在CKD-肾组织中发现了4111个DEGs(图2C, D)。考虑到CKD可能主要通过释放分泌蛋白来促进CAVD的发生和发展,所以作者将3970个分泌蛋白(来源于HPA数据库)分别与两个数据集中的DEGs取交集,总共鉴定了983种CKD相关的分泌蛋白(图3E, F)。

图2 CKD中差异表达分泌蛋白的鉴定


3. CKD相关CAVD致病基因的识别、功能富集分析和药物筛选

通过STRING数据库分析了CKD相关分泌蛋白和CAVD关键基因的相互作用,利用MCODE识别PPI网络中前2个最重要的模块,其中包含的76个基因被识别为CKD相关CAVD致病基因(图3A, B)。针对这些CKD相关CAVD致病基因进行功能富集分析(图3C, F)。随后将CKD相关致病基因中在CVAD样本中上调的基因输入到cMAP数据库中,以预测可能逆转CAVD中CKD相关致病基因表达改变的小分子化合物(图4)。(ps:模型构建、KM生存曲线绘制、ROC曲线/DCA曲线绘制等都可以用小云新开发的零代码生信分析小工具实现哦,感兴趣的小伙伴欢迎来尝试,网址:http://www.biocloudservice.com/home.html    

图3 CKD相关CAVD致病基因的识别和功能富集分析


  图4 药物筛选


4. CKD相关CAVD的诊断模型构建

由于CAVD和CKD之间共同差异表达的分泌蛋白可能在CKD相关的CAVD患者中起关键作用,所以作者选取17个CKD相关的分泌蛋白和CVAD关键基因的交集作为模型构建候选基因(图5A)。随后利用LASSO回归算法从17个基因中识别出8个对诊断CKD相关CAVD患者有重大影响的潜在候选基因(图5B, C),同时还利用随机森林(RF)机器学习算法根据重要性识别到6个潜在基因(图5D),两者取交集后得到2个hub基因SLPI和MMP9(图5E)。基于这2个基因建立CKD相关CAVD的诊断列线图(图6A),利用ROC曲线、校准曲线和DCA曲线评估列线图预测性能。ROC曲线显示列线图可能对CKD相关的CAVD有很强的诊断价值(图6D),校准曲线显示列线图诊断模型的预测概率与理想模型的预测概率几乎相同(图6E),DCA曲线表明根据列线图模型做出决策可能有利于CKD相关CAVD的诊断(图6F)。(ps:LASSO回归和随机森林算法筛选特征基因、模型评价也可以用小云新开发的零代码生信分析小工具实现,云生信分析工具平台包含超多零代码分析和绘图小工具,上传数据一键出图,感兴趣的小伙伴欢迎来尝试哟,网址:http://www.biocloudservice.com/home.html


 图5模型特征基因的选取

图6 列线图的构建与评价


5. CAVD免疫细胞浸润分析

作者使用CIBERSORT算法获得免疫细胞的特征,并探索CAVD的免疫调节以及诊断生物标志物与免疫细胞浸润的相关性。结果显示,与对照组相比,CAVD显示较高比例的巨噬细胞M0、T细胞CD8和Tregs 细胞(图7 B)。两个枢纽基因的表达和差异浸润免疫细胞类型的比例之间的相关性分析显示,hub基因SLPI和MMP9都显示出与CAVD的免疫细胞浸润显著相关(图7 D)。

图7 免疫浸润分析


6. Hub基因表达验证和列线图模型诊断性能的评估

收集人类钙化(n = 7)和非钙化对照(n = 5)主动脉瓣活检组织,以及来自健康对照个体(n = 24)、CAVD患者(n = 24)、患有CAVD 的CKD患者(n = 10)和不患有CAVD (n = 22)的CKD患者的人血清样品。在组织样本中进行RT-qPCR检测,结果显示,与对照主动脉瓣样品相比,钙化主动脉瓣样品中两个hub基因的表达一致上调(图8A)。在血清样本中进行ELISA检测,显示SLPI和MMP9在CKD和CAVD患者以及CKD伴CAVD患者中水平显著升高(图8B)。随后作者在自有队列中开发了一个CAVD诊断诺模图模型(命名为诺模图A ),以预测对照组和CAVD组出现CAVD的可能性(图8C),并利用ROC曲线、校准曲线和DCA曲线评估列线图预测性能(图8D-F)。此外,还构建了另一个诊断诺模图模型(名为诺模图B ),以区分有或无CAVD的CKD患者(图8G),同样利用ROC曲线、校准曲线和DCA曲线评估列线图预测性能(图8H-J)。 

图8 Hub基因表达验证和列线图模型诊断性能的评估


文章小结

这篇文章利用机器学习算法建立CKD相关CAVD的诊断模型,并且还利用自有队列进行表达验证实验和模型评估来进一步提升创新性。文章集合了选题新颖、分析创新、自有队列实验验证的多重创新点,绝对算的上高分文章的绝佳思路!目前双疾病也逐渐内卷了起来,想做双疾病方向的小伙伴动作得放快些了哟!


8分+双疾病生信思路强势回归!干湿结合发高分不要太简单哦!的评论 (共 条)

分享到微博请遵守国家法律