最新6分+非肿瘤纯最新6分+非肿瘤纯生信思路,告诉你“临床疾病分组”是分析创新的绝佳

如果你关注的疾病已经有生信文章发表了,还能再做生信思路吗?
如果能,怎么做?
看完这篇你就知道了~

小云告诉你解决方法之一就是从疾病本身的分组找创新,分析疾病的亚组。比如只关注儿童脓毒症,再比如分析左侧结肠癌 vs 右侧结肠癌,或者只关注肿瘤的晚期(Ⅲ-Ⅳ期)等等。
(没有思路、不知道怎么创新的来找小云吧,超多新奇的分析思路供你选择!)
但是单纯的从疾病分组创新能发6分+纯生信?当然还有机器学习和单细胞来助力。
今天小云要分享的这篇文章有几个亮点:
亮点一:从疾病不同分期(COPD早期和晚期)角度进行切入分析;
亮点二:2种机器学习算法筛选诊断基因;
亮点三:单细胞数据分析关键基因的表达与定位。
快来跟着小云一起学习它的巧妙之处吧。

题目:基于机器学习分析揭示EXPH5作为COPD晚期潜在诊断基因生物标志物
杂志:Computers in biology and medicine
影响因子:6.698
发表时间:2023年1月
数据信息

研究思路
分析慢性阻塞性肺病(COPD)GEO数据集中早期和晚期的差异表达基因(DEGs)。GSEA分析COPD早期和晚期之间的通路。通过LASSO和SVM-RFE筛选出晚期COPD的候选诊断生物标志物EXPH5。ROC曲线评价其诊断准确性。CIBERSORT算法用于评估两个COPD分期之间组织浸润免疫细胞的分布。分析诊断标志物EXPH5基因与免疫细胞浸润的关系。进一步分析了单细胞转录组数据中EXPH5基因的表达。

分析流程图
主要研究结果
1. 筛选COPD早期和晚期的差异表达基因(DEGs),并进行功能分析
对GEO数据中早期和晚期COPD样本进行差异表达分析,并利用metscape数据库进行GO和通路分析(图1A),还进行了GSEA(图1B-C),以确定DEGs的生物学功能。


图1. COPD早期和晚期DEGs的功能分析
2. 通过LASSO和SVM-RFE鉴定EXPH5基因为诊断生物标志物
利用LASSO逻辑回归算法从DEGs中识别出19个与COPD相关的基因(图2A)。使用SVM-RFE算法识别出6个关键基因(图2B)。两者取交集获得4个关键基因(图2C),并分析它们在COPD早期和晚期的表达水平存在显著差异(图2D-G)。


图2筛选COPD早期和晚期的候选诊断标志物
使用GSE54837数据集作为验证队列,验证四个候选诊断生物标志物的表达水平。其中EXPH5在COPD晚期样本中的表达水平较早期明显下调(图3A)。ROC曲线评估EXPH5的诊断价值(图3E-F)。

图3.诊断基因的验证和ROC曲线
3. 分析COPD早期和晚期的免疫细胞浸润,以及EXPH5与浸润免疫细胞的相关性
通过CIBERSORT算法计算出COPD早期和晚期免疫细胞浸润的比例(图4B)。进一步分析COPD晚期EXPH5表达水平与免疫细胞浸润的相关性(图4A、F)。



图4. 免疫浸润分析
4. EXPH5在单细胞转录组数据中的表达水平
分析COPD单细胞数据中EXPH5在细胞簇中的表达。在11种主要细胞类型中,EXPH5在最重要的肺细胞类型AT1和AT2中表达水平最高,而且EXPH5在晚期COPD的AT1和AT2中的表达下调(图5)。


图5. 单细胞转录组数据集中EXPH5基因的表达分析
总结
这篇文章的创新点就是基于疾病的分组进行了分析,再利用机器学习算法筛选诊断基因,并分析了免疫细胞浸润,最后还利用单细胞数据分析了关键基因的表达,以及主要表达在哪一类细胞中。后续完全可以根据这个结果设计课题思路,比如“XX基因调控XX免疫细胞影响COPD的进展”。
临床分组的切入角度不同,就可以提高分析的创新性。看完小云的分析,不知如此巧妙的分析思路有没有让你有一点点心动呢?

没有思路不要紧,小云会帮你找到创新的思路哦!如果你对热门/潜在热门方向感兴趣,或者想定制创新性思路欢迎直接call小云哦,下一篇生信文章在向你招手!
