7分+生信友好杂志被SCI剔除,文章还值得借鉴吗?这篇双疾病的分析思路,从临床难鉴别

单个疾病的生信没新意,可以分析双疾病!
临床上难以鉴别的疾病怎么筛选诊断标志物?
生信分析来帮忙~

就在3月20日,科睿唯安官方发布了2023年最新的SCI目录,多本期刊被SCI剔除,其中还包括影响因子高达7.31的生信友好期刊Oxidative Medicine and Cellular Longevity。(ps:大家后续文章投稿,尤其是要毕业的小伙伴,一定要注意甄别哦!)
那么这本杂志上的文章还值得借鉴吗?小云今天特意挑选了一篇双疾病的生信文章,跟大家一起来点评一下吧(ps:估计后面也不会分享这个杂志的文章了,除非还有什么转机~)。
(不知道如何找热点或创新升级的可以找小云,各种个性化分析思路等你来挑~)
小云看完这篇文章之后,觉得值得一说的点有3个:
(1) 验证实验;
(2) 反向验证集的应用;
(3)构建了疾病诊断的在线预测工具;
一起来看看吧~

题目:C1QC、VSIG4和CFD作为心房颤动相关心源性栓塞性卒中的潜在外周血生物标志物
杂志:Oxidative medicine and cellular longevity
影响因子:7.31无
发表时间:2023年1月
数据信息

研究思路
从GEO数据库下载心房颤动(AF)、心源性栓塞性卒中(CE)和大动脉粥样硬化(LAA)相关的基因表达谱,鉴定差异表达基因(DEGs),然后进行功能注释。通过机器学习算法SVM-RFE和LASSO回归分析,鉴别潜在的诊断房颤相关心源性栓塞性脑卒中(AF-CE)生物标志物。通过使用外部数据集验证结果,并通过ROC曲线下面积(AUC)来衡量诊断价值。RT-qPCR验证生物标志物的表达。最后,开发了一个nomogram和配套网站来预测CE风险率。
主要研究结果
1. 分析差异表达基因(DEGs)并进行功能分析
在与CE相关的数据集中,与对照组相比,中风后3小时、5小时和24小时三个时间点分别筛选了DEGs,取交集获得了418个DEGs(图1(e))。同时,从AF相关的数据集中筛选DEGs,与这些CE相关的DEGs取交集,得到316个AF-CE相关基因(图1(f))。另外,将这两个疾病的GEO数据集合并为训练集,从合并的训练集中获得了13个AF-CE相关的DEGs基因(图1(g))。
使用Metscape在线工具对316个AF-CE相关的DEGs进行功能注释(图1(a))和DO富集分析(图1(b))。



图1. DEGs和功能分析
2. 利用LASSO和SVM-RFE算法选择诊断标记并验证
使用两种不同的算法(LASSO和SVM-RFE)从组合训练集中筛选特征基因。最终筛选出LASSO和SVM-RFE算法与GEO2R筛选的DEGs共同的7个特征基因作为AF-CE患者的诊断标志物(图2(a))。7个特征基因的ROC分析AUC值均大于0.8 (图2(b))。
(ps:机器学习算法可以用小云新开发的零代码生信分析小工具实现,云生信分析工具平台包含超多零代码分析和绘图小工具,上传数据一键出图,感兴趣的小伙伴欢迎来尝试哟,网址:http://www.biocloudservice.com/home.html )。
合并两个GEO数据集作为验证集验证这7个候选诊断基因的可靠性和可重复性(图2(c))。而在反向验证集--动脉粥样硬化数据集中,C1QC、VSIG4和CFD的表达无明显差异(图4(d))。说明特征生物标志物VSIG4、C1QC和CFD具有较高的诊断准确性。
(小云说:这里反向验证集证明了诊断基因的可靠,可以参考~)



图2. 利用LASSO和SVM-RFE算法选择诊断标记并验证
3. 诊断生物标记物的通路分析和免疫浸润分析
利用PathCards数据库进行富集分析(图3(a)),发现VSIG4、C1QC和CFD可能与AF-CE的调节细胞免疫反应有关。
因此,进一步分析患者样本、中风后3、5和24小时与对照样本之间免疫细胞浸润分布的差异,以及特征生物标志物(VSIG4、C1QC和CFD)与浸润免疫细胞的相关性(图3(b))。


图3. 通路分析和免疫浸润分析
4. 临床标本中诊断基因的表达验证,以及ROC曲线评估诊断价值
收集了患者的53份临床血样(LAA型缺血性脑卒中患者20份,CE患者20份,对照组13份),qRT-PCR检测诊断基因的表达(图4(a) -4 (b))。
(小云说:这里验证实验样本数量也不少,而且分组也注意区分了不同类型的疾病~)
构建ROC曲线评价候选诊断基因的诊断准确性(图4(e)、(g)、(k))。结果表明,C1QC、VSIG4和CFD表达在区分对照组、CE和LAA患者方面具有很大的价值,并且对所分析的两种脑卒中亚型具有特异性,可能是AF-CE的诊断生物标志物。




图4. qRT-PCR验证和ROC曲线
5. AF-CE诊断Nomogram和在线预测工具的构建和评估
基于3个诊断基因(C1QC、CFD和VSIG4)构建了诊断AF-CE的nomogram(图5(a))。决策曲线分析(DCA)和曲线下面积(AUC)表明nomogram模型能够准确地预测AF-CE (图5(b)-(c))。校准曲线表明nomogram预测AF-CE的准确性较高。


图5. 预测AF-CE风险的Nomogram
为了临床应用,作者开发了一个在线预测工具(https://www.origingenetic.com/CardiogenicStroke ),基于构建的nomogram来预测AF-CE的风险。将候选诊断基因(C1QC、CFD和VSIG4)的表达水平输入在线预测工具。临床验证结果显示,所有AF-CE患者测试样本得分接近100%,而健康对照组得分接近0%,这表明预测软件具有较高的准确性。
(小云说:作者还特意开发了一个疾病在线预测工具,便于临床应用,说明筛选出的诊断基因是认真的哦~)


图6. 在线预测工具
6. 临床病理参数与候选疾病生物标志物之间的相关性
分析了三个候选基因(C1QC、CFD和VSIG4)的表达与AF-CE患者的临床病理特征之间的联系(图7)。


图7. C1QC、CFD、VSIG4与临床病理特征的相关性
总结
怎么样,看完被SCI剔除杂志上的这篇双疾病的生信文章,你觉得值得借鉴吗?
如果非要让小云说值得借鉴的点的话,可能就是 验证实验、反向验证集的应用、和构建了疾病诊断的在线预测工具了。
顺便回顾一下小云之前给大家总结的双疾病分析验证实验怎么加:
(1) 可以采用验证数据集进行验证,筛选出的多个hub基因中,只要有几个有阳性结果就可以;
(2) 如果疾病没有其他的验证数据集或者验证数据集没有阳性结果,可以考虑采用临床样本验证;
(3) 不管用验证数据集还是临床样本、或者一种疾病用验证集+另一种疾病用临床样本验证,最好是两种疾病都要验证成功;
(4) 如果能收集到两种疾病共患病的临床样本进行验证是最佳的加分项!
另外,双疾病分析也可以分析诊断基因,基于hub基因构建诊断模型并评估其对疾病的诊断价值,增加临床意义。
其实不止双疾病分析,所有的生信分析做完后都会面临着要补充实验的问题,具体该补什么实验,补多少呢?小云还专门给大家总结了一下,详见:湿实验大盘点,助力您的生信分析文章档次提升,快快收藏!
如果你还苦恼于生信分析没有思路,或者嫌分析方法太过简单、太过老套,想要创新思路的,或者对双疾病等方向感兴趣的小伙伴快来联系小云吧!
