欢迎光临散文网 会员登陆 & 注册

WGCNA应用现状及存在问题

2021-12-19 20:11 作者:Biogeek_Lau  | 我要投稿

        近年,和WGCNA应用的论文出现井喷,论文数从刚开始一年十几篇到每年几百上千篇不止(下图)。我最早接触这个算法是2011年,当时WGCNA还有GUI的版本,我为了掌握这个工具,和WGCNA原作者通过邮件多次联系探讨。2012年,我第一次应用WGCNA发表了1篇关于肝癌的文章,使用了若干个重要基因的连接度*表达量之和的方法,尝试对肿瘤进行分型(https://www.sciencedirect.com/science/article/pii/S0168827812000876)。发现在小数据集里的确也有一定效果,和原来单单采用表达量的gene panel/signatures方法有所改进,至少它考虑到不同基因的贡献度。和其他很多不同的基因网络构建算法相比,WGCNA比较快被高影响因子杂志引用,特别是它的易用性和结果综合性优于其他方法。后面,随着生物信息学方法不断普及,WGCNA也在国内被发扬光大。

WGCNA相关论文今年来呈现井喷式发表

        虽然,WGCNA算法被很多人认识到它的重要性,包括微生物、植物、动物、医学特别是肿瘤、毒理学、药理学、生态学等研究领域的研究者所应用。但关于它的应用原理,人们还是不是很了解。在多年跟踪WGCNA应用及相关文献积累之后,我在国内期刊《生物工程学报》发表了其首篇较为全面的应用综述(http://journals.im.ac.cn/html/cjbcn/2017/11/gc17111791.htm),旨在为对WGCNA感兴趣的研究者提供一些基本的概念。WGCNA包的原作者一直有在更新包,其功能也日趋完善。它的使用说明甚至可以写成一本书。很欣喜,看到这个算法能在国内生物医学领域得到广泛应用。

        然而,随着生物信息学方法和技术的普及,进入门槛降低,关于WGCNA应用的论文也呈现井喷式发表。作为关注该方法的研究者和一些论文的审稿者,我不得不表达对该方法应用中存在的问题。早年,这个方法仅仅作为论文研究的主体就能发表,现今大家都会了WGCNA分析,但这并不说明大家都可以使用该方法随便就要发表1个论文。其实,生物信息学主要还是作为一个研究工具使用,而不是为了做出好看的图,而分析而发表。生物的问题还是需要在生物里解决,并非简单的一个电脑使用和分析就能解决。囿于时间关系,我放弃了再发1篇WGCNA应用现状和隐忧的综述论文。最后,简单列举WGCNA应用存在的问题:

1.比如样本量太小少于30个,这样得到的共表达模块不稳定,不具有重现性。

2.有论文把Grey模块也拿来使用,这个很明显使用了该工具,连说明书都不看。但是有不少类似问题的论文还是发表了,论文也存在文献引用问题,没有合理引用前人结果。很多肿瘤的TCGA或者GEO数据,甚至都被分析了十几遍,但每次得到的hub gene或者gene signature却都不一样。特别是肿瘤的WGCNA,为了发表论文而画出漂亮的图,整个论文却不知所云,实在是悲哀。

3.过分关注hub gene,忽视了其他的WGCNA结果,如模块表达,基因连接度等信息

4.结果解读的问题。WGCNA得到的是相关网络,不是因果网络,所以解读为病因的时候要特别谨慎,要问下自己有没有其他实验证据来支持这个假说。

        最后,这只是鄙人最近的一些思考,如果有不当或遗漏的地方,欢迎大家在下方畅所欲言!

WGCNA应用现状及存在问题的评论 (共 条)

分享到微博请遵守国家法律