小云来揭秘:为什么我做生信分析能出好结果
粉丝大人在找小云做定制化生信数据分析的时候,有一个疑问,你做的这个数据分析的方案的确不错,创新性不错,但是你能保证做出好的预期结果吗?
直接上干货:第一个就是阈值;第二个是算法;第三个就是结果展示;第四个上帝法则。

1、阈值选择
我们做数据分析会根据实际情况进行阈值调整,有时候要放宽一点,有时要严格一点,目的是要为了下游的分析能够进行下去。如果自己并不懂得去写代码,作为一个学生物信息学的人只用一些在线工具,并不一定能得到一些好的结果而已,你会发现经常做着做着就做不下去了。
2、算法选择
也就是方法选择。比如同样做免疫浸润,cibersort出不来好结果,但是用ssGSEA,MCPCounter就有可能出来好多差异的,因为这两种算法更接近基因的表达谱分布模式。
3、结果展示
要有取舍的做一些结果展示,比如在功能富集的时候,假如做的一个骨科类的数据,却富集到癌症或者其它一点不相关的通路上,别人假如了解这个疾病背景的话,就会将这些结果不予展示,而我们往往会按照p.value值去展示TOP10,而不会取舍一些结果。有的新手可能不懂,会给你当当当展示一大堆结果,觉得自己做了很多东西,不放上去很可惜,但是可能其实会引起一些前后矛盾,甚至引起审稿人的质疑,质疑你的结果前后矛盾。
4、上帝法则
小云深刻意识到客户就是上帝,很多老师虽然不是很懂生信,但是有极强的学术背景,乐意和我们沟通,我们也非常乐意沟通,这样就能够在方案的前期其实就达到了老师的满意,方案后期能够给粉丝大人说的清清楚楚,让粉丝大人了解这个分析报告的价值。据说,在我们团队早期(十年前),年轻的云生信学生物信息学团队为了秀技,花里胡哨的图一大堆,给粉丝做报告解读的时候,我们虽然能够讲清每个图的意义,但是也无法讲述一个好的故事,最后客户从里边选了2个图草草了事。有时候做的多并不一定好。做到上帝心里想要的,才是最重要的。
“为什么在做一个生物信息学分析的时候,有的人能够做出来好的结果,是顺利利就发表了文章,有的人就出来一堆烂结果,甚至做着做着就做不下去了”,这个问题,到这就是初步的答案了。但是意犹未尽,因为还有很多点没讲到,大家动动手指支持下,小云看看后续是不是还继续更新这个话题。
