欢迎光临散文网 会员登陆 & 注册

快速学习如何确定差异分析阈值来筛选差异基因

2022-12-28 09:48 作者:小云爱生信  | 我要投稿

尔云间  一个专门做科研的团队

原创 小果 生信果

各位小伙伴,小果和大家又不期而遇了,最近小果在做差异基因筛选时就很迷惑,不知道知道差异分析需要用到哪些参数以及具体的这些参数的含义是什么?知道了具体参数的的含义却又不知道如何筛选?为此小果特地去查询学习了相关文献,今天呢小果为大家解答下这些问题。

首先小果和大家一起来了解下在进行差异基因筛选时常用的指标以及它的含义:


01差异倍数(Fold change),是同一个基因在两个样品中表达量的变化,即为倍数变化,同时也可以反应出差异情况如何,是上调还是下调等情况如果我们把样本分为了对照组和实验组,想要判断这两组数据中基因表达情况是否显著,可以通过计算两个分组中表达值的差异倍数来判断。可以通过一个简单的例子来说明,假设对照组A和对照组B中均存在基因C,基因C在对照组A中的表达值为1,在实验组B中的表达值为2,此时我们就可以说基因C在实验组B的表达是对照组A中的2倍。

02 P值(P-value),它是通过统计学的一些检验方法计算出来的值,反应的是数据之间的统计学上的显著性。

03FDR(False Discovery Rate),错误发现率,也称为Q-value,简单来说FDR时矫正后的P值,它是通过错误控制法对P值进行检验校正假阳性率。使用FDR的目的是为控制差异分析结果中假阳性的比例。尤其是在做转录组分析时,因为转录组分析时会遇到一个样本中有多个转录本的情况,在对每个转录本进行检验时容易增加假阳性比率。


一般的原则是使用差异倍数|Fold Change|≥2即|log2FC|>1且FDR<0.05或P<0.05这两个指标进行筛选,其中需要说明的是,Fold Change的绝对值越大,与此同时差异倍数也就越大,FDR值或P<0.05越小差异越显著,这个筛选标准文章也是比较认可的。这里提供一篇文章[1]做参考,链接为:

https://doi.org/10.1016/j.psj.2021.101496。当然小伙伴们也可以自己去查询IF高的英文文章。


对于转录组差异分析来说,筛选时的差异倍数一般要大于等于2,FDR<0.05或P<0.05,两个指标要同时满足。可参考文章[2]链接:

https://doi.org/10.1016/j.gene.2016.07.052。


对于筛选得到的差异基因较少的情况下,FDR<0.05条件不变,差异倍数可以在1.2到2倍间适当浮动调整,通俗一点来说就是|log2FC|的值可以在0.232到1之间。根据经验来说,建议差异倍数选择的优先级为2>1.5>1.2;差异倍数1.5时,可参考文章[3]链接:

https://doi.org/10.1007/s12032-020-01370-0;

差异倍数1.2时,可参考文章[4]链接:

https://doi.org/10.1186/s12967-019-1981-5。


若以上的阈值条件均未筛选出差异基因,可用FDR<0.05或P<0.05来筛选,这里可参考另一篇文章[5]链接:

https://doi.org/10.1080/07435800.2019.1674868,如果通过以上说阈值还是未筛选到差异基因,需要去考虑下数据本身是否存在问题,或者说去更换数据集。

到这里呢,小果今天的分享就结束了,希望各位小伙伴通过今天的分享都有所收获。

参考文献:

[1] Shu J, Liu Y, Shan Y, Ji G, Ju X, Tu Y, Shi S, Sheng Z, Zhang M, Zou J. Deep sequencing microRNA profiles associated with wooden breast in commercial broilers. Poult Sci. 2021 Dec;100(12):101496. doi: 10.1016/j.psj.2021.101496. Epub 2021 Sep 21. PMID: 34695627; PMCID: PMC8555438.

[2] Chen X, Yang M, Hao W, Han J, Ma J, Wang C, Sun S, Zheng Q. Differentiation-inducing and anti-proliferative activities of isoliquiritigenin and all-trans-retinoic acid on B16F0 melanoma cells: Mechanisms profiling by RNA-seq. Gene. 2016 Oct 30;592(1):86-98. doi: 10.1016/j.gene.2016.07.052. Epub 2016 Jul 25. PMID: 27461947.

[3] Yin L, Xiao L, Gao Y, Wang G, Gao H, Peng Y, Zhu X, Wei J, Miao Y, Jiang K, Lu Z. Comparative bioinformatical analysis of pancreatic head cancer and pancreatic body/tail cancer. Med Oncol. 2020 Apr 10;37(5):46. doi: 10.1007/s12032-020-01370-0. PMID: 32277286.

[4] Zhang L, Chen S, Zeng X, Lin D, Li Y, Gui L, Lin MJ. Revealing the pathogenic changes of PAH based on multiomics characteristics. J Transl Med. 2019 Jul 22;17(1):231. doi: 10.1186/s12967-019-1981-5. PMID: 31331330; PMCID: PMC6647123.

[5] Iqbal J, Tan ZN, Li MX, Chen HB, Ma B, Zhou X, Ma XM. Estradiol Alters Hippocampal Gene Expression during the Estrous Cycle. Endocr Res. 2020 Feb-May;45(2):84-101. doi: 10.1080/07435800.2019.1674868. Epub 2019 Oct 12. PMID:31608702.



shengxinguoer

生信果


生信硬核知识解答

和小果一起学生信




快速学习如何确定差异分析阈值来筛选差异基因的评论 (共 条)

分享到微博请遵守国家法律