生信分析中不可忽视的GTEx数据库
尔云间 一个专门做科研的团队

小伙伴们,大家好呀,很高兴和大家见面,最近看到有果粉提问关于TCGA数据没有正常组数据的问题,大部分的癌症数据的分组均是完整的,即均有肿瘤与正常组,对于有些特殊的疾病它仅保存了肿瘤分组数据,这时就需要用到另一个数据库:GTEx。今天呢我们来聊聊小伙伴们关于TCGA与GTEx数据库的疑惑。
走神的小伙伴,还没有准备好的小伙伴,此时可千万不能打瞌睡,说不定你的几秒钟的专注一不小心就能解决你心中的疑惑,快快来看这吧。

疑惑一:什么是GTEx数据库?
答:GTEx全称是Genotype-Tissue Expression,称为基因型组织表达。GTEx首次出现是2013年在Nature Genetics杂志上发表的文章The Genotype-Tissue Expression (GTEx) project中,该文中首次介绍了Genotype-Tissue Expression,并成立了Genotype-Tissue Expression Consortium。2015年发表在Science上标题为The Genotype-Tissue Expression (GTEx) pilot analysis: Multitissue gene regulation in humans文章中。
为了检查个体内组织之间的遗传表达如何变化,基因型组织表达(GTEx)联盟收集了1641个尸检样本,涵盖了175个个体的54个体位点。2017年在Nature上发表了4篇文章,其中标题为Landscape of X chromosome inactivation across human tissues的文章,指出GTEx整合来自449个个体的5500多个转录组,29个组织的940个单细胞转录组,并结合基因组序列数据。我们可以使用该数据库进行查询几乎所有转录基因的基因表达数据。
疑惑二:什么时候用到GTEx数据库?
答:在使用TCGA数据库的时候,有些癌症的项目收纳的正常组织数据是非常少的,换句话说就是有很多病人,但是这些病人的正常组织的转录组测序结果没有。比如说卵巢癌,乳腺癌,这些疾病的正常组样本非常少。此时我们就要去想办法从其他数据库着手找到正常组织的样本数据,此时GTEx数据库就是不错的选择,这样在与TCGA数据整合到一起,样本量就比较多一些了。
至此,今天的答疑就结束了,小伙伴们有疑问可以给小果留言,小果期待与各位伙伴的交流。

推荐阅读
生信果 生信入门、R语言、生信图解读与绘制、软件操作、代码复现、生信硬核知识技能、服务器等原创内容