TCGA和GEO数据满足不了?快来试试组学数据百科全书NODE数据库吧
小编最近总会收到好多私信,说想要做某种肿瘤相关的生信分析,但是一检索文献,发现大部分研究都是基于TCGA数据库,总担心分析不出来新颖的结果,于是转站去NCBI GEO,可是好多数据要么样本量不行,要么样本信息不全,最崩溃的是啥信息都有,就是没有预后信息。确实,TCGA和GEO是目前最常用的公共数据库资源,里边的数据信息非常丰富,然而随着近几年组学数据研究迅速发展,纯生信数据库挖掘火热,该利用的数据基本都利用了,也成为好多研究的一大难题。今天,小编给大家介绍一个组学数据百科全书—NODE((National Omics Data Encyclopedia database))数据库,该数据库网址如下:
https://www.biosino.org/node
打开首页,可以看到该数据库是有5大元数据模块组成:Project、Experiment、Sample、Run、Analysis.

点开Project,可以看到目前数据库里共有576个公开项目和233个受限项目,该模块主要是对一个研究的总体描述,包括项目名称、项目文本描述、项目地址、相关项目等信息。一个Project下关联有多个实验。每一个项目都有一个OEP编号。用户可以根据自己的研究目的选取合适的项目数据进行二次挖掘。

Experiment主要记录了实验相关的信息,包括建库策略、测序平台文库构建等信息。一个Experiment只对应一个Project。右侧还提供了具体实验类型,用户可以根据需要进行浏览。

Sample:描述样本的资料信息,包括样本的物种、组织、细胞系、数据类型、上传者信息等。Sample与Project、Experiment没有直接关联关系。

Run:描述了使用某种测序方法对某一个样本测序生成测序文件的记录。点开每一个run,会得到如下界面,其中在Data information栏下提供了下载选项。

Analysis:主要是对原始数据进行研究分析产生的一些中间结果文件,例如SNP calling得到的vcf过程文件,RNA-seq分析中定量好的count值文件等等,但并不是所有实验样本都有过程文件。这里是小编最常用的一个模块,如果有中间文件的数据,进行二次挖掘真是再友好不过了!!

需要提醒大家的是,所有的数据下载有的数据必须进行登录,因此提前注册一个账号是必不可少的,注册也很简单,只需一个新的邮箱即可,点击页面右上方注册按钮,根据提示一步步填写信息即可,最后通过邮箱收到的激活邮件进行激活即可~

另外有些数据并不是公开的,数据状态为Restricted时,需向数据上传者发出申请,通过申请后方可访问,状态如果是私有数据(Private),那么很遗憾,用户无法检索及访问到此类数据,可能是因为原作者的文章还未接收,试着过段时间再来试试吧~
今天的数据库介绍就到这里了,快打开数据库检索看看有没有你感兴趣的数据集呢?
如果检索到了数据不知道如何下手,快来咨询我们吧,我们会提供一对一的个性化方案设计服务,而且是免费的哟!!确认方案后,我们有专业的数据分析人员提供全套的分析,并进行详细的售后解答,如果你还是不知道如何利用公共数据库进行二次挖掘,只需要提供疾病方向,物种,海量数据的检索交给我们!!方案设计交给我们!数据挖掘交给我们!


