欢迎光临散文网 会员登陆 & 注册

NODE(组学数据百科全书)使用手册

2020-03-25 20:41 作者:鲸舟基因  | 我要投稿

一、  NODE简介 (National Omics Data Encyclopedia database)

大规模高通量测序技术发展催生了生物医学,特别是组学研究的高速发展。使得对如此规模的数据进行存储、管理、统计和数据复用、数据共享就成为一个非常大的需求。同时如何将原始测序数据和对应的元数据有机结合起来进行存储、搜索、安全共享也是原始测序数据库设计中需要解决的问题。

NODE(https://www.biosino.org/node)作为一个组学数据管理和发布平台,围绕组学数据的生命周期,为数据产生(Private)、分析(Share)、发布(review and public)、(request-response)等各环节设计了相应的功能,为有数据存储、共享和分析需求的科研用户提供服务。

二、  NODE设计

NODE组学数据百科全书从设计之初就是能够对由高通量测序仪器直接下机得到的组学原始数据进行存储、兼容、整合、搜索、浏览、共享、分析等功能的平台。因此,NODE首先是一个生物医学大数据的汇交平台,平台设计的功能从前期实验的样本信息记录,到测序结果文件的上传,再到结果的分析,及原始数据和分析数据得共享和下载。

NODE出于兼容SRA和ENA的考虑,将疾病相关的信息与样本信息相结合,同时保留项目、实验信息等。在数据和元数据层面,除了SRA和ENA原始支持的数据外,还增加了分析数据(Analysis)及其元数据的上传。整合设计后的NODE平台主要包含6个主要元数据模块:Project、Sample、Experiment、Run、Data、Analysis。

Project:包含对一个研究的总体描述,包括项目名称、项目文本描述、项目地址、相关项目等信息。一个Project下关联有多个实验。

Experiment:描述样本测序实验的相关信息,包括实验命名、实验描述文本信息、样本测序文库的构建及测序方法的相关信息等。一个Experiment只对应一个Project。

Sample:描述生物实验材料的原始资料信息,包括样本的物种、组织、细胞系、保存方式、供应者信息、以及其他一些自定义信息。Sample与Project、Experiment没有直接关联关系。

Run:描述了Experiment中的测序方法对Sample测序生成测序文件的一整套流程的描述信息,是大规模高通量测序的上机流程信息。一个Run唯一对应了一个Experiment和一个Sample,单端测试的一个文件为一个Run,双端测序的两个文件为一个Run。

Analysis:基于原始数据进行研究分析流程及结果的描述信息,一个Analysis产出的结果可以用于其他Analysis的起始文件。在NODE数据归档时必须先选择归档到组学原始数据(Raw Data)或归档到一个分析(Analysis)。

三、  数据分层管理机制

为了让用户根据项目进展灵活的开放自己的数据权限,保障数据共享的安全性,NODE为用户提供了数据的分层管理机制。用户可以根据实际的数据发布进度调整数据的访问状态。

  • 公开数据(Public):数据为Public状态时,其他用户可以检索并访问此类数据。

  • 受限数据(Restricted):数据状态为Restricted时,其他用户可以在数据检索到此类数据,如果想看详情则需向数据所有人发出申请。数据所有人通过申请后方可访问

    私有数据(Private):数据状态为Private时,其他用户无法检索及访问到此类数据。

四、  NODE功能

围绕数据管理和发布的各个环节,NODE为用户提供了相应的功能。


4.1 数据浏览及搜索

NODE数据搜索是对PB级的组学原始测序大数据进行检索的核心功能和方法。如果说NODE数据归档为组学原始测序数据提供了数据基础,那么NODE数据搜索就为组学原始数据的查询和共享提供了基本方法。虽然数据归档生成的元数据是经过分类后的结构化数据,但经过不同数据表的存储后并不能形成统一的搜索界面,并且对各类数据字段的搜索在搜索语句上相对复杂,普通用户很难理解。因此,在设计上,NODE的搜索功能分为浏览和搜索两部分,并用相似的界面实现结果的展示。

首先是数据浏览,NODE在各数据页面的最上部设置了快捷方式导航条,用户只需选择需要的数据类型(Project、Experiment、Sample、Run、Analysis)就能实现对相应元数据的列表式浏览,浏览结果中包括了该类数据中已经公开发表和处于受限状态的所有元数据列表信息(私有数据不显示)。同时,对于注册登录用户,也会显示该用户自己的私有数据,保证可浏览数据的完整性和安全性。在数据列表中,包括了元数据类型、元数据名称、元数据编号、数据安全状态、数据所属用户名称、单位、提交时间、以及与该元数据类型相关的一些基础信息。同时,在列表上显示了对显示结果进行排序的功能,在列表右侧提供了根据元数据的部分类型字段进行结果筛选的功能。

数据浏览在单一元数据的列表展示、排序和筛选上有比较丰富的功能,但在数据量庞大、数据类型复杂、数据内容异质性强的组学原始测序数据面前,浏览功能还是无法帮助用户准确定位所需数据。因此,NODE设计和部署了全文语义检索来帮助用户通过关键词检索就能定位所需的数据。NODE的搜索功能出现和页面顶部的导航工具栏一样出现在首页以及NODE平台的各页面上。对于用户而言,在搜索栏中仅需输入对所需数据的关键词描述,用户理解层面的语义信息,就可以在搜索结果列表中找到对应的元数据信息。与数据浏览不同,数据搜索功能不需要用户对数据库中的字段有熟悉和了解,也不需要用户关心元数据的数据类型。在用户搜索得到的结果中包括了Project、Experiment、Sample、Run、Data、Analysis在内的所有与输入关键词相关的元数据记录。数据结果页面与数据浏览页面的展示方式类似,不同之处在数据搜索结果中不仅包含一种数据类型的元数据、而是把各种数据类型的结果都展示在同一个页面上。同时,数据搜索结果页面因为数据异质性的问题取消了结果排序功能,并且根据结果的数据字段丰富了右侧的数据筛选功能。

不论在数据浏览页面还是数据搜索结果页面,直接选择得到的数据记录就能转接到该条元数据的详情页面。

4.2 数据发布

传统的先提交元数据后数据的发布方式要求平台用户对平台数据结构和字段设计有一定的了解,或阅读平台文档后再填写相关信息,而在元数据审核完毕后,若无法保证网络的连通性(特别是海外用户),也会对已经上传元数据的用户造成困扰,在易用性上形成障碍。为了解决这个问题, NODE将数据上传步骤提前。用户可以在数据成功上传到平台后再通过平台的“一站式”或者分步创建的功能在系统提示的帮助下填写元数据将数据顺利归档。同时NODE在平台几乎所有的页面上都保留的数据上传的快捷入口,用户可以将任何工作数据上传到平台,形成个人的工作平台。

用户可以选择使用FTP,HTTP或者邮寄硬盘的方式将原始数据上传至NODE中,原始数据上传完成后用户可以选择一站式(one-stop)或者按步骤(step by step)完成元数据的填写及数据的归档,数据归档后则完成了一次完整的数据发布。

4.3 数据下载

NODE的数据直接关联在Run层级,因此用户可以在Run层级直接通过FTP或者HTTP的方式下载原始数据。同时Run详情页面也对原始数据相应的质量控制结果进行了展示。

同时NODE也为用户提供了数据的批量下载功能。用户可以在需要下载数据的层级的详情页,例如project,点击‘Export Data Link’按钮,下载项目下所有公开数据的链接,进行批量下载。

4.4 数据共享

数据分享为数据所有者设计,数据分享的发起者为数据所有者,目标为NODE的注册用户。数据分享的目标数据为数据所有者的所有数据,包括了受限数据和私有数据。数据所有者在访问自己名下的元数据/数据时,可以通过元数据详情页面或数据列表页面发起数据分享,在对当前元数据/数据ID进行分享时,数据分享过程中会级联显示出于当前元数据级联相关的所有元数据和数据,供数据所有者选择。一个数据分享包括了一个主分享编号(Primary ID)以及一系列分享的元数据/数据。被分享者会通过系统和邮件收到数据分享,包括了数据分享者的基本信息、分享数据的情况等。而后被分享者就可以通过合法的链接访问相关受限或私有数据。这里需要注意的是,使用share功能时,分享内容的发起人和接收人都是NODE的注册用户。

以project为例,用户在项目的详情页面中可以查看该项目下所有相关的实验(Experiment),样本(Sample),数据集(Run)的情况。数据分享发起人点击详情页中的Share按钮,即可将项目下的所有相关的实验(Experiment),样本(Sample),数据集(Run),数据(Data)分享给接收人。

点击Share按钮以后NODE会给出如下图所示的信息提示框,用户需要在Email部分输入分享内容接受人的邮箱,这里需要正确填写接收人注册NODE时使用的邮箱。填入接收人的邮箱后,即可将项目下相关的Experiment、Sample、Run、Data数据分享给接收人,如果数据分享发起人只是想分享项目中的部分数据,也可以根据自身情况在选择框中进行勾选。点击Confirm后,分享成功,页面将自动跳转到分享数据列表页,数据分享发起人可以在这个页面中查看分享内容的详情。同时,用户将鼠标放在sharing上会出现cancel,点击cancel则可以取消数据分享。

Share信息提示框

分享数据列表页
分享数据列表cancel按钮

此外,用户也可以在用户中心中点击Share按钮,出现下单菜单中选择My Shares查看所有分享数据的记录


数据分享发起人将数据分享给接收人以后,就可以通知接收人在他自己的用户中心中查看分享内容,如上图接收人可以在自己的用户中心中点击Share -> Share From Others按钮,进入Share From Others页面,在Share From Others页面中最下面一条记录则是别人最新分享过来的数据,点击download按钮即可查看这批分享数据对应的相关的项目(Project)、实验(Experiment),样本(Sample),数据集(Run),数据(Data)相关ID以及数据下载地址。 

4.5 数据审阅

数据审阅是为数据所有者有需要将NODE中的元数据/数据分享给非NODE注册用户查看和使用时的专属功能。之所以起名为Review,主要是考虑到注册用户在准备使用NODE中数据发表文献时,需要将相关信息分享给审稿人审稿用。审稿人一般都不是NODE注册用户,分享的数据一般也处于私有状态。因此,需要设计一个类似数据分享的接口,并设计一个独立于NODE的页面,将相关的元数据/数据提供给目标人/审稿人。

用户可以在详情页中点击“Review”按钮,将数据进行审阅。

用户可以在对应的区域输入审阅人的姓名及邮箱,将数据交给特定的审阅人进行审阅,审阅人可以不是NODE的用户。此外,用户还可以通过单击项目、实验、运行或数据前面的相应框来选择希望审阅人查看的数据部分。用户提交审阅后,审阅人的邮箱即可收到相应的提示邮件,在邮件中提示的审阅页面查看数据所有人提供审阅的数据。

4.6 数据请求及反馈

数据需求者从NODE平台通过搜索或浏览功能查看到处于受限(Restricted)状态的记录,想要查看详情时,可以通过系统直接发起数据请求,数据请求过程中会级联显示出于当前元数据级联相关的所有元数据和数据,供数据请求者选择。一个数据请求包括了一个主请求编号(Primary ID)以及一系列请求访问的元数据/数据。被请求者/数据所有者会通过系统和邮件收到数据请求,包括了数据请求者的基本信息、请求数据的情况、请求理由等。通过数据所有者授权的请求会生成一个访问码和有效访问时间。而后数据请求者就可以通过合法的数据访问码访问相关数据。

4.6.1 数据请求

以分析为例,用户通过搜索查找到自己感兴趣的数据时,可以点击受限数据中的锁形图标,在弹出框中对需要申请的数据提出申请。

向数据所有人发送数据申请访问后,用户可以在用户中心中查看申请的通过情况。

4.6.2 数据请求反馈

数据需求人发出数据访问申请后,数据所有人会收到相应的数据请求邮件。

数据所有人可以在用户中心中对用户的请求进行反馈。

组学数据百科全书NODE通过对Project、Experiment、Sample、Run、Data、Analysis的结构化、网络化、标准化描述,以及数据归档、数据搜索、数据展示、数据共享等功能,相对完整的实现了对组学测序原始数据、组学测序分析数据以及对应元数据的存储和共享使用,为人类健康相关组学数据的整合提供了最基本的数据基础和保障,并为后续各类数据,特别是知识类数据的收集提供了基本资源。

NODE(组学数据百科全书)使用手册的评论 (共 条)

分享到微博请遵守国家法律