欢迎光临散文网 会员登陆 & 注册

【实用贴】手把手教您上传GEO数据库

2020-03-09 21:13 作者:鲸舟基因  | 我要投稿

高通量组学相关实验完成后,需要将数据上传到GEO。但是GEO数据上传过程中,需要提交各种类型的数据、表格和资料,过程比较繁琐,今天的实用贴,手把手教您上传GEO数据库。

背景知识:GEO数据库

GEO数据库全称GENE EXPRESSION OMNIBUS,成立于2000年,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库,主要收录高通量基因表达数据。除SRA数据库之外,GEO数据库也是目前文章投递数据上传的数据库之一。

接受数据类型:原始数据或者经过处理的数据(符合“有关芯片试验的最小信息(minimum information about a microarray experiment,MIAME)”标准)

存储数据格式:web格式、spreadsheets格式、XML格式和纯文本格式

一、注册帐号

首先需要注册一个NCBI(https://www.ncbi.nlm.nih.gov/geo/submitter/),GEO账号,如果已经有账号,可以直接点击登录。https://www.ncbi.nlm.nih.gov/geo/info/submission.html

NCBI支持第三方账号登陆,可用google或NIH账号等

二、文件准备

需要准备如下几个文件:1. metadata spreadsheet,2. processed data files,3. raw data files。

1. metadata spreadsheet:Excel表格形式,该文件是填写关于整个研究中样本和实验的相关信息。

具体的栏目的填写参考:

SERIES这一块是一些跟您的实验相关的信息介绍,summary这一栏可以采用分段的模式来写,也可以采用一段式的模式来写,类似于科研论文中的摘要。

SERIES栏目

SAMPLES这一块是具体的实验分组信息,以及每一个组别里面的样品名称的填写。

SAMPLES栏目

PROTOCOLS这一块主要是样品的处理方式以及测序建库的方式,一般服务商的结果报告中都会提供,也可通过与合作服务商伙伴的沟通来获得该部分的信息。

PROTOCOLS栏目

 DATA PROCESSING PIPELINE主要是原始数据的处理步骤,以及基因组信息的填写,其中要注意的问题是process data files的输出通常为tab-delimited text files,也就是需要存储为制表符分隔的txt文件。

DATA PROCESSING PIPELINE栏目

2.processed data files:一个至多个文件,是根据你的原始文件进行分析所提取得到的一些数据;该部分经过处理的数据是GEO提交的必要部分,GEO会审核客户上传的处理过的数据,以此来检验相关文章结论的真实可靠性。比如RNA-seq可以上传基因表达量文件,ChIP-seq可以上传WIG, bigWig, bedGraph等,不过由于是中间文件,该部分内容没有完全固定的格式。

3. raw data files:一个至多个文件,这是你测序或芯片获得的原始文件。测序的原始数据一般采用FASTQ格式,另外SRA数据库接受的其他格式也是可以的(https://www.ncbi.nlm.nih.gov/sra/docs/submitformats/)。

三、数据上传

推荐GEO官网推荐的软件FileZilla。(下载传送:https://filezilla-project.org)。打开FileZilla,主机(H) 框填写上图中host对应的内容ftp-private.ncbi.nlm.nih.gov,用户名(U)填写geoftp,密码填写rebUzyi1(此项可能不定期更新),端口号可不填,全部填好后,点击快速连接按钮。

FileZilla界面

TIPs:在根目录下建立一个文件夹,文件夹的名称和你的NCBI账户名称相同即可,双击进入该文件夹,建立如下三个子文件夹:1. metadata spreadsheet,2. processed data files,3. raw data files。然后将对应的文件上传至该文件夹即可。注意,由于raw data files很大,上传时需要耐心等待。

四. 通知GEO数据上传完成

上传结束后,可点击Notify GEO,提醒GEO后台人员上传完成,可以进行审核。

Notify GEO进去之后就是这样的界面,需要填写你建立的文件夹名称,期望数据公开的时间,以及更进一步的说明等。

上传成功或者数据有问题GEO都会以邮件的形式进行通知。一般约2,3个工作日,经审核数据没有问题,GEO会以邮件形式通知数据的GSM(实验样本编号)、GSE(研究项目编号)。

你也可以给GEO(geo@ncbi.nlm.nih.gov)发送邮件,邮件内容可以参考下方:

邮件主题:Submitting high-throughput sequence data to GEO

邮件正文:

Dear sir,

We had finished the raw data uploading .

Please check according to the following information :

GEO account username: GEO帐号

Names of the directory and files deposited: ABC(存放数据的路径)

Public release date :数据释放日期

Our raw files were named as follows: XXX.fq.gz

Our Processed data files were named as follows: XXX.txt

Metadata spreadsheet were named as follows: Metadata_spreadsheet.xls

Thank you again for your time!

一般GEO第二天就会回复邮件,5个工作日以内会告知具体的GEO号。 

五、其它备注

提交了该数据之后,就会收到来自GEO数据库的邮件。(邮箱为NCBI注册时留下的邮箱)如果你的数据有问题,会通知你去再次上传或者是修改,这个时候你会发现自己在根目录下建立的文件夹空了,不要惊慌,那是因为你的文件被工作人员转移到了另外一个工作目录,在这个空的文件夹中再次上传正确的文件就行了。

等你的文件全部上传完成后,5个工作日内就会收到GEO给你发来的邮件,这时会给你一个GEO号,类似于GSEXXX。等你收到这封邮件后意味着你的数据正式上传成功了,写文章的时候把这个号附上就大功告成。

【实用贴】手把手教您上传GEO数据库的评论 (共 条)

分享到微博请遵守国家法律