【实用贴】手把手教您上传GEO数据库
高通量组学相关实验完成后,需要将数据上传到GEO。但是GEO数据上传过程中,需要提交各种类型的数据、表格和资料,过程比较繁琐,今天的实用贴,手把手教您上传GEO数据库。
背景知识:GEO数据库
GEO数据库全称GENE EXPRESSION OMNIBUS,成立于2000年,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库,主要收录高通量基因表达数据。除SRA数据库之外,GEO数据库也是目前文章投递数据上传的数据库之一。
接受数据类型:原始数据或者经过处理的数据(符合“有关芯片试验的最小信息(minimum information about a microarray experiment,MIAME)”标准)
存储数据格式:web格式、spreadsheets格式、XML格式和纯文本格式
一、注册帐号
首先需要注册一个NCBI(https://www.ncbi.nlm.nih.gov/geo/submitter/),GEO账号,如果已经有账号,可以直接点击登录。https://www.ncbi.nlm.nih.gov/geo/info/submission.html

二、文件准备
需要准备如下几个文件:1. metadata spreadsheet,2. processed data files,3. raw data files。
1. metadata spreadsheet:Excel表格形式,该文件是填写关于整个研究中样本和实验的相关信息。
具体的栏目的填写参考:
SERIES这一块是一些跟您的实验相关的信息介绍,summary这一栏可以采用分段的模式来写,也可以采用一段式的模式来写,类似于科研论文中的摘要。

SAMPLES这一块是具体的实验分组信息,以及每一个组别里面的样品名称的填写。

PROTOCOLS这一块主要是样品的处理方式以及测序建库的方式,一般服务商的结果报告中都会提供,也可通过与合作服务商伙伴的沟通来获得该部分的信息。

DATA PROCESSING PIPELINE主要是原始数据的处理步骤,以及基因组信息的填写,其中要注意的问题是process data files的输出通常为tab-delimited text files,也就是需要存储为制表符分隔的txt文件。

2.processed data files:一个至多个文件,是根据你的原始文件进行分析所提取得到的一些数据;该部分经过处理的数据是GEO提交的必要部分,GEO会审核客户上传的处理过的数据,以此来检验相关文章结论的真实可靠性。比如RNA-seq可以上传基因表达量文件,ChIP-seq可以上传WIG, bigWig, bedGraph等,不过由于是中间文件,该部分内容没有完全固定的格式。
3. raw data files:一个至多个文件,这是你测序或芯片获得的原始文件。测序的原始数据一般采用FASTQ格式,另外SRA数据库接受的其他格式也是可以的(https://www.ncbi.nlm.nih.gov/sra/docs/submitformats/)。
三、数据上传
推荐GEO官网推荐的软件FileZilla。(下载传送:https://filezilla-project.org)。打开FileZilla,主机(H) 框填写上图中host对应的内容ftp-private.ncbi.nlm.nih.gov,用户名(U)填写geoftp,密码填写rebUzyi1(此项可能不定期更新),端口号可不填,全部填好后,点击快速连接按钮。

TIPs:在根目录下建立一个文件夹,文件夹的名称和你的NCBI账户名称相同即可,双击进入该文件夹,建立如下三个子文件夹:1. metadata spreadsheet,2. processed data files,3. raw data files。然后将对应的文件上传至该文件夹即可。注意,由于raw data files很大,上传时需要耐心等待。
四. 通知GEO数据上传完成
上传结束后,可点击Notify GEO,提醒GEO后台人员上传完成,可以进行审核。

点Notify GEO进去之后就是这样的界面,需要填写你建立的文件夹名称,期望数据公开的时间,以及更进一步的说明等。
上传成功或者数据有问题GEO都会以邮件的形式进行通知。一般约2,3个工作日,经审核数据没有问题,GEO会以邮件形式通知数据的GSM(实验样本编号)、GSE(研究项目编号)。
你也可以给GEO(geo@ncbi.nlm.nih.gov)发送邮件,邮件内容可以参考下方:
邮件主题:Submitting high-throughput sequence data to GEO
邮件正文:
Dear sir,
We had finished the raw data uploading .
Please check according to the following information :
GEO account username: GEO帐号
Names of the directory and files deposited: ABC(存放数据的路径)
Public release date :数据释放日期
Our raw files were named as follows: XXX.fq.gz
Our Processed data files were named as follows: XXX.txt
Metadata spreadsheet were named as follows: Metadata_spreadsheet.xls
Thank you again for your time!
一般GEO第二天就会回复邮件,5个工作日以内会告知具体的GEO号。
五、其它备注
提交了该数据之后,就会收到来自GEO数据库的邮件。(邮箱为NCBI注册时留下的邮箱)如果你的数据有问题,会通知你去再次上传或者是修改,这个时候你会发现自己在根目录下建立的文件夹空了,不要惊慌,那是因为你的文件被工作人员转移到了另外一个工作目录,在这个空的文件夹中再次上传正确的文件就行了。
等你的文件全部上传完成后,5个工作日内就会收到GEO给你发来的邮件,这时会给你一个GEO号,类似于GSEXXX。等你收到这封邮件后意味着你的数据正式上传成功了,写文章的时候把这个号附上就大功告成。