欢迎光临散文网 会员登陆 & 注册

从geo数据库下载数据的几种方法

2023-03-01 09:30 作者:小云爱生信  | 我要投稿

尔云间  一个专门做科研的团队

原创 xiao'guo 生信果


对于从事生物医学及生物信息学的人员来说,GEO(Gene Expression Omnibus database)数据库的重要性大家一定不陌生了吧,GEO数据库收集了大量表达谱、甲基化、LncRNA、miRNA、拷贝数变异(CNV)等各种芯片数据,并且还存储了一些二代数据和其他高通量测序数据。


今天小果将带大家学习如何从GEO数据库下载你所需要的数据,让GEO数据库成为你科研路上重要的助力。


GEO数据库所包含的信息

1) GEO Platform (GPL) 芯片平台

2) GEO Sample (GSM) 样本ID号

3) GEO Series (GSE) study的ID号

4) GEO Dataset (GDS) 数据集的ID号


注:文献中会提到所用数据集


数据下载

1、方法一

打开GEO官网:Home - GEO - NCBI (nih.gov),输入GSE编号,点击Search



下拉,选择Series Matrix File(s)



下载matrix文件 ,可以下载到本地,也可以通过文件传输的方式在服务器进行传输 wget


https://ftp.ncbi.nlm.nih.gov/geo/series/GSE102nnn/GSE102031/matrix/GSE102031_series_matrix.txt.gz(42M)


如果想要下载原始数据,可以点击Download下面的下载链接进行下载



还可以通过直接查找SRA编号—Send to—File—Runinfo下载csv表格,打开后有一个下载链接可以直接下载


下载完成后您可能有些疑问,我们会得到一个.sra结尾的数据,SRA是压缩文件,我们只要使用fastq-dump进行解压就能得到原始文件。


也可以打开网址:Index of / (nih.go11111v):



 选择geo—seris—要选的系列—GSE编号:



2、方法二

通过加装GEOquery包,使用GEOquery包可以得到对应GEO的表达矩阵,注释信息,样本信息等。


options()$repos #翻墙
options("repos" c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))#选择镜像
options()$BioC_mirror
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
library(GEOquery)
gset <- getGEO('GSE102031', ##GSE编号
destdir=".",
               AnnotGPL = T,     ## 注释文件
               getGPL = T)       ## 平台文件



推荐阅读


关注小果,小果将会持续为你带来更多生信干货哦。

生信果

生信入门、R语言、生信图解读与绘制、软件操作、代码复现、生信硬核知识技能、服务器等

原创内容




从geo数据库下载数据的几种方法的评论 (共 条)

分享到微博请遵守国家法律