欢迎光临散文网 会员登陆 & 注册

GEO数据库保姆级入门实操教学,建议收藏

2023-06-07 19:38 作者:善木科研  | 我要投稿

最近一直在给大家分享优秀的文献思路解读,相信大家看了这么多idea,一定也有了自己文章的想法吧~

但是呢,有想法是一方面,而能不能实现又是另一方面。

 

今天喵学姐就来手把手教教大家生信分析如何迈出第一步——数据获取

看完这篇教程,你也可以开始动手下载和整理自己想要的数据,接着做出属于自己的精美结果图啦!

 

这次就用之前讲过的一篇非肿瘤思路文献来举例,

新来滴宝宝们可以点下面的链接先看一下整体思路解读,看过的老朋友们也可以来复习一下:4分+非肿瘤纯生信,GEO数据集+铁死亡+cytoscape调控网络+miRNA+转录因子,这思路我都想抄作业了

Title: Identification of Ferroptosis-Related Genes in Schizophrenia Based on Bioinformatic Analysis

标题:基于生物信息学分析的精神分裂症铁死亡相关基因鉴定

期刊:Genes                                             

此篇文献是精神分裂症相关的非肿瘤疾病生信分析

>>接下来一起跟着我看看该如何下载作者的数据吧<<

▲数据来源

作者使用的是GEO数据库中GSE27383数据集和GSE21138数据集的表达谱+临床数据。

 

数据库的使用

GEO数据库(Gene Expression Omnibus,基因表达综合数据库)

网址:https://www.ncbi.nlm.nih.gov/geo/

▶是由美国国立生物技术信息中心 (National Center for Biotechnology Information,NCBD于2000年创建并维护至今的高通量基因表达数据库。

▶是一个国际公共存储库,收录并整理了全球范围内研究工作者上传的微阵列芯片、二代测序以及其他形式的高通量基因组数据,并提供免费下载。

你想要的数据,这里几乎都有!

 

Step 1. 搜索关键词

我们可以直接在GEO数据检索界面键入关键词,也可以点击图中1和2处进行数据检索。

这里以“Schizophrenia”为例,直接在搜索框中进行输入,出现如下结果:

第一行为GEO DataSets数据,第2行为GEO Profiles数据。

 

这是两种GEO数据的存储形式

1.     GEO DataSets :以数据集为单位,存储同一个实验中所有样本的数据。

(我们所需要的大部分数据集通常都使用这种)

2.GEO Profiles :以基因为单位,存储基因在数据集中的表达谱。

(使用较少)

此处我们需要一次实验中所有的数据,因此点击5284可直接进入GEO数据检索界面。


Step 2. 定义数据集属性:

1.Series:科研工作中是最为常用的数据层级。

2.Platforms:高通量实验检测所用工具(哪个公司哪款产品),编号GPL开头,例如GPL55188。

 

Step 3. 筛选所需数据集

根据关键词搜索,会有很多数据集被检索到,建立有效的筛选机制,能够帮助我们缩小搜寻范围。

一般通用的筛选条目有如下三个,可依次选中。

1处是数据集类型,选Series

2处是数据类型,限定为基因表达谱数据集

3处是组织来源,一般选择人类

 

通过关键词检索出来的数据集数量庞大,我们也可以设定一些“条件”,过滤掉一些无效数据集。

数据集选择原则:

1、题名:符合所研究主题

2、样本量:不宜过小

 

Step 4. 数据集里包含的信息:

1.研究设计:可判断该数据集中样本是否适合本研究使用(分组信息、临床特征、样本量等)

2.PMID编号:在使用GEO数据时,需要注明引用该数据文献的PMID编号!

3.平台文件:数据检测平台,含有探针及基因名的注释文件(需下载)

Sample:实验中的样本分组信息,每一个样本都会分配一个号码。编号以GSM开头

4.GEO2RGEO自带的分析工具

5.矩阵文件:含有患者临床信息、基因表达谱(需下载,分析所需)

原始数据存储在附录,处理后数据则存储在GEO中

 

数据下载

Step 5.下载及查看GEO数据集信息

确定了数据集后,就可以开始下载了。

我们这一步需要下载两个文件:

(1)GPL平台注释文件(2)表达矩阵“series matrix”文件。


PS:下载平台注释文件之前,我们需要点击该GPL文件,浏览里面的信息,查看是否有Gene Symbol标识;若无Gene Symbol标识,则表示该平台无基因的ID注解,我们无法对ID进行基因名的转换。

因此,查找数据集时除了样本信息要符合我们的需求外,还要确保能得到我们的数据。

 

平台在线注释文件(下载):

矩阵文件(下载):

以文献所用数据集GSE27383和GSE21138为例

GSE27383

Marked Reduction of AKT1 Expression and Deregulation of AKT1-associated Pathways in Peripheral Blood Mononuclear Cells of Schizophrenia Patients

该数据集包含样本:

30例:正常对照组

22例:急性入院,严重精神病性精神分裂症患者

21例:缓解期精神分裂症患者

GSE21138

Gene Expression Profiles in BA46 of Subjects with Schizophrenia and Matched Controls

该数据集包含样本:

30例:精神分裂症患者

29例:年龄、性别匹配的对照组

 

Step 6. 分析所用数据整合

利用GEO数据分析时,需要准备好两个文件:临床数据表+基因表达谱

 

准备基因表达谱,需要下载2个文件:平台文件+矩阵文件

平台文件:探针名+对应的基因名

该文件中第1列为基因的ID,文件也包含了相关ID的基因名,即Gene Symbol。

 

矩阵文件:临床特征数据+探针名的表达谱

PS:红框以上数据为数据集的临床特征资料,因此这部分数据需单独提取出来进行保存,并进行转置,使得文件内容格式为行为样本名,列为变量,作为后续分析使用的临床数据表

 

红框以下数据为数据集的基因表达谱。所示内容为基因的ID名称,可以看出,在基因表达谱部分,“行”是基因的样本ID编号,“列”是表达数据的矩阵。但矩阵不含基因名,不方便我们进行后续分析。

 

因此,我们需要对红框所列数据进行替换,将基因ID替换为我们熟悉的基因名。红框内的文件需转换成基因名。

 

Step 7. 平台文件+矩阵文件结合

后续操作,我们需要利用平台文件中的ID与矩阵文件中的ID进行匹配,将Gene Symbol列提取至矩阵文件,替换探针名,准备基因表达谱

匹配后,即可得到“行”是基因名,“列”是表达值的基因表达谱啦。

从这个表达谱中,就可以提取自己感兴趣的基因表达值做后续分析。

在矩阵文件中,探针名A列后插入一列B,作为基因名匹配列。

点击B1单元格,使用Vlookup函数进行匹配:

第1行:选定共同的变量,进行匹配

此处2个文件中共同变量为ID探针名,因此此处选择探针的格子A65

第2行:要用共同变量匹配的含基因名的文件,在哪个区域

此处带基因名的文件在GPL570-55999平台文件中,共同变量在A列,基因名在K列,都需要列入,因此选定A-K区域

第3行:基因名所在列数

此处基因名在K列,为第11列,填11

第4行:是否精确匹配,0:精确匹配;1:模糊匹配

此处我们为精确匹配,填0

 

按共同变量ID探针名匹配好的基因表达谱如下,可看出每个探针ID均已匹配好相应的基因名。

 

Step 8. 可实现的生信分析

准备好这两个GEO文件,就可以用来做后续的生信分析了。

利用GEO数据分析所需文件:临床数据表+基因表达谱

可以做差异基因分析、火山图、热图、临床特征分析等……

但GEO原始数据在使用时非常不便,需要进行后续处理

1、 需要取出矩阵文件中的临床数据,转置处理;

2、 需提取出矩阵文件中的表达谱(探针名),随后通过与平台文件中的探针名进行匹配,将矩阵文件中的探针名转换为基因名。

 

所以喵学姐想给大家推荐一个非常好用的数据下载平台——桑格助手(http://sangerbox.com/Tool),可以直接下载GEO数据,并且数据文件都是已经处理好的,后续也可以直接在桑格助手平台在线分析生成结果图,非常方便,我们团队的大佬们日常也在用~


桑格助手的数据下载步骤:

1.打开桑格助手后在左侧⌈数据下载⌋栏目中的⌈GEO⌋,直接在搜索栏搜索数据集。

2.数据下载界面

下载临床数据表:

下载基因表达谱:

3.桑格助手下载好的文件:

都是已经成型的表达谱,非常整洁,可直接使用,不需要自己再去进行拆分或者匹配。

数据下载到这里就结束咯,将其转换成数据分析软件能够识别的信息,之后就可以制作出精美的分析图,开始妙手著文章了。

如果有小伙伴想跟着喵学姐继续复现结果图,记得蹲住我的下一篇教学~


参考文献:Feng S, Chen J, Qu C, Yang L, Wu X, Wang S, Yang T, Liu H, Fang Y, Sun P. Identification of Ferroptosis-Related Genes in Schizophrenia Based on Bioinformatic Analysis. Genes (Basel). 2022 Nov 20;13(11):2168. doi: 10.3390/genes13112168. PMID: 36421842; PMCID: PMC9690569.

>>本期学习福利<< 不想等待的同学们也可以报名我们的“生信训练营”直播课!由我们团队的生信大佬来手把手带教实操+课后答疑,感兴趣的同学们快来滴滴我!

👇 👇

咨询或报名请添加小助手@善木喵


GEO数据库保姆级入门实操教学,建议收藏的评论 (共 条)

分享到微博请遵守国家法律