GEO数据库保姆级入门实操教学,建议收藏
最近一直在给大家分享优秀的文献思路解读,相信大家看了这么多idea,一定也有了自己文章的想法吧~
但是呢,有想法是一方面,而能不能实现又是另一方面。
今天喵学姐就来手把手教教大家生信分析如何迈出第一步——数据获取。
看完这篇教程,你也可以开始动手下载和整理自己想要的数据,接着做出属于自己的精美结果图啦!

这次就用之前讲过的一篇非肿瘤思路文献来举例,
新来滴宝宝们可以点下面的链接先看一下整体思路解读,看过的老朋友们也可以来复习一下:4分+非肿瘤纯生信,GEO数据集+铁死亡+cytoscape调控网络+miRNA+转录因子,这思路我都想抄作业了
Title: Identification of Ferroptosis-Related Genes in Schizophrenia Based on Bioinformatic Analysis
标题:基于生物信息学分析的精神分裂症铁死亡相关基因鉴定
期刊:Genes

此篇文献是精神分裂症相关的非肿瘤疾病生信分析。
>>接下来一起跟着我看看该如何下载作者的数据吧<<

作者使用的是GEO数据库中GSE27383数据集和GSE21138数据集的表达谱+临床数据。

数据库的使用

GEO数据库(Gene Expression Omnibus,基因表达综合数据库)
网址:https://www.ncbi.nlm.nih.gov/geo/
▶是由美国国立生物技术信息中心 (National Center for Biotechnology Information,NCBD于2000年创建并维护至今的高通量基因表达数据库。
▶是一个国际公共存储库,收录并整理了全球范围内研究工作者上传的微阵列芯片、二代测序以及其他形式的高通量基因组数据,并提供免费下载。
你想要的数据,这里几乎都有!
Step 1. 搜索关键词

我们可以直接在GEO数据检索界面键入关键词,也可以点击图中1和2处进行数据检索。
这里以“Schizophrenia”为例,直接在搜索框中进行输入,出现如下结果:

第一行为GEO DataSets数据,第2行为GEO Profiles数据。
这是两种GEO数据的存储形式:
1. GEO DataSets :以数据集为单位,存储同一个实验中所有样本的数据。
(我们所需要的大部分数据集通常都使用这种)
2.GEO Profiles :以基因为单位,存储基因在数据集中的表达谱。
(使用较少)
此处我们需要一次实验中所有的数据,因此点击5284可直接进入GEO数据检索界面。

Step 2. 定义数据集属性:
1.Series:科研工作中是最为常用的数据层级。
2.Platforms:高通量实验检测所用工具(哪个公司哪款产品),编号GPL开头,例如GPL55188。

Step 3. 筛选所需数据集
根据关键词搜索,会有很多数据集被检索到,建立有效的筛选机制,能够帮助我们缩小搜寻范围。
一般通用的筛选条目有如下三个,可依次选中。
1处是数据集类型,选Series。
2处是数据类型,限定为基因表达谱数据集。
3处是组织来源,一般选择人类。
通过关键词检索出来的数据集数量庞大,我们也可以设定一些“条件”,过滤掉一些无效数据集。
数据集选择原则:
1、题名:符合所研究主题
2、样本量:不宜过小
Step 4. 数据集里包含的信息:

1.研究设计:可判断该数据集中样本是否适合本研究使用(分组信息、临床特征、样本量等)
2.PMID编号:在使用GEO数据时,需要注明引用该数据文献的PMID编号!
3.平台文件:数据检测平台,含有探针及基因名的注释文件(需下载)
Sample:实验中的样本分组信息,每一个样本都会分配一个号码。编号以GSM开头
4.GEO2R:GEO自带的分析工具
5.矩阵文件:含有患者临床信息、基因表达谱(需下载,分析所需)
原始数据存储在附录,处理后数据则存储在GEO中

数据下载
Step 5.下载及查看GEO数据集信息
确定了数据集后,就可以开始下载了。
我们这一步需要下载两个文件:
(1)GPL平台注释文件(2)表达矩阵“series matrix”文件。
PS:下载平台注释文件之前,我们需要点击该GPL文件,浏览里面的信息,查看是否有Gene Symbol标识;若无Gene Symbol标识,则表示该平台无基因的ID注解,我们无法对ID进行基因名的转换。

因此,查找数据集时除了样本信息要符合我们的需求外,还要确保能得到我们的数据。
平台在线注释文件(下载):

矩阵文件(下载):


以文献所用数据集GSE27383和GSE21138为例
GSE27383
Marked Reduction of AKT1 Expression and Deregulation of AKT1-associated Pathways in Peripheral Blood Mononuclear Cells of Schizophrenia Patients
该数据集包含样本:
30例:正常对照组
22例:急性入院,严重精神病性精神分裂症患者
21例:缓解期精神分裂症患者

GSE21138
Gene Expression Profiles in BA46 of Subjects with Schizophrenia and Matched Controls
该数据集包含样本:
30例:精神分裂症患者
29例:年龄、性别匹配的对照组

Step 6. 分析所用数据整合
利用GEO数据分析时,需要准备好两个文件:临床数据表+基因表达谱
准备基因表达谱,需要下载2个文件:平台文件+矩阵文件
平台文件:探针名+对应的基因名

该文件中第1列为基因的ID,文件也包含了相关ID的基因名,即Gene Symbol。
矩阵文件:临床特征数据+探针名的表达谱

PS:红框以上数据为数据集的临床特征资料,因此这部分数据需单独提取出来进行保存,并进行转置,使得文件内容格式为行为样本名,列为变量,作为后续分析使用的临床数据表。
红框以下数据为数据集的基因表达谱。所示内容为基因的ID名称,可以看出,在基因表达谱部分,“行”是基因的样本ID编号,“列”是表达数据的矩阵。但矩阵不含基因名,不方便我们进行后续分析。
因此,我们需要对红框所列数据进行替换,将基因ID替换为我们熟悉的基因名。红框内的文件需转换成基因名。
Step 7. 平台文件+矩阵文件结合
后续操作,我们需要利用平台文件中的ID与矩阵文件中的ID进行匹配,将Gene Symbol列提取至矩阵文件,替换探针名,准备基因表达谱。
匹配后,即可得到“行”是基因名,“列”是表达值的基因表达谱啦。
从这个表达谱中,就可以提取自己感兴趣的基因表达值做后续分析。


在矩阵文件中,探针名A列后插入一列B,作为基因名匹配列。
点击B1单元格,使用Vlookup函数进行匹配:
第1行:选定共同的变量,进行匹配
此处2个文件中共同变量为ID探针名,因此此处选择探针的格子A65
第2行:要用共同变量匹配的含基因名的文件,在哪个区域
此处带基因名的文件在GPL570-55999平台文件中,共同变量在A列,基因名在K列,都需要列入,因此选定A-K区域
第3行:基因名所在列数
此处基因名在K列,为第11列,填11
第4行:是否精确匹配,0:精确匹配;1:模糊匹配
此处我们为精确匹配,填0
按共同变量ID探针名匹配好的基因表达谱如下,可看出每个探针ID均已匹配好相应的基因名。

Step 8. 可实现的生信分析
准备好这两个GEO文件,就可以用来做后续的生信分析了。
利用GEO数据分析所需文件:临床数据表+基因表达谱
可以做差异基因分析、火山图、热图、临床特征分析等……

但GEO原始数据在使用时非常不便,需要进行后续处理:
1、 需要取出矩阵文件中的临床数据,转置处理;
2、 需提取出矩阵文件中的表达谱(探针名),随后通过与平台文件中的探针名进行匹配,将矩阵文件中的探针名转换为基因名。
所以喵学姐想给大家推荐一个非常好用的数据下载平台——桑格助手(http://sangerbox.com/Tool),可以直接下载GEO数据,并且数据文件都是已经处理好的,后续也可以直接在桑格助手平台在线分析生成结果图,非常方便,我们团队的大佬们日常也在用~

桑格助手的数据下载步骤:
1.打开桑格助手后在左侧⌈数据下载⌋栏目中的⌈GEO⌋,直接在搜索栏搜索数据集。

2.数据下载界面
下载临床数据表:

下载基因表达谱:

3.桑格助手下载好的文件:
都是已经成型的表达谱,非常整洁,可直接使用,不需要自己再去进行拆分或者匹配。

数据下载到这里就结束咯,将其转换成数据分析软件能够识别的信息,之后就可以制作出精美的分析图,开始妙手著文章了。
如果有小伙伴想跟着喵学姐继续复现结果图,记得蹲住我的下一篇教学~

参考文献:Feng S, Chen J, Qu C, Yang L, Wu X, Wang S, Yang T, Liu H, Fang Y, Sun P. Identification of Ferroptosis-Related Genes in Schizophrenia Based on Bioinformatic Analysis. Genes (Basel). 2022 Nov 20;13(11):2168. doi: 10.3390/genes13112168. PMID: 36421842; PMCID: PMC9690569.
>>本期学习福利<< 不想等待的同学们也可以报名我们的“生信训练营”直播课!由我们团队的生信大佬来手把手带教实操+课后答疑,感兴趣的同学们快来滴滴我!
👇 👇
