GEO数据库保姆级入门实操教学，建议收藏

2023-06-07 19:38 作者:善木科研 0人读过 | 我要投稿

最近一直在给大家分享优秀的文献思路解读，相信大家看了这么多idea，一定也有了自己文章的想法吧~

但是呢，有想法是一方面，而能不能实现又是另一方面。

今天喵学姐就来手把手教教大家生信分析如何迈出第一步——数据获取。

看完这篇教程，你也可以开始动手下载和整理自己想要的数据，接着做出属于自己的精美结果图啦！

这次就用之前讲过的一篇非肿瘤思路文献来举例，

新来滴宝宝们可以点下面的链接先看一下整体思路解读，看过的老朋友们也可以来复习一下：4分＋非肿瘤纯生信，GEO数据集+铁死亡+cytoscape调控网络+miRNA+转录因子，这思路我都想抄作业了

Title: Identification of Ferroptosis-Related Genes in Schizophrenia Based on Bioinformatic Analysis

标题：基于生物信息学分析的精神分裂症铁死亡相关基因鉴定

期刊：Genes

此篇文献是精神分裂症相关的非肿瘤疾病生信分析。

>>接下来一起跟着我看看该如何下载作者的数据吧<<

作者使用的是GEO数据库中GSE27383数据集和GSE21138数据集的表达谱＋临床数据。

数据库的使用

GEO数据库（Gene Expression Omnibus，基因表达综合数据库）

网址：https://www.ncbi.nlm.nih.gov/geo/

▶是由美国国立生物技术信息中心（National Center for Biotechnology Information，NCBD于2000年创建并维护至今的高通量基因表达数据库。

▶是一个国际公共存储库，收录并整理了全球范围内研究工作者上传的微阵列芯片、二代测序以及其他形式的高通量基因组数据，并提供免费下载。

你想要的数据，这里几乎都有！

Step 1. 搜索关键词

我们可以直接在GEO数据检索界面键入关键词，也可以点击图中1和2处进行数据检索。

这里以“Schizophrenia”为例，直接在搜索框中进行输入，出现如下结果：

第一行为GEO DataSets数据，第2行为GEO Profiles数据。

这是两种GEO数据的存储形式：

1. GEO DataSets ：以数据集为单位，存储同一个实验中所有样本的数据。

（我们所需要的大部分数据集通常都使用这种）

2.GEO Profiles ：以基因为单位，存储基因在数据集中的表达谱。

（使用较少）

此处我们需要一次实验中所有的数据，因此点击5284可直接进入GEO数据检索界面。

Step 2. 定义数据集属性：

1.Series：科研工作中是最为常用的数据层级。

2.Platforms：高通量实验检测所用工具（哪个公司哪款产品），编号GPL开头，例如GPL55188。

Step 3. 筛选所需数据集

根据关键词搜索，会有很多数据集被检索到，建立有效的筛选机制，能够帮助我们缩小搜寻范围。

一般通用的筛选条目有如下三个，可依次选中。

1处是数据集类型，选Series。

2处是数据类型，限定为基因表达谱数据集。

3处是组织来源，一般选择人类。

通过关键词检索出来的数据集数量庞大，我们也可以设定一些“条件”，过滤掉一些无效数据集。

数据集选择原则：

1、题名：符合所研究主题

2、样本量：不宜过小

Step 4. 数据集里包含的信息：

1.研究设计：可判断该数据集中样本是否适合本研究使用（分组信息、临床特征、样本量等）

2.PMID编号：在使用GEO数据时，需要注明引用该数据文献的PMID编号！

3.平台文件：数据检测平台，含有探针及基因名的注释文件（需下载）

Sample：实验中的样本分组信息，每一个样本都会分配一个号码。编号以GSM开头

4.GEO2R：GEO自带的分析工具

5.矩阵文件：含有患者临床信息、基因表达谱（需下载，分析所需）

原始数据存储在附录，处理后数据则存储在GEO中

数据下载

Step 5.下载及查看GEO数据集信息

确定了数据集后，就可以开始下载了。

我们这一步需要下载两个文件：

（1）GPL平台注释文件（2）表达矩阵“series matrix”文件。

PS：下载平台注释文件之前，我们需要点击该GPL文件，浏览里面的信息，查看是否有Gene Symbol标识；若无Gene Symbol标识，则表示该平台无基因的ID注解，我们无法对ID进行基因名的转换。

因此，查找数据集时除了样本信息要符合我们的需求外，还要确保能得到我们的数据。

平台在线注释文件（下载）：

矩阵文件（下载）：

以文献所用数据集GSE27383和GSE21138为例

GSE27383

Marked Reduction of AKT1 Expression and Deregulation of AKT1-associated Pathways in Peripheral Blood Mononuclear Cells of Schizophrenia Patients

该数据集包含样本：

30例：正常对照组

22例：急性入院，严重精神病性精神分裂症患者

21例：缓解期精神分裂症患者

GSE21138

Gene Expression Profiles in BA46 of Subjects with Schizophrenia and Matched Controls

该数据集包含样本：

30例：精神分裂症患者

29例：年龄、性别匹配的对照组

Step 6. 分析所用数据整合

利用GEO数据分析时，需要准备好两个文件：临床数据表+基因表达谱

准备基因表达谱，需要下载2个文件：平台文件+矩阵文件

平台文件：探针名+对应的基因名

该文件中第1列为基因的ID，文件也包含了相关ID的基因名，即Gene Symbol。

矩阵文件：临床特征数据+探针名的表达谱

PS：红框以上数据为数据集的临床特征资料，因此这部分数据需单独提取出来进行保存，并进行转置，使得文件内容格式为行为样本名，列为变量，作为后续分析使用的临床数据表。

红框以下数据为数据集的基因表达谱。所示内容为基因的ID名称，可以看出，在基因表达谱部分，“行”是基因的样本ID编号，“列”是表达数据的矩阵。但矩阵不含基因名，不方便我们进行后续分析。

因此，我们需要对红框所列数据进行替换，将基因ID替换为我们熟悉的基因名。红框内的文件需转换成基因名。

Step 7. 平台文件+矩阵文件结合

后续操作，我们需要利用平台文件中的ID与矩阵文件中的ID进行匹配，将Gene Symbol列提取至矩阵文件，替换探针名，准备基因表达谱。

匹配后，即可得到“行”是基因名，“列”是表达值的基因表达谱啦。

从这个表达谱中，就可以提取自己感兴趣的基因表达值做后续分析。

在矩阵文件中，探针名A列后插入一列B，作为基因名匹配列。

点击B1单元格，使用Vlookup函数进行匹配：

第1行：选定共同的变量，进行匹配

此处2个文件中共同变量为ID探针名，因此此处选择探针的格子A65

第2行：要用共同变量匹配的含基因名的文件，在哪个区域

此处带基因名的文件在GPL570-55999平台文件中，共同变量在A列，基因名在K列，都需要列入，因此选定A-K区域

第3行：基因名所在列数

此处基因名在K列，为第11列，填11

第4行：是否精确匹配，0：精确匹配；1：模糊匹配

此处我们为精确匹配，填0

按共同变量ID探针名匹配好的基因表达谱如下，可看出每个探针ID均已匹配好相应的基因名。

Step 8. 可实现的生信分析

准备好这两个GEO文件，就可以用来做后续的生信分析了。

利用GEO数据分析所需文件：临床数据表+基因表达谱

可以做差异基因分析、火山图、热图、临床特征分析等……

但GEO原始数据在使用时非常不便，需要进行后续处理：

1、需要取出矩阵文件中的临床数据，转置处理；

2、需提取出矩阵文件中的表达谱（探针名），随后通过与平台文件中的探针名进行匹配，将矩阵文件中的探针名转换为基因名。

所以喵学姐想给大家推荐一个非常好用的数据下载平台——桑格助手（http://sangerbox.com/Tool），可以直接下载GEO数据，并且数据文件都是已经处理好的，后续也可以直接在桑格助手平台在线分析生成结果图，非常方便，我们团队的大佬们日常也在用~

桑格助手的数据下载步骤：

1.打开桑格助手后在左侧⌈数据下载⌋栏目中的⌈GEO⌋，直接在搜索栏搜索数据集。

2.数据下载界面

下载临床数据表：

下载基因表达谱：

3.桑格助手下载好的文件：

都是已经成型的表达谱，非常整洁，可直接使用，不需要自己再去进行拆分或者匹配。

数据下载到这里就结束咯，将其转换成数据分析软件能够识别的信息，之后就可以制作出精美的分析图，开始妙手著文章了。

如果有小伙伴想跟着喵学姐继续复现结果图，记得蹲住我的下一篇教学~

参考文献：Feng S, Chen J, Qu C, Yang L, Wu X, Wang S, Yang T, Liu H, Fang Y, Sun P. Identification of Ferroptosis-Related Genes in Schizophrenia Based on Bioinformatic Analysis. Genes (Basel). 2022 Nov 20;13(11):2168. doi: 10.3390/genes13112168. PMID: 36421842; PMCID: PMC9690569.

>>本期学习福利<< 不想等待的同学们也可以报名我们的“生信训练营”直播课！由我们团队的生信大佬来手把手带教实操+课后答疑，感兴趣的同学们快来滴滴我！

👇 👇

标签：临床医生知识医学生 SCI GEO 数据库论文干货生信生信分析

GEO数据库保姆级入门实操教学，建议收藏

GEO数据库保姆级入门实操教学，建议收藏的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

GEO数据库保姆级入门实操教学，建议收藏

本文作者的其他文章

GEO数据库保姆级入门实操教学，建议收藏的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

GEO数据库保姆级入门实操教学，建议收藏的评论 (共条)