欢迎光临散文网 会员登陆 & 注册

如此简单吗?一文拿捏GEO数据库芯片数据下载及差异分析

2023-10-08 09:18 作者:小云爱生信  | 我要投稿

尔云间  一个专门做科研的团队

欢迎点赞+收藏+关注

生信人R语言学习必备

立刻拥有一个Rstudio账号

开启升级模式吧

(56线程,256G内存,个人存储1T)

通过该推文,你将完全掌握GEO公共数据下载和差异分析,非常非常适合小白,如果你有数据挖掘的想法,接下来马上跟着小果开始今天的学习之旅,相信你会收获满满。

1. 如何获得相关疾病的GEO数据库ID

在进行实操之前,最重要的是要获得相关疾病的GEO数据库ID,如何获得呢?不慌!小果为大家介绍两种常用的方法。第一种方法是通过NCBI GEO DataSets 数据库下载,可以直接输入想查询的疾病名称就可以进行搜索获得相应的数据,网址为:https://www.ncbi.nlm.nih.gov/gds/?term=GSE70494

第二种方法是通过以发表的文献来查询相关疾病的GEO ID,小果是通过PubMed来查询,只需要输入相关疾病关键字和GEO就可以搜索到相关文章和GEO ID,该网址为:https://pubmed.ncbi.nlm.nih.gov/?term=gene+family

 

一般通过这两种方法就可以获取自己想要的GEO ID,通过小果的方法获得ID后,就可以跟着小果开始今天的实操分析啦,其实就是这么简单!!!哈哈哈哈哈。。。。。。。。

2. 导入需要的R包

3. 从GEO下载表达矩阵和芯片注释注释文件

#小果来画重点啦!不同的测序平台芯片注释信息可能有差异奥,在提取注释信息的时候要根据不同平台格式灵活处理,本实例数据测序平台为GPL3912,可以点击查看注释信息内容。点击GPL3912,就可以看到芯片完整注释信息:



 4.把表达矩阵的探针ID换成Gene Symbol

5.按照实验设计整理分组信息

#分组矩阵(design)已构建好

6.利用limma 包进行差异分析

 

#把全部基因的limma分析结果保存到文件


7.结果文件

1. gplTOgene.csv

该结果文件为探针id对应的Gene symbol和entrez_id,第一列为探针ID,第二列为Gene symbol,第三列为entrez_id。


2. easy_input_expr.csv

该结果文件为处理好的表达矩阵文件,行名为Gene symbol,列名为对应的样本名。


 3. easy_input_pheno.txt

该结果文件为提取的样本分组文件。

 4. easy_input_limma.csv

该结果文件为通过limma包进行差异分析结果文件,行名为Gene symbol,第一列为log2FC,第四列为Pvalue值,第五列为矫正后的Pvalue值。

今天小果的分享就到这里啦!如果小伙伴有其他数据分析需求,可以尝试本公司新开发的生信分析小工具云平台,零代码完成分析,非常方便奥,

云平台网址为:http://www.biocloudservice.com/home.html,

包括了GEO数据下载(http://www.biocloudservice.com/371/371.php),limma+gsva(http://www.biocloudservice.com/371/371.php)等小工具,欢迎大家和小果一起讨论学习哈!!!!

“生信果”,生信入门、R语言、生信图解读与绘制、软件操作、代码复现、生信硬核知识技能、服务器、生物信息学的教程,以及基于R的分析和可视化等原创内容,一起见证小白和大佬的成长。

如此简单吗?一文拿捏GEO数据库芯片数据下载及差异分析的评论 (共 条)

分享到微博请遵守国家法律