欢迎光临散文网 会员登陆 & 注册

GEO2R或R语言进行基因差异表达分析

2022-08-04 13:34 作者:托芙  | 我要投稿

一、相关概念

1. GEO

详见https://zhuanlan.zhihu.com/p/344426350

GEO Platform (GPL)  用户测序使用的芯片or平台;

GEO Sample (GSM)  用户提交给GEO的样本数据;

GEO Series (GSE)  一个完整的研究

一篇文章可以有一个或者多个GSE数据集; 

一个GSE数据集里面可以有一个或者多个GSM样本; 

每个数据集都有着自己对应的芯片平台,就是GPL。


2.CEL格式文件

.CEL文件是由Affymetrix DNA微阵列图像分析软件创建的数据文件。它包含从Affymetrix基因芯片上的“探针”提取的数据,可以存储数千个数据点,这可能会使它的文件大小变大。

.CEL 文件可以通过软件算法处理,并作为整体基因组实验的一部分在二维网络上可视化。

Affymetrix基因芯片是一种生物芯片,它包含一个对一个实验有效的微阵列。为了制造这些芯片,玻璃或硅载玻片上排列有探针,根据它们是否与原始DNA样本互补,探针将表达水平(强度)报告为完全匹配(PM)和不匹配(MM)值。这些值可用于研究DNA的改变,称为单核苷酸多态性(SNPs),用于人类和动物疾病的研究。

.CEL 文件格式有多个版本,使用不同的格式。例如,版本3使用ASCII文本格式,而版本4使用二进制格式。

注意:.CEL 文件需要相应的.CDF 文件,它是存储在.CEL 文件中的原始探测级数据的字典。MATLAB有一个名为affyread的内置函数,可以用来读取Windows版本软件中的.CEL 文件。


3.基因表达水平

一个基因表达水平的直接体现就是其转录本的丰度情况,转录本丰度越高,则基因表达水平越高。

RNA-seq分析中,可以通过定位到基因组区域或基因外显子区的测序序列(reads)的计数来估计基因的表达水平。Reads计数除了与基因的真实表达水平成正比外,还与基因的长度和测序深度成正相关。

为了使不同基因、不同实验间估计的基因表达水平具有可比性,引入了FPKM的概念。

FPKM 是每百万fragments中来自某一基因每千碱基长度的fragments数目,它同时考虑了测序深度和基因长度对fragments计数的影响,是目前最为常用的基因表达水平估算方法。


二、使用GEO2R分析差异表达

GEO2R是NCBI自带的傻瓜式分析工具。

在GEO页面最下方,点击【Analyze with GEO2R】即可快速进行分析。

选择分组信息后进行分析,即可出结果,有多种图像以及显著差异基因表格文件。

注意分组时需要保证只有一个变量。

详细操作见https://blog.csdn.net/weixin_43569478/article/details/108079349 

以及https://zhuanlan.zhihu.com/p/323711071

GEO2R也是基于R的limma包进行分析的,在分组页面可以查看R脚本,还可以修改部分参数。


三、用R语言分析差异表达

有很多包可以使用,如DESeq2、limma、edgeR、WGCNA、lefse等等。

此处仅演示limma。


GEO2R或R语言进行基因差异表达分析的评论 (共 条)

分享到微博请遵守国家法律