GEO2R或R语言进行基因差异表达分析
一、相关概念
1. GEO
详见https://zhuanlan.zhihu.com/p/344426350
GEO Platform (GPL) 用户测序使用的芯片or平台;
GEO Sample (GSM) 用户提交给GEO的样本数据;
GEO Series (GSE) 一个完整的研究
一篇文章可以有一个或者多个GSE数据集;
一个GSE数据集里面可以有一个或者多个GSM样本;
每个数据集都有着自己对应的芯片平台,就是GPL。
2.CEL格式文件
.CEL文件是由Affymetrix DNA微阵列图像分析软件创建的数据文件。它包含从Affymetrix基因芯片上的“探针”提取的数据,可以存储数千个数据点,这可能会使它的文件大小变大。
.CEL 文件可以通过软件算法处理,并作为整体基因组实验的一部分在二维网络上可视化。
Affymetrix基因芯片是一种生物芯片,它包含一个对一个实验有效的微阵列。为了制造这些芯片,玻璃或硅载玻片上排列有探针,根据它们是否与原始DNA样本互补,探针将表达水平(强度)报告为完全匹配(PM)和不匹配(MM)值。这些值可用于研究DNA的改变,称为单核苷酸多态性(SNPs),用于人类和动物疾病的研究。
.CEL 文件格式有多个版本,使用不同的格式。例如,版本3使用ASCII文本格式,而版本4使用二进制格式。
注意:.CEL 文件需要相应的.CDF 文件,它是存储在.CEL 文件中的原始探测级数据的字典。MATLAB有一个名为affyread的内置函数,可以用来读取Windows版本软件中的.CEL 文件。
3.基因表达水平
一个基因表达水平的直接体现就是其转录本的丰度情况,转录本丰度越高,则基因表达水平越高。
RNA-seq分析中,可以通过定位到基因组区域或基因外显子区的测序序列(reads)的计数来估计基因的表达水平。Reads计数除了与基因的真实表达水平成正比外,还与基因的长度和测序深度成正相关。
为了使不同基因、不同实验间估计的基因表达水平具有可比性,引入了FPKM的概念。
FPKM 是每百万fragments中来自某一基因每千碱基长度的fragments数目,它同时考虑了测序深度和基因长度对fragments计数的影响,是目前最为常用的基因表达水平估算方法。
二、使用GEO2R分析差异表达
GEO2R是NCBI自带的傻瓜式分析工具。
在GEO页面最下方,点击【Analyze with GEO2R】即可快速进行分析。

选择分组信息后进行分析,即可出结果,有多种图像以及显著差异基因表格文件。
注意分组时需要保证只有一个变量。
详细操作见https://blog.csdn.net/weixin_43569478/article/details/108079349
以及https://zhuanlan.zhihu.com/p/323711071
GEO2R也是基于R的limma包进行分析的,在分组页面可以查看R脚本,还可以修改部分参数。
三、用R语言分析差异表达
有很多包可以使用,如DESeq2、limma、edgeR、WGCNA、lefse等等。
此处仅演示limma。