欢迎光临散文网 会员登陆 & 注册

TCGA分析的数据库——GEPIA数据库的使用教程!/SCI论文/科研/研究生/生信分析热点思路

2023-02-09 10:30 作者:尔云间  | 我要投稿



大家好,小云又来更新喽~今天给大家讲讲GEPIA数据库的使用教程吧!

1. GEPIA是什么?

(1) 中文名为:基于基因表达水平值的交互式分析平台,英文为:Gene Expression Profiling Interactive Analysis。

(2) GEPIA是在线生信分析工具,零代码操作。GEPIA中整理了每一个可检索的基因在不同肿瘤样本中的表达值,可以计算某个基因在某种肿瘤中的表达水平,还可以分析基因与肿瘤预后的关系、基因间的共表达等。

(3) 网址:http://gepia.cancer-pku.cn/ (GEPIA1.0版)  或 http://gepia2.cancer-pku.cn/ (GEPIA2.0版)。

2. GEPIA如何分析?

GEPIA1.0数据分析平台可分为3大模块:①肿瘤类型分析(Cancer Type Analysis);②单基因分析(Single Gene Analysis);③多基因分析(Multiple Gene Analysis)。

GEPIA2.0版多了一个模块:Custom Data Analysis

一、小云从单基因分析开始,详细讲讲各个部分的内容和结果

(1) 在搜索框中输入基因symbol或者基因名称,这里面输入了ETV6这个基因

得到页面如下:

右边的两个示例人左边是tumor,右边是normal,颜色深浅分别代表高低表达,可以看到这个基因在血液肿瘤中的表达较其他组织深,而在其他组织中肉眼分不清楚到底是tumor中表达高还是在normal中表达高。另外这个基因也会与其他数据库关联,点击右上角可以跳转到其他数据库查看。

页面下滑还有Dot plot图展示:

GEPIA可以TCGA数据库自己的肿瘤组织和正常组织进行比较,也可以匹配GTEX数据库进行比较,可以看到,这个基因在多种癌症中都有差异表达,高表达会标为红色,低表达的标为绿色。可以看出这个基因在急性髓性白血病(LAML,Acute Myeloid Leukemia)中表达最高。如果研究泛癌的话,这张图就可以放文章里面。

下面还有Bar plot图展示:

往下滑就是可以查看与这基因在同一数据集中的其他类似的基因:

2) Differential Genes中会列出肿瘤/正常组织中差异表达的基因或癌症类型的亚型,并绘制这些基因的染色体分布。

选择肿瘤类型、差异表达分析类型和基因分布:

基因在染色体上的分布:

(3) Expression DIY模块

1) profile可以自己定义查看某个基因在某些癌症中的表达量,选择肿瘤类型:

得到的结果:

2) Boxplot可以查看某个基因在某个癌症类型或某些癌症中的基因表达量,选择肿瘤类型:

正常对照数据可以选择TCGA中的或者TCGA和GTEx中的数据,得到结果:

Stage plot方框图可以分析一个基因在不同癌症阶段的表达情况,选择肿瘤类型

得到的结果:

4) Multiple Gene Comparison可以分析不同癌症类型中一个基因或多个基因的组织特异性表达:

得到的结果:

(4) Survial Analysis可以做生存分析

1) Survival Plots中输入基因名字和肿瘤类型,根据需要选择总生存期等:

得到的生存曲线:

2) Most Differential Survival Genes可以查看某个肿瘤类型中多个差异表达的生存基因:

3) Survival Map(GEPIA2.0版中有,所以用此版本展示)

可根据生存热图查看基因或亚型表达水平对预后的影响,输入基因和肿瘤类型后:


得到的结果:

热图显示了不同基因的对数比例(log10)。红色和蓝色方块分别表示风险较高和较低。带有框架的矩形在预后分析中意味着显著的不利或有利结果。

(5) Isoform Details可以描绘基因在多种癌症类型中的表达分布(小提琴图)和异构体 (条形图)。

1) Isoform Usage:

得到的结果:可以通过小提琴图看到基因的所有基因亚型在多种类型癌症中的表达情况。

2) Isoform Structure查询基因亚型结构

输入基因的isoform

(6) Correlation Analysis可以计算多种癌症类型和组织中两个基因或两个特征的相关性:

得到的结果:

(6) Similar Genes Detection可以搜索在不同癌症类型和组织中与某个基因或标记具有相似表达模式的基因。

得到的结果:

(7) Dimensionality Reduction可以根据一组基因的表达,对来自不同癌症类型和组织的样本进行PCA降维。

二、Cancer Type Analyses肿瘤类型分析,包括筛选与肿瘤关系、影响生存最密切的基因,适于筛选具有表达差异或者生存差异的基因,有两种分析:

三、Multiple Gene Analyses多基因分析:适于多基因综合分析,包括多基因对比、相关分析和PCA分析三种情况。

四、然后是Custom Data Analysis

(1)Cancer Subtype Classifier允许用户上传自己的数据,与肿瘤或来自TCGA或GTEx项目的正常数据进行差异分析

(2)0Expression Comparison可以上传用户自己的文件并选择一个癌症类型进行比较。你可以上传你的文件并选择一种癌症类型进行比较。在默认情况下,将根据所选癌症类型的中值执行分位数归一化。然后会话将一直保持,直到刷新窗口,因此您可以多次输入一个基因,而无需重新上传文件。上传的基因表达谱应为带有Hugo基因名称的TPM值。

好了,GEPIA数据库的使用教程就介绍到这里了,小伙伴们快使用起来,给你的文章加入结果图吧~也可以先通过分析筛选出感兴趣的基因,为自己的课题助力哦!

后续小云考虑再给大家介绍一下GEPIA中的另一功能--免疫细胞类型分析,可以用于探究肿瘤的免疫浸润分析(GEPIA2021新增)。


TCGA分析的数据库——GEPIA数据库的使用教程!/SCI论文/科研/研究生/生信分析热点思路的评论 (共 条)

分享到微博请遵守国家法律