从大数据角度揭示癌症相关基因发表趋势、通路和细胞系信息,助力科研设计

很多生物医学小伙伴们都在为实验和基金设计犯愁,该如何筛选疾病相关基因和细胞系呢,这些基因近年来的发表趋势如何呢?有什么功能呢?细胞系上千种,该如何选择最佳的呢?今天小编就给大家安利一个癌症基因与通路探索综合在线数据库:CGPE(Cancer Gene and Pathway Explorer,https://cgpe.soic.iupui.edu/)。该数据库集成了PubMed、GEO、TCGA、DepMap和CCLE等数据和分析工具,可以简化生物医学研究人员在研究初期收集、处理和分析公开数据的工作,有助于从大数据的角度揭示基因功能和细胞功能之间的潜在联系。
该数据库总共包含三个在线分析和可视化功能模块:Gene Hotlndex、OnlineGSEA和CellLine Search,涵盖了PubMed的出版趋势、从公共数据集推断人类基因(或基因集)的基因富集分析、以及基于靶向基因的细胞系搜索。下面,就由小编来给大家依次介绍下这些模块的具体用法吧。

Gene Hotlndex
Gene Hotlndex功能模块基于PubMed数据库对基因相关的出版物进行信息挖掘和分类,包括该基因的研究趋势、癌症类型相关性、相关基因以及在多种肿瘤中的发表论文数统计结果,可以帮助研究者更好地了解基因特异性出版物的趋势。
在主页面点击“Gene Hotlndex”,在该功能模块的主页面正中央可以看见有一个搜索框,在搜索框输入Gene Symbol和Ensembl ID进行查询。如下图所示:

点击Search后,可以看到基因的相关信息,包括完整的基因名、染色体位置以及外显子数目等。同时,还可以看到该基因每年发表的文章数目和发表数量的大致趋势,如下图所示:

在搜索结果的界面里还可以看到该基因在不同肿瘤类型中的研究情况。例如以PTEN为例,把光标放在肿瘤类型的柱子上,就会显示PTEN在该肿瘤中的研究情况,右边的方框里还会显示发表数量。如下图所示:

搜索结果的界面里还提供了与搜索基因相关的热度关联词以及常与该基因相研究的相关基因的发表数量,为生物医学研究的小伙伴提供了另类的研究视角。如下图所示:

OnlineGSEA
OnlineGSEA功能模块集成TCGA数据集、GEO数据集和GSEA算法,可以帮助生物医学研究人员基于数千名癌症患者的基因表达数据研究基因相关功能。
在主页面点击“OnlineGSEA”进入该功能模块界面。如下图所示:

点击Start Onlin-GSEA进行GSEA分析。左边Use Public Datasets分析框表示使用经过预处理好的公共数据集进行GSEA分析;右边Upload Your Own Data分析框表示上传自己的数据做GSEA分析。

点击Use Public Datasets后,进入该界面后,可以在右边栏选择相关数据集,在左边栏里可以看到该数据集的简介。选择合适的数据集后输入基因名后可以实现对GSEA的分析以及结果的可视化。如下图所示:

CellLine Search
CellLine Search功能模块提供了综合的癌症细胞系信息和直观的可视化。本功能模块包含11种肿瘤细胞系,结合了细胞系依赖性、基因表达以及通路活性热图,可以为相关实验最佳细胞株的选择提供一定的参考和帮助。
在主页面点击“CellLine Search”进入该能模块界面。点击Run CellLine Search进行搜索。如下图所示:

输入肿瘤类型、基因名和通路数据库进行搜索,如图所示:

本文以BRCA和PTEN为例,点击Show Cell Line Information,可以得到以下查询结果:
1)基因的基因信息,包含基因名、染色体等内容,如下图所示:

2)基因的dependency score和表达量。Dependency score越高表示细胞系特异性越高。如下图所示:

3)基因在不同细胞系中的研究情况。点击相关横柱就能得到基因在细胞系中详细信息。

4)通路活性热图。该图是基于GSVA计算出来的不同细胞系不同通路的活性。

以上就是对CGPE数据库功能的简单介绍,该数据库整体操作起来相对简单,还可以为大家设计实验和基金的时候提供基因、细胞系、通路等相关信息,大家赶紧实操起来,为研究设计增砖添瓦吧!
