生信经典数据库课程包一次性统统送给你!
“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。在生物学领域,大数据的整合分析更是亟不可待。在大数据时代,如何充分利用数据,让数据不再沉睡?如何结合自己的数据和已有的数据比较分析、充分挖掘数据的意义?如何基于临床研究设计科研课题,整合多组学数据,形成科研论文?
这些问题都需要靠生物信息学来解决。生信学习入门不易,网上能够找到的资料支离破碎,需要耗费大量时间自学才能领悟一二,这显然不符合医生科研精力不足的现状。为此,解螺旋制作了生信经典数据库课程包,手把手教你如何利用生信工具产生课题的火种。
本课程包含有4部分内容,从肿瘤经典数据库oncomine和TCGA入门,这两个操作比较简单。接下来学习高通量基因表达数据库GEO进阶,最后学习R语言,走上码农的道路达到统计作图大成之境。
Oncomine



Oncomine是目前世界上最大的癌基因芯片数据库和整合数据挖掘平台,旨在挖掘癌症基因信息。到目前为止,该数据库已经收集了715个基因表达数据集,86733个癌症组织和正常组织的样本数据。Oncomine拥有最全的癌症突变谱、基因表达数据以及相关的临床信息,可利于发现新的生物标记物或新的治疗靶点。
Oncomine整合了文献及芯片数据库中高质量标准的肿瘤组织芯片结果,14个注释数据库的分析,并且oncomine里的数据会随着这些数据可的跟新而及时跟新。通过oncomine网站分析,可以得到差异表达的结果,共表达分析,富集分析,相互作用的网络、及meta分析。
本Oncomine教程一共48页,涵盖了基因差异表达分析,临床相关性分析和多基因共表达分析三种常见应用,按步骤图文并茂解释,堪称傻瓜式教程,不怕你学不会,只怕你不开始。
TCGA
对于做肿瘤研究的小伙伴来说,TCGA数据库有大名不可不谓如雷贯耳。其中收录了超过11000位患者、33种肿瘤及配对正常组织的高通量芯片或测序数据,包括10种罕见肿瘤,无疑是一座巨大宝库。
TCGA数据库数据涉及到相关癌症基因的mRNA/microRNA表达谱、拷贝数变异、突变等大量的生物信息学数据。TCGA网络中,数据类型包括拷贝数结果、杂合缺失、SNP等。



虽然TCGA只提供癌症基因表达谱,不能够提供相关分析,但仍有其他众多工具可以实现各种各样的研究需求。而这些TCGA的检索技巧、初步的Analysis、数据下载和拓展应用,都融和在这份89页的解螺旋单元课PPT里~
GEO
Gene Expression Omnibus(GEO)是一个储存高通量功能基因组学数据的数据库,这些高通量功能基因组学数据来自芯片和新一代的测序仪得到的试验数据。GEO除了收录基因表达数据之外还收录其它数据,例如基因组拷贝数变异数据、基因组-蛋白相互作用数据以及基因组甲基化数据等。
GEO数据库被分为两个部分收录在Entrez中,分别是GEO Profiles数据库(它负责收录一个基因在一次试验中的定量基因表达数据)和GEO DataSets 数据库(收录整个试验的数据)。目前,GEO数据库共收录了由世界各地的实验室提交的超过1871121个样本试验数据,16088个芯片平台记录,71339种实验项目以及3848种研究类型的基因表达谱数据。


R语言
R语言能够“无中生有”通过挖掘和统计分析获得可用于发表SCI的研究数据,故追求者众。掌握此技能,年输出SCI过3篇并不罕见。如此给力的科研技能,当然不是随随便便就能学会的。
市面上几千块的生信培训班,听的时候感觉都懂,自己实操每一步都会卡壳。钱多钱少,并不是能否学会的衡量标准。而这分精美详细的图文学习手册,汇总了软件安装、基本概念和语法、操作技巧和注意事项等基础知识,供初入门的小伙们随时查阅。


同时,教程里还整理了一套R语言分析TCGA部分数据的案例,从入门到实操一脉贯通。更重要的是提供“傻瓜式代码”。 R语言学习路径上95%的坑,我们都解决过了。
五、领取方式
①转发本条动态到朋友圈
②报名免费训练营,营内学习领取 报名戳: