尔云间生信代码|TCGA数据获取有困难,不会预处理,学起来
科研有捷径,输入代码,一键获取科研成果!就是这么省事,来具体看下有多方便!
搜索http://985.so/a9kb查看全部代码(目前共计50+持续新增中),也可以点击右侧【目录】,可以看到更多有趣的代码;真香提示:文末可以知道如何获取代码~
TCGA数据下载的方式有很多,本次我们利用UCSC Xena数据库下载数据。该平台内置了一些公共数据集,比如来自TCGA, ICGC等大型癌症研究项目的数据,不仅可以对数据进行分析,而且还提供了对应文件的下载功能。
1. 网页打开界面如下,选择datasets,里面有很多数据集

2. 打开后,可以看到各种UCSC数据库提供的数据集,从中选择所需的肿瘤

3. 如本次选择使用的为STAD数据

4. 选择后即可看到相应的转录组和临床等信息,如红框标出的依次为FPKM转录组数据、样本临床信息、样本预后信息,依次打开即可下载

5. 接着我们选择HTSeq-FPKM,这里可以看到值log2(fpkm+1),为什么加一呢,因为很多基因的表达值是0,无法取log。

下载下来,解压后打开是这个样子

6. 可以看到,我们需要对ID进行转换,转换的方法也有很多,有R包,在线数据库。小工具等,这里我们使用数据库自带的注释文件来进行转换

下载下来,解压后打开是这个样子

现在我们就可以利用R语言读取数据,对ID进行转换,得到我们的分析数据了
下面是代码中数据处理的部分结果





免疫浸润也是近几年肿瘤研究的一个重要方向。现在有了TCGA肿瘤数据,如何进行免疫浸润分析?热门文献中免疫浸润分析是什么样的?我们自己能不能做得出来?免疫浸润分析的相关工具和数据库到底有哪些,又该如何使用?
如需代码及示例数据等文件,请扫码聊天框回复 “B23”领取!
