三代全长转录组数据可变剪切分析
尔云间 一个专门做科研的团队


1、所需软件安装 代码如下
conda install -c bioconda histat2
conda install -c bioconda gamp
conda install -c bioconda gffread
conda install -c samtools
#sratoolkit手动安装#
mkdir software
wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/3.0.2/sratoolkit.3.0.2-ubuntu64.tar.gz
tar -zxvf sratoolkit.3.0.2-ubuntu64.tar.gz
#添加环境变量到.bashrc
export PATH=/media/desk16/wangd/softwore/sratoolkit.3.0.2-ubuntu64/bin:$PATH
source .bashrc
2、二代转录组原始数据下载和三代参考转录组和转录亚型下载(数据下载有点慢) 代码如下
mkdir rawdata
Prefetch ERR706814 -O rawdata
fasterq-dump -3 -O raw-data raw-data/ ERR706814/ERR706814.sra


3、流程分析 代码如下
3.1 首先建立参考转录组索引
gmap_build -D index -d leaf leaf.UniTransModel.fa
3.2 将转录亚型回帖到参考转录组上,获取GFF3文件
gmap -t 10 -D index -d leaf -f gff3_gene leaf.UniTransModel.isoforms.fa > leaf_gene.gff3
3.3 将GFF3转成GTF格式
gffread leaf_gene.gff3 -T -o leaf_gene_tmp.gtf
sed -n '/exon/p' leaf_gene_tmp.gtf > leaf_gene.gtf
rm leaf_gene_tmp.gt
4、构建bam 代码如下
4.1 构建索引
hisat2-build -p 20 leaf.UniTransModel.fa index/leaf.UniTransModel
4.2 二代转录组数据进行比对,生成bam文件
hisat2 -x index/leaf.UniTransModel -1 raw-data/ERR706814.sra_1.fastq -2 raw-data/ERR706814.sra_2.fastq -p 100 | samtools sort -@ 50 > leaf_sort.bam &
4.3 去除低质量比对reads
samtools view -@ 10 -b -q 30 leaf_sort.bam > leaf_flt.bam
5、结果文件 代码如下
最终生成可视化展示的sashimi_flt.bam
sashimi.gtf

注:最后可变剪切分析展示可以利用IGV软件进行可视化。
关注小果,小果将会持续为你带来更多生信干货哦。
推荐阅读: