超强高速下载利器:Aspera

最近小云在下载测序原始数据时,因为测序数据量多,而且服务器大多都在国外,所以下载速度特别慢,于是想要寻求高效下载的方法。经过一番搜寻,终于发现一款超强高速下载利器,它就是Aspera!
一、为什么选用Aspera
在我们下载测序数据的时候,通常使用 sra-tools 中的 prefetch 功能来下载测序数据。该工具可以通过 SRR 号从 NCBI 的 SRA 数据库中下载 SRA 文件。但是,使用这种方法下载速度会有所限制,并且需要额外的步骤将 SRA 文件转化为 FASTQ 文件。此外,该过程中还会消耗大量时间和计算资源。因此,我们选用Aspera软件,从EBI(European Bioinformatics Institute)的ENA(European Nucleotide Archive)数据库直接下载FASTQ格式文件。这样做的好处是使得下载速度有了很大程度上的提升。
二、Aspera的下载和安装
在这里,小果推荐使用conda安装,因为这是最为简单方便的方法,具体的步骤如下:
#激活conda环境
conda activate rna
#安装apsera
conda install -c hcc aspera-cli
按照上述的步骤,首先我们要先激活conda的环境,然后使用conda命令进行安装,如图所示,在出现了Proceed([y]/n)?,即是否继续安装时候,输入"y"字符,即可继续安装。

在这里需要注意的是安装完成后需打开提供的链接点击“submit”,同意软件条款。
之后,我们可以检查看看是否安装成功,通过输入ascp -h,有输出帮助文档的话,则代表安装成功

二、通过EBI搜索Aspera下载链接
在这里我们先打开ENA网站(https://www.ebi.ac.uk/ena/browser/home),它是一个欧洲核苷酸存储库,是世界上最大的公共核酸序列数据库之一。该数据库收集、存储和分发来自全球各地的核酸序列和相关的实验数据,包括DNA、RNA和原核生物的基因组数据、转录组数据等。
在如图的步骤一中搜索BioProject或SRR编号(如:PRJNA812958或SRR18231894),找到所需的项目或SRA数据,点击“Show Column Selection”勾选sra_aspera信息,然后直接点击复制SRA Aspera下载地址,或者在步骤二中下载TSV文件获取SRA Aspera下载地址,其中最后一列的红色箭头即为Aspera下载地址信息。


如图所示,我们可以看到下载好PRJNA812958的tsv文件

三、利用SRR号批量下载FASTQ数据或SRA数据
当然,如果已经获取到 SRR 号,我们还可以通过脚本直接下载对应的数据,无需访问 EBI 网站以获取链接。
首先我们先来看看如何下载单个数据:
ascp -vQT -l 50m -P33001 -k 1 -i ~/miniconda3/envs/rna/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/srr/SRR182/094/SRR18231894 ./
· ascp:Aspera Connect 工具的命令名称。
· -v:启用详细模式,显示实时状态和统计信息。
· -QT:禁用传输窗口,以提高文件传输速度。
· -l 50m:设置每个数据块的大小为 50 MB。
· -P33001:指定服务器的端口号为 33001。
· -k 1:开启加密传输模式,并使用默认的安全密钥。
· -i ~/miniconda3/envs/rna/etc/asperaweb_id_dsa.openssh:指定 Aspera Connect 工具所使用的私钥。
· era-fasp@fasp.sra.ebi.ac.uk:/vol1/srr/SRR182/094/SRR18231894:指定要下载的 SRA 文件所在的服务器地址和路径。
· ./:指定下载文件的保存路径,即当前目录。
在执行了以上命令之后,该命令就会使用 Aspera Connect 工具下载指定的 SRA 文件到当前目录中。在执行该命令前,需要确保已经在本地计算机上安装了 Aspera Connect 工具,并且具备访问远程服务器的权限。
接下来看看批量下载数据:
我们将搜索得到的Aspera下载地址(如上图中的tsv文件的高亮部分)存入“aspera_links.txt”文件。运行以下命令进行批量下载:
cat aspera_links.txt | while read x; do ascp -vQT -l 50m -P33001 -k 1 -i ~/miniconda3/envs/rna/etc/asperaweb_id_dsa.openssh era-fasp@$x ./; done
因此,在执行完该命令之后,将会循环读取 aspera_links.txt 文件中的每个链接,将链接作为服务器地址,然后使用 Aspera Connect 工具下载对应的 SRA 数据文件到当前目录中。
需要注意的地方是,我们在这里下载的SRA文件没有.sra后缀,格式转换前需要先改名:
cat SRR_Acc_List.txt | while read x; do mv $x $x.sra; done
在执行完该命令之后,将会循环读取 SRR_Acc_List.txt 文件中的每个文件名,将文件名添加 .sra 扩展名,并将原来的文件名改为新名称。

好啦,以上就是对Aspera的一个基础介绍啦!大家可以在自己的虚拟机或者服务器上面使用conda下载好Aspera,然后使用对应的指令对测序原始数据进行下载吧!相信效率和之前相比也会大幅度提升呢!

