安装生信软件及数据库
上节课我们初步学会了如何使用Linux系统,一些基本的命令以及参数,那么这节课开始学会如何安装生信分析的软件
软件安装的步骤包括:下载→配置→编译→安装。Bioconda是一款类似AppStore的生物信息软件管理工具,可以实现软件的自动化安装全过程。建议首先选择自动化安装,如果不成功再手动安装:Bioconda自动安装→下载预编译版本→手动安装。
软件的几种安装方式
1、二进制:下载之后,可直接运行;
2、需要自行编译;
3、解决环境依赖之后编译;
4、利用bioconda安装;
5、利用docker安装;
6、利用yum,apt安装;
1.1使用apt安装
1.2手动安装
1、安装预编译版本
如果自动化安装不成功,首选安装作者预先编译的版本。选择时候自己操作系统的版本,通常下载后就可以直接使用。
2、从源代码安装
不同软件安装方法不同,先看说明文件常用:
1.3配置环境变量 PASH
bashrc配置文件非常重要,相当于图形化界面的设置选项。很多时候,命令找不到,缺少XXX,都可能与这个有关。如果bashrc修改错误,会造成严重的影响。
bashrc:为每一个运行bash shell的用户执行此文件。当bash shell被打开时,该文件被读取,其中rc是“run configure”的简写。
1、Alias部分
例如“less -S”,每次要敲七个字符,简写成 le,两个字符就够了。
2.PS 部分
修改命令行的小标标~
修改前:

修改后:

3.export 部分
export 是最重要的一部分,这部分内容是修改系统一些默认变量的行为,例如敲 env 命令会显示出当前账户所有环境变量,其中比较重要的就是 PATH 变量,export 之后,每次登录之后,系统会重新配置默认环境变量。除了 PATH,也可以修改 perl 模块目录,python 模块目录以及其他一些配置等。
4.PATH 部分
PATH 变量是 Linux 系统默认程序路径,当在命令行敲命令时,系统会从 PATH 变量中设定的目录中查找程序,which 命令搜索时也会从 PATH 变量中进行搜索。Linux 系统中常见的软件找不到“command not found...”多是因为 PAHT 变量没有设置成功引起的。PATH 变量可以极大的方便软件的使用,无需使用全路径,在任何目录下直接使用软件名即可运行,否则需要一直使用全路径。
最后的最后,大家修改完bashrc后记得刷新一下,同时也要对bashrc做好备份哦~
1.4使用conda自动安装
1、安装conda
2、配置chanels
chanels理解成软件仓库。conda默认是不包含生物信息软件仓库的,所以需要添加。
方法是修改 ~/.condarc
3.使用 conda安装软件
4.虚拟环境
有的软件在安装的时候,会有环境冲突,比如 orthofinder依赖python2.7,但是 conda主环境安装的是 python3.7。这种情况可以新建一个新的环境。
2.数据库下载
使用 Linux 系统下的下载命令,直接下载到服务器里。Linux 命令行下载的工具其实有很多,系统自带 wget 和 curl 命令,也可以自行下载 axel 等命令。wget 非常方便,给定链接地址,就可以直接 wget 下载了。wget 和 curl 都支持 http,ftp 等多种协议。
2.ftp 下载
FTP 是 File Transfer Protocol(文件传输协议)的英文简称,相比于 http 协议,更加稳定,传输速度也更快。很多网站提供 ftp 协议的数据下载。
ncbi 的 ftp 地址为:ftp://ftp.ncbi.nlm.nih.gov/embl 的 ftp 地址为:ftp://ftp.ensembl.org/pub/
3.高速下载
Asprea 是一款非常神奇的工具,它可以极大的提高数据传输的效率。
4.批量下载序列:Batchentrez
总之,自己需要什么数据库就去下载对应的数据。例如:
NT库:ftp.ncbi.nlm.nih.gov:/blast/db/nt*.tar.gz
NR库:ftp.ncbi.nlm.nih.gov:/blast/db/nr*.tar.gz
COG/KOG:ftp://ftp.ncbi.nlm.nih.gov/pub/COG/
Swissprot:ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/swissprot.gz
等等
