本地Blast教程

blast+安装

  1. 通过wget 命令直接下载到本地服务器中
    wget ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-2.2.30+-x64-linux.tar.gz
    
  2. 对下载好的文件进行解压
    tar -zxvf  ncbi-blast-2.2.30+-x64-linux.tar.gz
    
  3. 解压之后,其实就可以使用绝对路径使用blast+了;怎么知道blast的绝对路径呢
    pwd ncbi-blast-2.2.30+-x64-linux.tar.gz/bin 
    ######例如我们得到这样的绝对路径##########
    /home/local/software/ncbi-blast-2.2.30+-x64-linux/bin/
    
    这条命令就得到了我们blast可执行程序所在的绝对路径,也就是在电脑上的哪个文件夹
  4. 有了绝对路径我们就可以告诉计算机到哪里去找balst程序来执行
    当执行blastn核苷酸比对程序时直接使用下面的命令就可以执行了
    /home/local/software/ncbi-blast-2.2.30+-x64-linux/bin/blastn
    

    添加可执行程序到环境变量中

  • 首先环境变量是啥?
    环境变量其实就是一个变量,这个变量里面包括一个叫$PATH的变量,里面存储着一些你想告诉计算机的东西。比如我想告诉计算机blast+的所有可执行的程序都放在哪个文件里面,我只需要在$PATH这个变量中加上blast/bin的文件夹;这样当我们在计算机的任何地方想要执行balst的时候只需要按下blastn或者其他命令就行了
    echo "export PATH=/home/local/software/ncbi-blast-2.2.30+-x64-linux/bin:\$PATH" >> ~/.bashrc
    source ~/.bashrc
    

    blast的使用

    构建本地blast库

    例如要构建核酸库,使用整个CDS构建的基因序列库
    makeblastdb -in "CDS文件" -dbtype "nucl" -parse_seqids -out "库名称的前缀"
    
    具体参数的意义可以使用 -help参数查看手册,我就不多做赘述
    同理构建蛋白库
    makeblastdb -in "氨基酸序列文件"  -dbtype "prot" -parse_seqids -out "库名称的前缀"
    

    进行序列比对

  • 首先我们需要准备比对的fasta文件,然后一条命令就可以了
    blastn -query "需要比对的文件" -db "上一步建好的库的目录加上/库前缀"  -evalue 1e-5 -outfmt 6 -out "输出文件"
    
  1. 这里的outfmt是输出文件的格式,包括1-10种格式
  2. 具体参数的意义,可以使用–help参数查看