Instalando ferramentas de alinhamento local

De Lembiotech Wiki
(Diferença entre revisões)
Ir para: navegação, pesquisa
(BLAST)
(BLAST)
 
(13 edições intermediárias de um usuário não apresentadas)
Linha 1: Linha 1:
 +
[[Categoria:Bioinformática]]
 
Intro
 
Intro
  
 
==BLAST==
 
==BLAST==
 
[http://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=Download Nesta página] estão o links para download de todos os programas/arquivos citados abaixo.
 
[http://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=Download Nesta página] estão o links para download de todos os programas/arquivos citados abaixo.
 +
 +
Em 'BLAST+ executables' vá em 'LATEST' e faça o download do executável apropriado para o seus sistema.
 +
 +
===Caso algo dê errado veja os passos abaixo===
  
 
Siga o [http://www.ncbi.nlm.nih.gov/staff/tao/URLAPI/pc_setup.html passo-a-passo] fornecido pelo NCBI
 
Siga o [http://www.ncbi.nlm.nih.gov/staff/tao/URLAPI/pc_setup.html passo-a-passo] fornecido pelo NCBI
  
 
#Faça o download da [ftp://ftp.ncbi.nlm.nih.gov/blast/executables/LATEST versão mais recente] para windows;
 
#Faça o download da [ftp://ftp.ncbi.nlm.nih.gov/blast/executables/LATEST versão mais recente] para windows;
#Descompactar em um caminho curto (C:\blast);
+
#Descompactar\Instalar em um caminho curto (C:\blast);
 
#Propriedades do Meu Computador>Configurações Avançadas>Avançado> Variáveis Ambientais;
 
#Propriedades do Meu Computador>Configurações Avançadas>Avançado> Variáveis Ambientais;
#Adicionar ‘C:\Blast\bin’ a variável ‘Path’ (caso o instalador não tenha feito isso);
+
#Adicionar ‘C:\Blast\bin’ a variável ‘Path’ (caso o instalador não tenha feito isso ou se você optou por usar a versão compactada);
#Caso deseje usar o blast legacy, criar um arquivo chamado ''ncbi.ini'' em ''"C:\windows"'' com o seguinte conteúdo:
+
#Caso deseje usar o ''blast legacy'', é necessário criar um arquivo chamado ''ncbi.ini'' em ''"C:\windows"'' com o seguinte conteúdo:
  
 
<pre>
 
<pre>
Linha 30: Linha 35:
 
</pre>
 
</pre>
  
Segundo o manual do Blast legacy (com ele é possível utilizar os comandos BLAST originais/linux):
+
===Testando o Blast===
 
+
Setup steps for legacy blast:
+
 
+
    #The original standalone BLAST package based on NCBI C-toolkit (legacy blast) is deprecated. The installation of
+
legacy blast package for Windows differs from that for blast+ described above.
+
    #The legacy blast packages are located under a different ftp directory:
+
        :ftp://ftp.ncbi.nlm.nih.gov/blast/executables/release/LATEST/
+
    #The packages are named with this convention: blast-#.#.#-CHIP-win#.exe, where #.#.# is the version, CHIP is the chipset, and win# is the operating system (32 or 64 bits)
+
    #The packages do not contain installer function. It is recommended that the downloaded package be placed in a folder named blast-#.#.# (#.#.# to indicate version) first before extraction
+
    #Double clicking the package will execute the self-exacting function to install the package by re-creating bin, doc
+
and data subdirectories
+
    #Configuring the legacy blast installation is similar to blast+. However, a additional DATA environment variable
+
with the path to the "data" subdirectory as its value should be specified
+
 
+
 
+
===Testando Blast===
+
 
Se a instalação deu-se corretamente, então basta abrir um console e digitar:
 
Se a instalação deu-se corretamente, então basta abrir um console e digitar:
  
 
<pre>
 
<pre>
blastp -help (para testar a versão windows)
+
blastn -help (para testar a versão windows)
 +
 
 
blastall (para testar a versão legacy)
 
blastall (para testar a versão legacy)
 
</pre>
 
</pre>
Linha 75: Linha 65:
 
:Ex.: arquivos 0 a 6 do banco de dados NR:
 
:Ex.: arquivos 0 a 6 do banco de dados NR:
  
'''nr.00.tar.gz, nr.01.tar.gz […] nr.06.tar.gz'''
+
:'''nr.00.tar.gz, nr.01.tar.gz […] nr.06.tar.gz'''
  
 
Outra possibilidade é a criação de um banco de dados apenas com sequências de interesse a partir de um arquivo fasta (ver abaixo).
 
Outra possibilidade é a criação de um banco de dados apenas com sequências de interesse a partir de um arquivo fasta (ver abaixo).
Linha 129: Linha 119:
 
<pre>
 
<pre>
 
Input
 
Input
>gi|295388554|gb|HM003925.1| Uncultured bacterium clone 2pse 16S ribosomal RNA gene, partial sequence
+
>gi|295388554|gb|HM003925.1| Uncultured bacterium clone 2pse 16S ribosomal RNA gene, partial sequenceGCAACGCGAAGAACCTTACCAGGCCTTGACATGCAGAGAACTTTCCAGAGATGGATTGGTGCCTTCGGGAACTCTGACACAGGTGCTGCATGGCTGTCGTCAGCTCGTGTCGTGAGATGTTGGGTTAAGTCCCGTAACGAGCGCAACCCTTGTCCTTAGTTACCAGCACGTTATGGTGGGCACTCTAAGGAGACTGCCGGTGACAAACCGGAGGAAGGTGGGGATGACGTCAAGTCATCATGGCCCTTACGGCCTGGGCTACACACGTGCTACAATGGTCGGTACAGAGGGTTGCCAAGCCGCGAGGTGGAGCTAATCTCACAAAACCGATCGTAGTCCGGATCGCAGTCTGCAACTCGACTGCGTGAAGTCGGAATCGCTAGTAATCGCGAATCAGAATGTCGCGGTGAATACGTTCCCGGGCCTGTACACACCG
GCAACGCGAAGAACCTTACCAGGCCTTGACATGCAGAGAACTTTCCAGAGATGGATTGGTGCCTTCGGGAACTCTGACACAGGTGCTGCATGGCTGTCGTCAGCTCGTGTCGTGAGATGTTGGGTTAAGTCCCGTAACGAGCGCAACCCTTGTCCTTAGTTACCAGCACGTTATGGTGGGCACTCTAAGGAGACTGCCGGTGACAAACCGGAGGAAGGTGGGGATGACGTCAAGTCATCATGGCCCTTACGGCCTGGGCTACACACGTGCTACAATGGTCGGTACAGAGGGTTGCCAAGCCGCGAGGTGGAGCTAATCTCACAAAACCGATCGTAGTCCGGATCGCAGTCTGCAACTCGACTGCGTGAAGTCGGAATCGCTAGTAATCGCGAATCAGAATGTCGCGGTGAATACGTTCCCGGGCCTGTACACACCG
+
  
 
Output
 
Output

Edição atual tal como 11h07min de 26 de abril de 2012

Intro

Tabela de conteúdo

BLAST

Nesta página estão o links para download de todos os programas/arquivos citados abaixo.

Em 'BLAST+ executables' vá em 'LATEST' e faça o download do executável apropriado para o seus sistema.

Caso algo dê errado veja os passos abaixo

Siga o passo-a-passo fornecido pelo NCBI

  1. Faça o download da versão mais recente para windows;
  2. Descompactar\Instalar em um caminho curto (C:\blast);
  3. Propriedades do Meu Computador>Configurações Avançadas>Avançado> Variáveis Ambientais;
  4. Adicionar ‘C:\Blast\bin’ a variável ‘Path’ (caso o instalador não tenha feito isso ou se você optou por usar a versão compactada);
  5. Caso deseje usar o blast legacy, é necessário criar um arquivo chamado ncbi.ini em "C:\windows" com o seguinte conteúdo:
; Start the section for BLAST configuration
[BLAST]
; Specifies the path where BLAST databases are installed
BLASTDB=C:\\blast\\db
; Specifies the data sources to use for automatic resolution
; for sequence identifiers
DATA_LOADERS=none
; Specifies the BLAST database to use resolve protein sequences
BLASTDB_PROT_DATA_LOADER=nr
; Specifies the BLAST database to use resolve protein sequences
BLASTDB_NUCL_DATA_LOADER=nt
; Windowmasker settings (experimental)
[WINDOW_MASKER]
WINDOW_MASKER_PATH=C:\\blast\\db\\windowmasker
; end of file

Testando o Blast

Se a instalação deu-se corretamente, então basta abrir um console e digitar:

blastn -help (para testar a versão windows)

blastall (para testar a versão legacy)

O próximo passo é fazer o download dos banco de dados (preformatados) de interesse (NT para nucleotídeos, NR para proteínas, WGS para genomas completos..) e descompactá-los (todos os arquivos) dentro da pasta 'db' do diretório de instalação do BLAST.

Navegar até a pasta onde estão as sequências-alvo; então:

blastn -db db\nr -query mydata\A07.fasta -out mydata\A07blastout.txt
blastall -p blastp -d db\nr -i mydata\1.fasta -o mydata\1blastout.txt

Caso tenha alguma dúvida sobre a funcionalidade de um programa BLAST+ tente:

blastx -h
blastx -help

Para o blast legacy, basta executar o programa sem nenhum parâmetro especificado:

blastall

OBS: Para realizar qualquer alinhamento são necessárias todas as partes do banco de dados em questão; NR + NT equivalem a ~11gb atualmente (07.2011).

Ex.: arquivos 0 a 6 do banco de dados NR:
nr.00.tar.gz, nr.01.tar.gz […] nr.06.tar.gz

Outra possibilidade é a criação de um banco de dados apenas com sequências de interesse a partir de um arquivo fasta (ver abaixo).

Para a lista completa de comandos do blastall, consulte o NCBI!

Criando um banco de dados

Como parte do BLAST+ o programa makeblastdb.exe é responsável pela formatação de arquivos fasta no formato de banco de dados legível pelos programas BLAST:

makeblastdb.exe -help

[-title database_title][-parse_seqids] [-hash_index][-mask_data mask_data_files][-out database_name]
[-max_file_sz number_of_bytes][-taxid TaxID][-taxid_map TaxIDMapFile][-logfile File_Name][-version]

To make a blast database:

makeblastdb.exe -in some_fasta.fa -dbtype nucl -title some_name -out database

Bancos de dados BLAST do NCBI

Abaixo segue trechos do texto original sobre as DBs (databases) do NCBI:

Atualizando e mantendo DBs NCBI BLAST

DESCREVER updater_pl e dependencias perl

RDP Classifier

Para instalar o RDP Classifier localmente:

  1. Faça o download da versão mais recente para windows;
  2. Descompacte em um caminho curto (como 'C:\blast\rdp_classifier\);

Para instalar o RDP multiclassifier localmente:

  1. Faça o download da versão mais recente para windows;
  2. Descompacte em um caminho curto (como 'C:\blast\rdp_multiclassifier\);

Classificar sequências:

Abra uma janela do console e execute:

java -Xmx1g -jar rdp_classifier-2.3.jar -q mydata/1.fasta -o mydata/1out.txt -f fixrank

Conforme a entrada do manual do classifier referente ao formato dos arquivos de saída:

The command line parameters offers three different formats (all tab delimited) based on users' requests:
        allrank: outputs the results for all ranks applied for each sequence: seqname, orientation, taxon name, 
rank, confidence
        fixrank: only outputs the results for fixed ranks in order: no rank, domain, phylum, class, order, family, genus
        db: outputs the seqname, trainset_no, tax_id, confidence. This is good for storing in a database

Exemplo de classificação:

Input
>gi|295388554|gb|HM003925.1| Uncultured bacterium clone 2pse 16S ribosomal RNA gene, partial sequenceGCAACGCGAAGAACCTTACCAGGCCTTGACATGCAGAGAACTTTCCAGAGATGGATTGGTGCCTTCGGGAACTCTGACACAGGTGCTGCATGGCTGTCGTCAGCTCGTGTCGTGAGATGTTGGGTTAAGTCCCGTAACGAGCGCAACCCTTGTCCTTAGTTACCAGCACGTTATGGTGGGCACTCTAAGGAGACTGCCGGTGACAAACCGGAGGAAGGTGGGGATGACGTCAAGTCATCATGGCCCTTACGGCCTGGGCTACACACGTGCTACAATGGTCGGTACAGAGGGTTGCCAAGCCGCGAGGTGGAGCTAATCTCACAAAACCGATCGTAGTCCGGATCGCAGTCTGCAACTCGACTGCGTGAAGTCGGAATCGCTAGTAATCGCGAATCAGAATGTCGCGGTGAATACGTTCCCGGGCCTGTACACACCG

Output
gi|295388554|gb|HM003925.1| Bacteria domain 1.0 "Proteobacteria" phylum 1.0 Gammaproteobacteria class 1.0
Pseudomonadales order 1.0 Pseudomonadaceae family 1.0 Pseudomonas genus 1.0
Ferramentas pessoais
Espaços nominais
Variantes
Ações
Navegação
Ferramentas