Instalando ferramentas de alinhamento local

De Lembiotech Wiki

Ir para: navegação, pesquisa

Intro

Tabela de conteúdo

1 BLAST
2 RDP Classifier
- 2.1 Classificar sequências:

BLAST

Nesta página estão o links para download de todos os programas/arquivos citados abaixo.

Em 'BLAST+ executables' vá em 'LATEST' e faça o download do executável apropriado para o seus sistema.

Caso algo dê errado veja os passos abaixo

Siga o passo-a-passo fornecido pelo NCBI

Faça o download da versão mais recente para windows;
Descompactar\Instalar em um caminho curto (C:\blast);
Propriedades do Meu Computador>Configurações Avançadas>Avançado> Variáveis Ambientais;
Adicionar ‘C:\Blast\bin’ a variável ‘Path’ (caso o instalador não tenha feito isso ou se você optou por usar a versão compactada);
Caso deseje usar o blast legacy, é necessário criar um arquivo chamado ncbi.ini em "C:\windows" com o seguinte conteúdo:

; Start the section for BLAST configuration
[BLAST]
; Specifies the path where BLAST databases are installed
BLASTDB=C:\\blast\\db
; Specifies the data sources to use for automatic resolution
; for sequence identifiers
DATA_LOADERS=none
; Specifies the BLAST database to use resolve protein sequences
BLASTDB_PROT_DATA_LOADER=nr
; Specifies the BLAST database to use resolve protein sequences
BLASTDB_NUCL_DATA_LOADER=nt
; Windowmasker settings (experimental)
[WINDOW_MASKER]
WINDOW_MASKER_PATH=C:\\blast\\db\\windowmasker
; end of file

Testando o Blast

Se a instalação deu-se corretamente, então basta abrir um console e digitar:

blastn -help (para testar a versão windows)

blastall (para testar a versão legacy)

O próximo passo é fazer o download dos banco de dados (preformatados) de interesse (NT para nucleotídeos, NR para proteínas, WGS para genomas completos..) e descompactá-los (todos os arquivos) dentro da pasta 'db' do diretório de instalação do BLAST.

Navegar até a pasta onde estão as sequências-alvo; então:

blastn -db db\nr -query mydata\A07.fasta -out mydata\A07blastout.txt
blastall -p blastp -d db\nr -i mydata\1.fasta -o mydata\1blastout.txt

Caso tenha alguma dúvida sobre a funcionalidade de um programa BLAST+ tente:

blastx -h
blastx -help

Para o blast legacy, basta executar o programa sem nenhum parâmetro especificado:

blastall

OBS: Para realizar qualquer alinhamento são necessárias todas as partes do banco de dados em questão; NR + NT equivalem a ~11gb atualmente (07.2011).

Ex.: arquivos 0 a 6 do banco de dados NR:

nr.00.tar.gz, nr.01.tar.gz […] nr.06.tar.gz

Outra possibilidade é a criação de um banco de dados apenas com sequências de interesse a partir de um arquivo fasta (ver abaixo).

Para a lista completa de comandos do blastall, consulte o NCBI!

Criando um banco de dados

Como parte do BLAST+ o programa makeblastdb.exe é responsável pela formatação de arquivos fasta no formato de banco de dados legível pelos programas BLAST:

makeblastdb.exe -help

[-title database_title][-parse_seqids] [-hash_index][-mask_data mask_data_files][-out database_name]
[-max_file_sz number_of_bytes][-taxid TaxID][-taxid_map TaxIDMapFile][-logfile File_Name][-version]

To make a blast database:

makeblastdb.exe -in some_fasta.fa -dbtype nucl -title some_name -out database

Bancos de dados BLAST do NCBI

Abaixo segue trechos do texto original sobre as DBs (databases) do NCBI:

Atualizando e mantendo DBs NCBI BLAST

DESCREVER updater_pl e dependencias perl

RDP Classifier

Para instalar o RDP Classifier localmente:

Faça o download da versão mais recente para windows;
Descompacte em um caminho curto (como 'C:\blast\rdp_classifier\);

Para instalar o RDP multiclassifier localmente:

Faça o download da versão mais recente para windows;
Descompacte em um caminho curto (como 'C:\blast\rdp_multiclassifier\);

Classificar sequências:

Abra uma janela do console e execute:

java -Xmx1g -jar rdp_classifier-2.3.jar -q mydata/1.fasta -o mydata/1out.txt -f fixrank

Conforme a entrada do manual do classifier referente ao formato dos arquivos de saída:

The command line parameters offers three different formats (all tab delimited) based on users' requests:
        allrank: outputs the results for all ranks applied for each sequence: seqname, orientation, taxon name, 
rank, confidence
        fixrank: only outputs the results for fixed ranks in order: no rank, domain, phylum, class, order, family, genus
        db: outputs the seqname, trainset_no, tax_id, confidence. This is good for storing in a database

Exemplo de classificação:

Input
>gi|295388554|gb|HM003925.1| Uncultured bacterium clone 2pse 16S ribosomal RNA gene, partial sequenceGCAACGCGAAGAACCTTACCAGGCCTTGACATGCAGAGAACTTTCCAGAGATGGATTGGTGCCTTCGGGAACTCTGACACAGGTGCTGCATGGCTGTCGTCAGCTCGTGTCGTGAGATGTTGGGTTAAGTCCCGTAACGAGCGCAACCCTTGTCCTTAGTTACCAGCACGTTATGGTGGGCACTCTAAGGAGACTGCCGGTGACAAACCGGAGGAAGGTGGGGATGACGTCAAGTCATCATGGCCCTTACGGCCTGGGCTACACACGTGCTACAATGGTCGGTACAGAGGGTTGCCAAGCCGCGAGGTGGAGCTAATCTCACAAAACCGATCGTAGTCCGGATCGCAGTCTGCAACTCGACTGCGTGAAGTCGGAATCGCTAGTAATCGCGAATCAGAATGTCGCGGTGAATACGTTCCCGGGCCTGTACACACCG

Output
gi|295388554|gb|HM003925.1| Bacteria domain 1.0 "Proteobacteria" phylum 1.0 Gammaproteobacteria class 1.0
Pseudomonadales order 1.0 Pseudomonadaceae family 1.0 Pseudomonas genus 1.0

Instalando ferramentas de alinhamento local

Tabela de conteúdo

BLAST

Caso algo dê errado veja os passos abaixo

Testando o Blast

Criando um banco de dados

Bancos de dados BLAST do NCBI

Atualizando e mantendo DBs NCBI BLAST

RDP Classifier

Classificar sequências:

Ferramentas pessoais

Espaços nominais

Variantes

Visualizações

Ações

Pesquisar

Navegação

Ferramentas