Instalando ferramentas de alinhamento local
(→BLAST) |
|||
(29 edições intermediárias de um usuário não apresentadas) | |||
Linha 1: | Linha 1: | ||
+ | [[Categoria:Bioinformática]] | ||
Intro | Intro | ||
==BLAST== | ==BLAST== | ||
[http://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=Download Nesta página] estão o links para download de todos os programas/arquivos citados abaixo. | [http://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=Download Nesta página] estão o links para download de todos os programas/arquivos citados abaixo. | ||
+ | |||
+ | Em 'BLAST+ executables' vá em 'LATEST' e faça o download do executável apropriado para o seus sistema. | ||
+ | |||
+ | ===Caso algo dê errado veja os passos abaixo=== | ||
Siga o [http://www.ncbi.nlm.nih.gov/staff/tao/URLAPI/pc_setup.html passo-a-passo] fornecido pelo NCBI | Siga o [http://www.ncbi.nlm.nih.gov/staff/tao/URLAPI/pc_setup.html passo-a-passo] fornecido pelo NCBI | ||
#Faça o download da [ftp://ftp.ncbi.nlm.nih.gov/blast/executables/LATEST versão mais recente] para windows; | #Faça o download da [ftp://ftp.ncbi.nlm.nih.gov/blast/executables/LATEST versão mais recente] para windows; | ||
− | #Descompactar em um caminho curto (C:\blast); | + | #Descompactar\Instalar em um caminho curto (C:\blast); |
#Propriedades do Meu Computador>Configurações Avançadas>Avançado> Variáveis Ambientais; | #Propriedades do Meu Computador>Configurações Avançadas>Avançado> Variáveis Ambientais; | ||
− | #Adicionar ‘C:\Blast\bin’ a variável ‘Path’ (caso o instalador não tenha feito isso); | + | #Adicionar ‘C:\Blast\bin’ a variável ‘Path’ (caso o instalador não tenha feito isso ou se você optou por usar a versão compactada); |
− | #Caso deseje usar o blast legacy, criar um arquivo chamado ncbi.ini em 'C:\windows' com o seguinte conteúdo: | + | #Caso deseje usar o ''blast legacy'', é necessário criar um arquivo chamado ''ncbi.ini'' em ''"C:\windows"'' com o seguinte conteúdo: |
<pre> | <pre> | ||
Linha 30: | Linha 35: | ||
</pre> | </pre> | ||
− | + | ===Testando o Blast=== | |
+ | Se a instalação deu-se corretamente, então basta abrir um console e digitar: | ||
+ | |||
<pre> | <pre> | ||
− | + | blastn -help (para testar a versão windows) | |
− | + | blastall (para testar a versão legacy) | |
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
</pre> | </pre> | ||
− | + | O próximo passo é fazer o [ftp://ftp.ncbi.nlm.nih.gov/blast/db/ download dos banco de dados] (preformatados) de interesse (NT para nucleotídeos, NR para proteínas, WGS para genomas completos..) e descompactá-los (todos os arquivos) dentro da pasta 'db' do diretório de instalação do BLAST. | |
− | + | ||
− | + | ||
− | + | ||
− | O próximo passo é fazer o download dos banco de dados (preformatados) de interesse (NT para nucleotídeos, NR para proteínas, WGS para genomas completos..) e descompactá-los (todos os arquivos) dentro da pasta 'db' do diretório de instalação do BLAST. | + | |
Navegar até a pasta onde estão as sequências-alvo; então: | Navegar até a pasta onde estão as sequências-alvo; então: | ||
+ | <pre> | ||
blastn -db db\nr -query mydata\A07.fasta -out mydata\A07blastout.txt | blastn -db db\nr -query mydata\A07.fasta -out mydata\A07blastout.txt | ||
blastall -p blastp -d db\nr -i mydata\1.fasta -o mydata\1blastout.txt | blastall -p blastp -d db\nr -i mydata\1.fasta -o mydata\1blastout.txt | ||
+ | </pre> | ||
Caso tenha alguma dúvida sobre a funcionalidade de um programa BLAST+ tente: | Caso tenha alguma dúvida sobre a funcionalidade de um programa BLAST+ tente: | ||
+ | <pre> | ||
blastx -h | blastx -h | ||
blastx -help | blastx -help | ||
+ | </pre> | ||
Para o blast legacy, basta executar o programa sem nenhum parâmetro especificado: | Para o blast legacy, basta executar o programa sem nenhum parâmetro especificado: | ||
+ | <pre> | ||
blastall | blastall | ||
+ | </pre> | ||
+ | |||
OBS: Para realizar qualquer alinhamento são necessárias todas as partes do banco de dados em questão; NR + NT equivalem a ~11gb atualmente (07.2011). | OBS: Para realizar qualquer alinhamento são necessárias todas as partes do banco de dados em questão; NR + NT equivalem a ~11gb atualmente (07.2011). | ||
− | + | :Ex.: arquivos 0 a 6 do banco de dados NR: | |
− | + | ||
− | Para a lista completa de comandos do blastall, consulte o NCBI! | + | :'''nr.00.tar.gz, nr.01.tar.gz […] nr.06.tar.gz''' |
− | Criando um banco de dados | + | |
+ | Outra possibilidade é a criação de um banco de dados apenas com sequências de interesse a partir de um arquivo fasta (ver abaixo). | ||
+ | |||
+ | Para a lista completa de comandos do ''blastall'', consulte o [http://www.ncbi.nlm.nih.gov/staff/tao/URLAPI/blastall.html NCBI!] | ||
+ | |||
+ | ===Criando um banco de dados=== | ||
Como parte do BLAST+ o programa makeblastdb.exe é responsável pela formatação de arquivos fasta no formato de banco de dados legível pelos programas BLAST: | Como parte do BLAST+ o programa makeblastdb.exe é responsável pela formatação de arquivos fasta no formato de banco de dados legível pelos programas BLAST: | ||
+ | <pre> | ||
makeblastdb.exe -help | makeblastdb.exe -help | ||
− | [-title database_title][-parse_seqids] [-hash_index][-mask_data mask_data_files][-out database_name][-max_file_sz number_of_bytes][-taxid TaxID][-taxid_map TaxIDMapFile][-logfile File_Name][-version] | + | |
+ | [-title database_title][-parse_seqids] [-hash_index][-mask_data mask_data_files][-out database_name] | ||
+ | [-max_file_sz number_of_bytes][-taxid TaxID][-taxid_map TaxIDMapFile][-logfile File_Name][-version] | ||
+ | |||
To make a blast database: | To make a blast database: | ||
+ | |||
makeblastdb.exe -in some_fasta.fa -dbtype nucl -title some_name -out database | makeblastdb.exe -in some_fasta.fa -dbtype nucl -title some_name -out database | ||
− | Bancos de dados BLAST do NCBI | + | </pre> |
− | + | ||
− | Atualizando e mantendo DBs NCBI BLAST | + | ===Bancos de dados BLAST do NCBI=== |
+ | Abaixo segue trechos do [ftp://202.175.151.63/pub/mirror/ncbi/blast/documents/blastdb.html texto original] sobre as DBs (databases) do NCBI: | ||
+ | |||
+ | ===Atualizando e mantendo DBs NCBI BLAST=== | ||
DESCREVER updater_pl e dependencias perl | DESCREVER updater_pl e dependencias perl | ||
+ | |||
+ | ==RDP Classifier== | ||
+ | Para instalar o RDP Classifier localmente: | ||
+ | |||
+ | #Faça o download da versão mais recente para windows; | ||
+ | #Descompacte em um caminho curto ''(como 'C:\blast\rdp_classifier\)''; | ||
+ | |||
+ | Para instalar o RDP multiclassifier localmente: | ||
+ | |||
+ | #Faça o download da versão mais recente para windows; | ||
+ | #Descompacte em um caminho curto ''(como 'C:\blast\rdp_multiclassifier\)''; | ||
+ | |||
+ | ===Classificar sequências:=== | ||
+ | Abra uma janela do console e execute: | ||
+ | <pre> | ||
+ | java -Xmx1g -jar rdp_classifier-2.3.jar -q mydata/1.fasta -o mydata/1out.txt -f fixrank | ||
+ | </pre> | ||
+ | |||
+ | Conforme a entrada do manual do classifier referente ao formato dos arquivos de saída: | ||
+ | <pre> | ||
+ | The command line parameters offers three different formats (all tab delimited) based on users' requests: | ||
+ | allrank: outputs the results for all ranks applied for each sequence: seqname, orientation, taxon name, | ||
+ | rank, confidence | ||
+ | fixrank: only outputs the results for fixed ranks in order: no rank, domain, phylum, class, order, family, genus | ||
+ | db: outputs the seqname, trainset_no, tax_id, confidence. This is good for storing in a database | ||
+ | </pre> | ||
+ | |||
+ | '''Exemplo de classificação:''' | ||
+ | <pre> | ||
+ | Input | ||
+ | >gi|295388554|gb|HM003925.1| Uncultured bacterium clone 2pse 16S ribosomal RNA gene, partial sequenceGCAACGCGAAGAACCTTACCAGGCCTTGACATGCAGAGAACTTTCCAGAGATGGATTGGTGCCTTCGGGAACTCTGACACAGGTGCTGCATGGCTGTCGTCAGCTCGTGTCGTGAGATGTTGGGTTAAGTCCCGTAACGAGCGCAACCCTTGTCCTTAGTTACCAGCACGTTATGGTGGGCACTCTAAGGAGACTGCCGGTGACAAACCGGAGGAAGGTGGGGATGACGTCAAGTCATCATGGCCCTTACGGCCTGGGCTACACACGTGCTACAATGGTCGGTACAGAGGGTTGCCAAGCCGCGAGGTGGAGCTAATCTCACAAAACCGATCGTAGTCCGGATCGCAGTCTGCAACTCGACTGCGTGAAGTCGGAATCGCTAGTAATCGCGAATCAGAATGTCGCGGTGAATACGTTCCCGGGCCTGTACACACCG | ||
+ | |||
+ | Output | ||
+ | gi|295388554|gb|HM003925.1| Bacteria domain 1.0 "Proteobacteria" phylum 1.0 Gammaproteobacteria class 1.0 | ||
+ | Pseudomonadales order 1.0 Pseudomonadaceae family 1.0 Pseudomonas genus 1.0 | ||
+ | </pre> |
Edição atual tal como 11h07min de 26 de abril de 2012
Intro
Tabela de conteúdo |
[editar] BLAST
Nesta página estão o links para download de todos os programas/arquivos citados abaixo.
Em 'BLAST+ executables' vá em 'LATEST' e faça o download do executável apropriado para o seus sistema.
[editar] Caso algo dê errado veja os passos abaixo
Siga o passo-a-passo fornecido pelo NCBI
- Faça o download da versão mais recente para windows;
- Descompactar\Instalar em um caminho curto (C:\blast);
- Propriedades do Meu Computador>Configurações Avançadas>Avançado> Variáveis Ambientais;
- Adicionar ‘C:\Blast\bin’ a variável ‘Path’ (caso o instalador não tenha feito isso ou se você optou por usar a versão compactada);
- Caso deseje usar o blast legacy, é necessário criar um arquivo chamado ncbi.ini em "C:\windows" com o seguinte conteúdo:
; Start the section for BLAST configuration [BLAST] ; Specifies the path where BLAST databases are installed BLASTDB=C:\\blast\\db ; Specifies the data sources to use for automatic resolution ; for sequence identifiers DATA_LOADERS=none ; Specifies the BLAST database to use resolve protein sequences BLASTDB_PROT_DATA_LOADER=nr ; Specifies the BLAST database to use resolve protein sequences BLASTDB_NUCL_DATA_LOADER=nt ; Windowmasker settings (experimental) [WINDOW_MASKER] WINDOW_MASKER_PATH=C:\\blast\\db\\windowmasker ; end of file
[editar] Testando o Blast
Se a instalação deu-se corretamente, então basta abrir um console e digitar:
blastn -help (para testar a versão windows) blastall (para testar a versão legacy)
O próximo passo é fazer o download dos banco de dados (preformatados) de interesse (NT para nucleotídeos, NR para proteínas, WGS para genomas completos..) e descompactá-los (todos os arquivos) dentro da pasta 'db' do diretório de instalação do BLAST.
Navegar até a pasta onde estão as sequências-alvo; então:
blastn -db db\nr -query mydata\A07.fasta -out mydata\A07blastout.txt blastall -p blastp -d db\nr -i mydata\1.fasta -o mydata\1blastout.txt
Caso tenha alguma dúvida sobre a funcionalidade de um programa BLAST+ tente:
blastx -h blastx -help
Para o blast legacy, basta executar o programa sem nenhum parâmetro especificado:
blastall
OBS: Para realizar qualquer alinhamento são necessárias todas as partes do banco de dados em questão; NR + NT equivalem a ~11gb atualmente (07.2011).
- Ex.: arquivos 0 a 6 do banco de dados NR:
- nr.00.tar.gz, nr.01.tar.gz […] nr.06.tar.gz
Outra possibilidade é a criação de um banco de dados apenas com sequências de interesse a partir de um arquivo fasta (ver abaixo).
Para a lista completa de comandos do blastall, consulte o NCBI!
[editar] Criando um banco de dados
Como parte do BLAST+ o programa makeblastdb.exe é responsável pela formatação de arquivos fasta no formato de banco de dados legível pelos programas BLAST:
makeblastdb.exe -help [-title database_title][-parse_seqids] [-hash_index][-mask_data mask_data_files][-out database_name] [-max_file_sz number_of_bytes][-taxid TaxID][-taxid_map TaxIDMapFile][-logfile File_Name][-version] To make a blast database: makeblastdb.exe -in some_fasta.fa -dbtype nucl -title some_name -out database
[editar] Bancos de dados BLAST do NCBI
Abaixo segue trechos do texto original sobre as DBs (databases) do NCBI:
[editar] Atualizando e mantendo DBs NCBI BLAST
DESCREVER updater_pl e dependencias perl
[editar] RDP Classifier
Para instalar o RDP Classifier localmente:
- Faça o download da versão mais recente para windows;
- Descompacte em um caminho curto (como 'C:\blast\rdp_classifier\);
Para instalar o RDP multiclassifier localmente:
- Faça o download da versão mais recente para windows;
- Descompacte em um caminho curto (como 'C:\blast\rdp_multiclassifier\);
[editar] Classificar sequências:
Abra uma janela do console e execute:
java -Xmx1g -jar rdp_classifier-2.3.jar -q mydata/1.fasta -o mydata/1out.txt -f fixrank
Conforme a entrada do manual do classifier referente ao formato dos arquivos de saída:
The command line parameters offers three different formats (all tab delimited) based on users' requests: allrank: outputs the results for all ranks applied for each sequence: seqname, orientation, taxon name, rank, confidence fixrank: only outputs the results for fixed ranks in order: no rank, domain, phylum, class, order, family, genus db: outputs the seqname, trainset_no, tax_id, confidence. This is good for storing in a database
Exemplo de classificação:
Input >gi|295388554|gb|HM003925.1| Uncultured bacterium clone 2pse 16S ribosomal RNA gene, partial sequenceGCAACGCGAAGAACCTTACCAGGCCTTGACATGCAGAGAACTTTCCAGAGATGGATTGGTGCCTTCGGGAACTCTGACACAGGTGCTGCATGGCTGTCGTCAGCTCGTGTCGTGAGATGTTGGGTTAAGTCCCGTAACGAGCGCAACCCTTGTCCTTAGTTACCAGCACGTTATGGTGGGCACTCTAAGGAGACTGCCGGTGACAAACCGGAGGAAGGTGGGGATGACGTCAAGTCATCATGGCCCTTACGGCCTGGGCTACACACGTGCTACAATGGTCGGTACAGAGGGTTGCCAAGCCGCGAGGTGGAGCTAATCTCACAAAACCGATCGTAGTCCGGATCGCAGTCTGCAACTCGACTGCGTGAAGTCGGAATCGCTAGTAATCGCGAATCAGAATGTCGCGGTGAATACGTTCCCGGGCCTGTACACACCG Output gi|295388554|gb|HM003925.1| Bacteria domain 1.0 "Proteobacteria" phylum 1.0 Gammaproteobacteria class 1.0 Pseudomonadales order 1.0 Pseudomonadaceae family 1.0 Pseudomonas genus 1.0