Análises taxonômicas

(Diferença entre revisões)
Ir para: navegação, pesquisa
(No servidor online)
Linha 63: Linha 63:
  
 
[[Arquivo:4.png|center|thumb|400px|Diferenças entre versões do RDP classifier]]
 
[[Arquivo:4.png|center|thumb|400px|Diferenças entre versões do RDP classifier]]
 +
 +
 +
 +
 +
 +
Importando para o MEGAN
 +
 +
Agora que já temos o arquivo de classificação formatado em % podemos importá-lo para o MEGAN. Para isto vá em 'File>Import" ou pressione CRTL+SHIFT+O.
 +
 +
Indique os arquivos requisitados.
 +
 +
Seja qual a forma de produção do arquivo de classificação do RDP (seja local ou online) o campo "Max number of matches per read" (dentro das opção de importação) deve ser 1. Pois, segundo o Maurício:
 +
Quando você importa o resultado do RDP, então use 1 para o Max number... pois cada read só terá um hit, e os demais parâmetros fica em 1 para o Min support e 80 para o percentual de confiança e 100 para Top percent.
 +
Quando os resultados são importados de uma placa de shotgun metagenômico, então é feito um blastx ou n contra os reads e os valores dos parâmetros para importação mudam. Eu coloco para uma corrida metagenômica de 454 os valores: Max number of matches... 5 (ele vai pegar o ancestral comum dos 5 primeiros hits - organismos - e atribuir na árvore), Min support: 5, somente será válido um taxon se 5 reads derem o mesmo resultado (isso evita falsos positivos), caso uma corrida tenha poucos reads (menos de 200 mil), eu baixo para 3. O top percent vai para 10 (o score do segundo hit tem que ser no mínimo 10% do score do primeiro, idem para os demais hits). E score eu coloco 60, para não pegar qualquer resultado no blast, o valor 60 já elimina resultados ao acaso.
 +
 +
 +
 +
Através do BLAST
 +
 +
Esta opção é indicada para sequências taxonômicas eucarióticas ou eucarióticas  e procarióticas funcionais.
 +
Pelo servidor do NCBI
 +
 +
De forma local
 +
 +
Segue um exemplo genérico:
 +
blastall -i seq.fasta -o seq.fasta.nr.out -p blastx -d nr -e 1e-03 -b 10 -v 10 -F F
 +
 +
É possível especificar a formatação do formato de saída utilizando o parâmetro '-m' para o Blast legacy, no qual (cada link contém um exemplo da formatação em questão):
 +
pairwise (flag:-m 0)
 +
master-slave showing identities (flag:-m 1)
 +
master-slave no identities (flag:-m 2)
 +
flat master-slave, show identities (flag:-m 3)
 +
flat master-slave, no identities (flag:-m 4)
 +
master-slave no identities and blunt ends (flag:-m 5)
 +
flat master-slave, no identities and blunt ends (flag:-m 6)
 +
XML Blast output (flag:-m 7)
 +
tabular (flag:-m 8)
 +
tabular with comment lines (flag:-m 9)
 +
Para o Blast+, utiliza-se o parâmetro '-outfmt':
 +
0 = pairwise,
 +
1 = query-anchored showing identities,
 +
2 = query-anchored no identities,
 +
3 = flat query-anchored, show identities,
 +
4 = flat query-anchored, no identities,
 +
5 = XML Blast output,
 +
6 = tabular,
 +
7 = tabular with comment lines,
 +
8 = Text ASN.1,
 +
9 = Binary ASN.1,
 +
10 = Comma-separated values,
 +
11 = BLAST archive format (ASN.1)
 +
Caso não seja especificado o formato de saída, este assumirá a formatação 'pairwise' (que é a mesma fornecida pelo Blast online no servidor do NCBI)
 +
 +
Caso a saída selecionada seja tabular (ótimizada para abrir no excel, por exemplo), ao importar este arquivo para o MEGAN é necessário que sejam indicadas nas configurações de importação o arquivo que converte as GIs e um arquivo de sinônimos do SILVA database, ambos disponíveis no site de download do MEGAN.
 +
 +
Abaixo seguem alguns exemplos do Blast em execução
 +
<pre>
 +
blastall -p blastx (Blast legacy, tal como no linux)
 +
<pre>
 +
blastall -i mydata\A07.fasta -o mydata\A07.fasta.nr.out -p blastx -d c:\blast\db\nr -e 1e-03 -b 10 -v 10 -F F
 +
</pre>
 +
blastx (Blast+)
 +
<pre>
 +
blastx -query mydata\A07.fasta -out mydata\A07.blastout.txt -db nr -evalue 1000 -num_alignments 10 -num_descriptions 10 -seg no
 +
</pre>
 +
blastn (Blast+)
 +
<pre>
 +
blastn -query mydata\A07.fasta -out mydata\A07.blastout.nt.txt -db nt -evalue 1000 -num_alignments 10 -num_descriptions 10 -dust no
 +
</pre>

Edição de 10h49min de 2 de setembro de 2011

INTRO


Tabela de conteúdo

Análises taxonômicas com o MEGAN

Primeiramente temos de obter os arquivos de taxonomia. Isto pode ser feito através do RDP (preferencial para sequências 16S) ou do BLAST (para sequências 18S ou funcionais).

Através do RDP

Como mencionado acima, se o arquivo de entrada for sequencias de 16S então o melhor caminho é alinhar pelo RDP.

De forma local:

  • RDP Classifier
Navegue até a pasta do RDP classifier e:
java -Xmx1g -jar rdp_classifier-2.3.jar -q A07.fasta -o A07out.txt -f fixrank
  • RDP Multiclassifer
Navegue até a pasta do RDP multiclassifier e:
java -Xmx1g -jar multiclassifier.jar --assign_outfile=A07.class --hier_outfile=A07.hier --format=fixRank A07.fasta 

No entanto ao utilizar qualquer versão local do RDP é necessário formataro arquivo de saída:

Desta forma, o arquivo de saída:

gi|156447538|gb|EU074232.1| Bacteria domain 1.0 "Actinobacteria" phylum 1.0 Actinobacteria class 1.0 Actinomycetales orde0.41r 0.99 Propionibacteriaceae family 0.66 Friedmanniella genus 0.42

gi|156447537|gb|EU074231.1| Bacteria domain 1.0 "Actinobacteria" phylum 1.0 Actinobacteria class 1.0 Actinomycetales order 1.0 Propionibacteriaceae family 0.79 Friedmanniella genus

Deve ser formatdo para percentuais e ";", assim:

gi|156447538|gb|EU074232.1|; ; Bacteria; 100%; "Actinobacteria"; 100%; Actinobacteria; 100%; Actinomycetales; 99%; Propionibacteriaceae; 66%; Friedmanniella;

gi|156447537|gb|EU074231.1|; ; Bacteria; 100%; "Actinobacteria"; 100%; Actinobacteria; 100%; Actinomycetales; 100%; Propionibacteriaceae; 79%; Friedmanniella; 

Este arquivo em percentual é que será importado pelo MEGAN.

Ao realizar a classificação pelo site do RDP (ver abaixo) o arquivo final já sairá em %.

O Maurício Cantão, LNCC, escreu um script em PERL bastante útil, para a reformatação dos arquivos de classificação produzidos pelo RDP classifier local (rdp2megan.pl).

Com o PERL instalado basta abrir um console e executar

rdp2megan.pl arquivo.rdpout

No servidor online

No site do RDP faça login e submeta as sequências desejadas.

Após o alinhamento clique no sinal + e vá em Classifier, indique as sequências selecionadas e espere.

Quando aparecerem os resultados, clique em [show assignment detail] e depois em "download as text file".

ATENÇÃO!

No momento há grandes diferenças entre os alinhamentos LOCAL' (Standalone) e ONLINE do RDP Classifier. Recomendo (por enquanto) a utlização do método ONLINE por resultar em classificações mais detalhadas.

Erro ao criar miniatura: Arquivo aparentemente inexistente: /srv/www/cc/lembiotech/wiki/images/0/09/4.png
Diferenças entre versões do RDP classifier



Importando para o MEGAN

Agora que já temos o arquivo de classificação formatado em % podemos importá-lo para o MEGAN. Para isto vá em 'File>Import" ou pressione CRTL+SHIFT+O.

Indique os arquivos requisitados.

Seja qual a forma de produção do arquivo de classificação do RDP (seja local ou online) o campo "Max number of matches per read" (dentro das opção de importação) deve ser 1. Pois, segundo o Maurício: Quando você importa o resultado do RDP, então use 1 para o Max number... pois cada read só terá um hit, e os demais parâmetros fica em 1 para o Min support e 80 para o percentual de confiança e 100 para Top percent. Quando os resultados são importados de uma placa de shotgun metagenômico, então é feito um blastx ou n contra os reads e os valores dos parâmetros para importação mudam. Eu coloco para uma corrida metagenômica de 454 os valores: Max number of matches... 5 (ele vai pegar o ancestral comum dos 5 primeiros hits - organismos - e atribuir na árvore), Min support: 5, somente será válido um taxon se 5 reads derem o mesmo resultado (isso evita falsos positivos), caso uma corrida tenha poucos reads (menos de 200 mil), eu baixo para 3. O top percent vai para 10 (o score do segundo hit tem que ser no mínimo 10% do score do primeiro, idem para os demais hits). E score eu coloco 60, para não pegar qualquer resultado no blast, o valor 60 já elimina resultados ao acaso.


Através do BLAST

Esta opção é indicada para sequências taxonômicas eucarióticas ou eucarióticas e procarióticas funcionais. Pelo servidor do NCBI

De forma local

Segue um exemplo genérico: blastall -i seq.fasta -o seq.fasta.nr.out -p blastx -d nr -e 1e-03 -b 10 -v 10 -F F

É possível especificar a formatação do formato de saída utilizando o parâmetro '-m' para o Blast legacy, no qual (cada link contém um exemplo da formatação em questão): pairwise (flag:-m 0) master-slave showing identities (flag:-m 1) master-slave no identities (flag:-m 2) flat master-slave, show identities (flag:-m 3) flat master-slave, no identities (flag:-m 4) master-slave no identities and blunt ends (flag:-m 5) flat master-slave, no identities and blunt ends (flag:-m 6) XML Blast output (flag:-m 7) tabular (flag:-m 8) tabular with comment lines (flag:-m 9) Para o Blast+, utiliza-se o parâmetro '-outfmt': 0 = pairwise, 1 = query-anchored showing identities, 2 = query-anchored no identities, 3 = flat query-anchored, show identities, 4 = flat query-anchored, no identities, 5 = XML Blast output, 6 = tabular, 7 = tabular with comment lines, 8 = Text ASN.1, 9 = Binary ASN.1, 10 = Comma-separated values, 11 = BLAST archive format (ASN.1) Caso não seja especificado o formato de saída, este assumirá a formatação 'pairwise' (que é a mesma fornecida pelo Blast online no servidor do NCBI)

Caso a saída selecionada seja tabular (ótimizada para abrir no excel, por exemplo), ao importar este arquivo para o MEGAN é necessário que sejam indicadas nas configurações de importação o arquivo que converte as GIs e um arquivo de sinônimos do SILVA database, ambos disponíveis no site de download do MEGAN.

Abaixo seguem alguns exemplos do Blast em execução

blastall -p blastx (Blast legacy, tal como no linux)
<pre>
blastall -i mydata\A07.fasta -o mydata\A07.fasta.nr.out -p blastx -d c:\blast\db\nr -e 1e-03 -b 10 -v 10 -F F

blastx (Blast+)

blastx -query mydata\A07.fasta -out mydata\A07.blastout.txt -db nr -evalue 1000 -num_alignments 10 -num_descriptions 10 -seg no

blastn (Blast+)

blastn -query mydata\A07.fasta -out mydata\A07.blastout.nt.txt -db nt -evalue 1000 -num_alignments 10 -num_descriptions 10 -dust no
Ferramentas pessoais
Espaços nominais
Variantes
Ações
Navegação
Ferramentas