Análises taxonômicas

De Lembiotech Wiki
Ir para: navegação, pesquisa

INTRO

Primeiramente temos de obter os arquivos de taxonomia. Isto pode ser feito através do RDP (preferencial para sequências 16S) ou do BLAST (para sequências 18S ou funcionais).

Tabela de conteúdo

Através do RDP

Como mencionado acima, se o arquivo de entrada for sequencias de 16S então o melhor caminho é alinhar pelo RDP.

De forma local:

  • RDP Classifier
Navegue até a pasta do RDP classifier e:
java -Xmx1g -jar rdp_classifier-2.3.jar -q A07.fasta -o A07out.txt -f fixrank
  • RDP Multiclassifer
Navegue até a pasta do RDP multiclassifier e:
java -Xmx1g -jar multiclassifier.jar --assign_outfile=A07.class --hier_outfile=A07.hier --format=fixRank A07.fasta 

No entanto ao utilizar qualquer versão local do RDP é necessário formataro arquivo de saída:

Desta forma, o arquivo de saída:

gi|156447538|gb|EU074232.1| Bacteria domain 1.0 "Actinobacteria" phylum 1.0 Actinobacteria class 1.0 Actinomycetales orde0.41r 0.99 Propionibacteriaceae family 0.66 Friedmanniella genus 0.42

gi|156447537|gb|EU074231.1| Bacteria domain 1.0 "Actinobacteria" phylum 1.0 Actinobacteria class 1.0 Actinomycetales order 1.0 Propionibacteriaceae family 0.79 Friedmanniella genus

Deve ser formatdo para percentuais e ";", assim:

gi|156447538|gb|EU074232.1|; ; Bacteria; 100%; "Actinobacteria"; 100%; Actinobacteria; 100%; Actinomycetales; 99%; Propionibacteriaceae; 66%; Friedmanniella;

gi|156447537|gb|EU074231.1|; ; Bacteria; 100%; "Actinobacteria"; 100%; Actinobacteria; 100%; Actinomycetales; 100%; Propionibacteriaceae; 79%; Friedmanniella; 

Este arquivo em percentual é que será importado pelo MEGAN.

Ao realizar a classificação pelo site do RDP (ver abaixo) o arquivo final já sairá em %.

O Maurício Cantão, LNCC, escreu um script em PERL bastante útil, para a reformatação dos arquivos de classificação produzidos pelo RDP classifier local (rdp2megan.pl).

Com o PERL instalado basta abrir um console e executar

rdp2megan.pl arquivo.rdpout

No servidor online

No site do RDP faça login e submeta as sequências desejadas.

Após o alinhamento clique no sinal + e vá em Classifier, indique as sequências selecionadas e espere.

Quando aparecerem os resultados, clique em [show assignment detail] e depois em "download as text file".

ATENÇÃO!

No momento há grandes diferenças entre os alinhamentos LOCAL' (Standalone) e ONLINE do RDP Classifier. Recomendo (por enquanto) a utlização do método ONLINE por resultar em classificações mais detalhadas.

Erro ao criar miniatura: Arquivo aparentemente inexistente: /srv/www/cc/lembiotech/wiki/images/0/09/4.png
Diferenças entre versões do RDP classifier

Importando para o MEGAN

Agora que já temos o arquivo de classificação gerado pelo RDP e formatado em % podemos importá-lo para o MEGAN.

  1. Para isto vá em "File>Import" ou pressione CRTL+SHIFT+O
  2. A seguir, indique o diretório dos arquivos requisitados

Seja qual a forma de produção do arquivo de classificação do RDP (seja local ou online) o campo "Max number of matches per read" (dentro das opção de importação) deve ser 1.

Pois, segundo o Maurício Cantão:

Quando você importa o resultado do RDP, então use 1 para o Max number... pois cada read só terá um hit, e os demais parâmetros ficam em 1 para o Min support, 80 para o percentual de confiança e 100 para Top percent.
Quando os resultados são importados de uma placa de shotgun metagenômico, então é feito um BLASTx ou n contra os reads e os valores dos parâmetros para importação mudam. Para uma corrida metagenômica de 454, utilizo os valores: Max number of matches... 5 (ele vai buscar o ancestral comum dos 5 primeiros hits/organismos, e atribuir na árvore gerada), Min support: 5, um taxon somente será válido se 5 reads tiverem resultados iguais (isso evita falsos positivos), caso uma corrida tenha poucos reads (menos de 200 mil), eu diminuo para 3. Para o top percent utilizo 10 (o score do segundo hit tem que ser no mínimo 10% do score do primeiro, idem para os demais hits). E em score eu coloco 60, para não utilizar qualquer resultado no blast; o valor 60 já elimina resultados ao acaso.

Análises e gráficos no Excel (Exportando do MEGAN)

  1. De modo a exportar estes resultados para o Excel
  2. Organize a árvore de acordo com o nível taxonômico desejado
  3. Selecione todos os ramos (Crtl+A)
  4. Vá em File>Export> Assignments to CSV e em seguida
    1. comma
      1. taxon-paths, count(s)
  5. Abra o arquivo de texto separado por vírgulas resultante e copie seu conteúdo
  6. Cole no Excel usando o assistente de colagem
  7. Escolha apenas a separação por vírgulas

Através do BLAST

Esta opção é indicada para sequências taxonômicas eucarióticas ou eucarióticas e procarióticas funcionais.

De forma local

Segue um exemplo genérico:

blastall -i seq.fasta -o seq.fasta.nr.out -p blastx -d nr -e 1e-03 -b 10 -v 10 -F F

É possível especificar a formatação do arquivo de saída utilizando o parâmetro '-m' para o Blast legacy:

pairwise (flag:-m 0)
master-slave showing identities (flag:-m 1)
master-slave no identities (flag:-m 2)
flat master-slave, show identities (flag:-m 3)
flat master-slave, no identities (flag:-m 4)
master-slave no identities and blunt ends (flag:-m 5)
flat master-slave, no identities and blunt ends (flag:-m 6)
XML Blast output (flag:-m 7)
tabular (flag:-m 8)
tabular with comment lines (flag:-m 9) 

Para o Blast+, utiliza-se o parâmetro '-outfmt':

0 = pairwise,
1 = query-anchored showing identities,
2 = query-anchored no identities,
3 = flat query-anchored, show identities,
4 = flat query-anchored, no identities,
5 = XML Blast output,
6 = tabular,
7 = tabular with comment lines,
8 = Text ASN.1,
9 = Binary ASN.1,
10 = Comma-separated values,
11 = BLAST archive format (ASN.1)

Caso não seja especificado o formato de saída, este assumirá a formatação 'pairwise' (que é a mesma fornecida pelo Blast online no servidor do NCBI)

Caso a saída selecionada seja tabular (ótimizada para abrir no excel, por exemplo), ao importar este arquivo para o MEGAN é necessário que sejam indicadas nas configurações de importação o arquivo que converte as GIs e um arquivo de sinônimos do SILVA database, ambos disponíveis no site de download do MEGAN.

Abaixo seguem alguns exemplos do Blast em execução

blastall -p blastx (Blast legacy, tal como no linux)

blastall -i mydata\A07.fasta -o mydata\A07.fasta.nr.out -p blastx -d c:\blast\db\nr -e 1e-03 -b 10 -v 10 -F F

blastx (Blast+)

blastx -query mydata\A07.fasta -out mydata\A07.blastout.txt -db nr -evalue 1000 -num_alignments 10 -num_descriptions 10 -seg no

blastn (Blast+)

blastn -query mydata\A07.fasta -out mydata\A07.blastout.nt.txt -db nt -evalue 1000 -num_alignments 10 -num_descriptions 10 -dust no

No servidor do NCBI

Importando para o MEGAN

Agora que já temos o arquivo de classificação gerado pelo RDP e formatado em % podemos importá-lo para o MEGAN.

  1. Para isto vá em "File>Import" ou pressione CRTL+SHIFT+O
  2. A seguir, indique o diretório dos arquivos requisitados

Desta vez os seguintes valores devem ser utilizados:

Max number of matches: 5
Min support: 5
Top percent: 10
Score: 60
Ferramentas pessoais
Espaços nominais
Variantes
Ações
Navegação
Ferramentas