Em formação

Predição e identificação da sequência de DNA de micróbios e enzimas com previsão metabólica

Predição e identificação da sequência de DNA de micróbios e enzimas com previsão metabólica



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Atualmente estou trabalhando na metagenômica da biometenação do carvão por consórcio bacteriano.

Tenho o resultado da sequência (Illumina). A sequência é enorme e não posso prever nada a partir dela. Eu passei por diferentes bancos de dados como Metacyc, Biocyc etc.


O primeiro passo após o sequenciamento é encontrar genes prováveis. Depois disso, os genes e suas proteínas podem ser classificados para pertencer a classes de proteínas. Isso é o máximo que você pode fazer com genes completamente desconhecidos. Hoje em dia é possível prever a estrutura final usando mapas de contato (se não houver nenhuma estrutura homóloga conhecida), mas isso ainda não deixará você claro sobre os ligantes em muitos casos. Portanto, a etapa final é esclarecer a função com métodos laboratoriais bioquímicos.

Portanto, se você estiver preso a uma sequência enorme, primeiro tente encontrar os genes nela.

http://en.wikipedia.org/wiki/Gene_prediction

Para anotações / classificações subsequentes, recomendo InterPro e PROSITE.

http://www.ebi.ac.uk/Tools/pfa/iprscan/

http://prosite.expasy.org/scanprosite/


Bem, em primeiro lugar, não sabemos como você sequenciou os dados. O que você realmente sequenciou? Você observou a atividade transcricional usando RNA-seq ou fez um sequenciamento completo do genoma? Houve alguma leitura emparelhada? Como você criou sua biblioteca? Você enriqueceu o consórcio bacteriano para a atividade de biometanação?

Onde você lê o mapa? O consórcio complica as coisas, mas provavelmente você precisará construir uma biblioteca de contig de qualidade antes de fazer qualquer outra coisa. Sem dúvida, grande parte da sua biblioteca não mapeará para nada interessante, mas você ainda deve fazer anotações na biblioteca, vendo onde as leituras são mapeadas. Identificar ORFs será útil.

Provavelmente, você terá um conjunto de genes que estarão envolvidos com a biometanação. Você deve explodir o bejesus fora de sua biblioteca de contig para hits. Eles correspondem a algum de seus ORFs? Indo no sentido contrário, faça com que suas ORFs correspondam a qualquer um dos genes em EcoCyc ou BioCyc. Você precisa usar um banco de dados maior?


Predição e identificação da sequência de DNA de micróbios e enzimas com previsão metabólica - Biologia

Os microrganismos podem ser classificados com base na estrutura celular, no metabolismo celular ou nas diferenças nos componentes celulares.

Objetivos de aprendizado

Distinguir entre características fenotípicas para bactérias, arquéias e eucariotos

Principais vantagens

Pontos chave

  • A relação entre os três domínios (Bactérias, Archaea e Eukaryota) é de importância central para a compreensão da origem da vida. A maioria das vias metabólicas são comuns entre Archaea e Bacteria, enquanto a maioria dos genes envolvidos na expressão do genoma são comuns entre Archaea e Eukarya.
  • Os microrganismos são muito diversos. Eles incluem bactérias, fungos, algas e plantas microscópicas de protozoários e animais. Microrganismos unicelulares foram as primeiras formas de vida a se desenvolverem na Terra, há aproximadamente 3 bilhões a 4 bilhões de anos.
  • A coloração de Gram caracteriza as bactérias com base nas características estruturais de suas paredes celulares. Ao combinar a morfologia e a coloração de Gram, a maioria das bactérias pode ser classificada como pertencente a um de 4 grupos (cocos Gram-positivos, bacilos Gram-positivos, cocos Gram-negativos e bacilos Gram-negativos).
  • Existem algumas diferenças básicas entre Bactérias, Archaea e Eucariotos na morfologia e estrutura celular que auxiliam na classificação e identificação fenotípica.

Termos chave

  • Coloração de Gram: Um método de diferenciação de espécies bacterianas em dois grandes grupos (Gram-positivos e Gram-negativos).
  • microrganismo: Um organismo que é muito pequeno para ser visto a olho nu, especialmente um organismo unicelular, como uma bactéria.
  • domínio: No sistema de três domínios, um dos três táxons nessa classificação: Bacteria, Archaea ou Eukaryota.

Os microrganismos são muito diversos. Eles incluem bactérias, fungos, algas e plantas microscópicas de protozoários (algas verdes) e animais como rotíferos e planários. A maioria dos microrganismos é unicelular (unicelular), mas isso não é universal.

Microrganismos unicelulares foram as primeiras formas de vida a se desenvolverem na Terra, há aproximadamente 3 bilhões a 4 bilhões de anos. A evolução posterior foi lenta e, por cerca de 3 bilhões de anos no éon pré-cambriano, todos os organismos foram microscópicos. Portanto, durante a maior parte da história da vida na Terra, as únicas formas de vida foram os microrganismos. Bactérias, algas e fungos foram identificados em âmbar com 220 milhões de anos, o que mostra que a morfologia dos microrganismos mudou pouco desde o período Triássico. Quando, no final do século 19, começaram a se acumular informações sobre a diversidade do mundo bacteriano, os cientistas começaram a incluir as bactérias em esquemas filogenéticos para explicar como a vida na Terra pode ter se desenvolvido. Algumas das primeiras árvores filogenéticas do mundo procarionte eram baseadas na morfologia. Outros foram baseados nas idéias então atuais sobre as condições presumidas em nosso planeta na época em que a vida se desenvolveu pela primeira vez.

Os microrganismos tendem a ter uma evolução relativamente rápida. A maioria dos microrganismos pode se reproduzir rapidamente, e micróbios como as bactérias também podem trocar genes livremente por meio de conjugação, transformação e transdução, mesmo entre espécies amplamente divergentes. Essa transferência horizontal de genes, associada a uma alta taxa de mutação e muitos outros meios de variação genética, permite que os microorganismos evoluam rapidamente (por meio da seleção natural) para sobreviver em novos ambientes e responder aos estresses ambientais.

A relação entre os três domínios (Bactérias, Archaea e Eukaryota) é de importância central para a compreensão da origem da vida. A maioria das vias metabólicas, que compreendem a maioria dos genes de um organismo & # 8217s, são comuns entre Archaea e Bacteria, enquanto a maioria dos genes envolvidos na expressão do genoma são comuns entre Archaea e Eukarya. Dentro dos procariotos, a estrutura da célula arquea é mais semelhante à das bactérias Gram-positivas.

Métodos fenotípicos de classificação e identificação de microorganismos

A classificação busca descrever a diversidade de espécies bacterianas nomeando e agrupando organismos com base em semelhanças. Os microrganismos podem ser classificados com base na estrutura celular, no metabolismo celular ou nas diferenças nos componentes celulares, como DNA, ácidos graxos, pigmentos, antígenos e quinonas.

Morfologia Bacteriana: Diferenças morfológicas básicas entre bactérias. Os formulários mais frequentemente encontrados e suas associações.

Existem algumas diferenças básicas entre bactérias, arquéias e eucariotos na morfologia e estrutura celular que auxiliam na classificação e identificação fenotípica:

Os tamanhos relativos das células procarióticas: Escalas relativas de eucariotos, procariontes, vírus, proteínas e átomos (escala logarítmica).

  • Bactérias: carecem de organelas ligadas à membrana e podem funcionar e se reproduzir como células individuais, mas frequentemente agregam-se em colônias multicelulares. Seu genoma é geralmente uma única alça de DNA, embora eles também possam abrigar pequenos pedaços de DNA chamados plasmídeos. Esses plasmídeos podem ser transferidos entre as células por meio de conjugação bacteriana. As bactérias são circundadas por uma parede celular, que fornece força e rigidez às suas células.
  • Archaea: No passado, as diferenças entre as bactérias e as archaea não eram reconhecidas e as archaea eram classificadas com as bactérias como parte do reino Monera. Archaea também são organismos unicelulares sem núcleo. Na verdade, as arquéias diferem das bactérias tanto em sua genética quanto em sua bioquímica. Enquanto as membranas das células bacterianas são feitas de fosfoglicerídeos com ligações éster, as membranas arqueanas são feitas de éter lipídico.
  • Eucariotos: ao contrário de bactérias e arquéias, os eucariotos contêm organelas como o núcleo da célula, o aparelho de Golgi e as mitocôndrias em suas células. Assim como as bactérias, as células vegetais possuem paredes celulares e organelas, como os cloroplastos, além das organelas de outros eucariotos.

A coloração de Gram, desenvolvida em 1884 por Hans Christian Gram, caracteriza as bactérias com base nas características estruturais de suas paredes celulares. As camadas espessas de peptidoglicano na parede celular & # 8220Gram-positiva & # 8221 coram de roxo, enquanto a parede celular fina & # 8220Grama-negativa & # 8221 aparece rosa. Ao combinar a morfologia e a coloração de Gram, a maioria das bactérias pode ser classificada como pertencente a um de quatro grupos (cocos Gram-positivos, bacilos Gram-positivos, cocos Gram-negativos e bacilos Gram-negativos). Alguns organismos são mais bem identificados por colorações diferentes da coloração de Gram, particularmente micobactérias ou Nocardia, que mostram resistência ao ácido em Ziehl-Neelsen ou colorações semelhantes. Outros organismos podem precisar ser identificados por seu crescimento em meios especiais ou por outras técnicas, como a sorologia.

Bactéria Gram-positiva: Streptococcus mutans visualizado com uma coloração de Gram.

Embora esses esquemas permitissem a identificação e classificação de cepas bacterianas, não estava claro se essas diferenças representavam variação entre espécies distintas ou entre cepas da mesma espécie. Essa incerteza se devia à falta de estruturas distintas na maioria das bactérias, bem como à transferência lateral de genes entre espécies não relacionadas. Devido à transferência lateral de genes, algumas bactérias intimamente relacionadas podem ter morfologias e metabolismos muito diferentes. Para superar essa incerteza, a classificação bacteriana moderna enfatiza a sistemática molecular, usando técnicas genéticas como a determinação da proporção de citosina guanina, hibridização genoma-genoma, bem como sequenciamento de genes que não sofreram transferência gênica lateral extensa, como o gene rRNA.


Opções de acesso

Obtenha acesso completo ao diário por 1 ano

Todos os preços são preços NET.
O IVA será adicionado mais tarde no check-out.
O cálculo do imposto será finalizado durante o checkout.

Obtenha acesso limitado por tempo ou ao artigo completo no ReadCube.

Todos os preços são preços NET.


Resultados

Previsão de sequências candidatas para enzimas órfãs com base em vizinhos de via (meta) genômica e metabólica

Primeiro identificamos 555 enzimas órfãs que operam em vias metabólicas (ou seja, conectadas a pelo menos uma outra enzima por um composto comum), analisando o banco de dados KEGG (Kanehisa et al, 2008) (Figura 1). Depois de identificar os números de EC dos vizinhos da via desses ECs órfãos, recuperamos todos os genes com o mesmo número de EC dos 338 genomas procarióticos do recurso STRING7 (von Mering et al, 2007). Para os genes nos 63 metagenomas, os números de EC foram atribuídos por meio de uma melhor correspondência BLAST para grupos ortólogos KEGG (consulte Materiais e métodos e Seção Suplementar 1). Como os genes procarióticos vizinhos estão frequentemente envolvidos na mesma via metabólica, analisamos a vizinhança genômica e recuperamos as sequências de genes de vizinhos do genoma relevantes como genes candidatos para as enzimas órfãs. Usando dados genômicos, extraímos 400 & # x02009320 genes candidatos e 97 & # x02009343 de dados metagenômicos (conjunto de dados suplementar 1).

Para quantificar a probabilidade de que um gene candidato específico desempenhe a função da enzima órfã, desenvolvemos um esquema de pontuação com base em quatro parâmetros: (1) A pontuação de vizinhança do genoma (NBH), que mede a distância entre dois genes vizinhos, bem como a conservação evolutiva da sintenia. Esta métrica captura o fenômeno biológico de que genes funcionalmente associados são geralmente agrupados em estruturas de operon conservadas, (2) O escore de co-ocorrência (COR), que mede a frequência com que dois genes ocorrem no mesmo genoma. Esta métrica reflete a tendência de membros da mesma via de aparecerem nos genomas juntos, (3) A pontuação do vizinho da via (PNE), que se normaliza para o número variável de vizinhos da via da enzima órfã e (4) A pontuação do domínio de assinatura ( DOM), que indica se as proteínas candidatas contêm domínio (s) que são únicos para enzimas que catalisam reações semelhantes às enzimas órfãs (tendo os mesmos primeiros 3 números EC).

O benchmarking revelou que sequências candidatas de alta confiança podem ser obtidas para mais de 100 enzimas órfãs

Para avaliar a precisão de nosso pipeline e determinar a melhor combinação dos quatro parâmetros de pontuação, comparamos nossas previsões usando 100 conjuntos de 350 enzimas selecionadas aleatoriamente do banco de dados KEGG (que têm sequências correspondentes) (Figura 2). Consideramos cada uma dessas enzimas órfãs, aplicamos o pipeline recém-desenvolvido e atribuímos aos genes candidatos um conjunto de quatro pontuações para cada um dos parâmetros (NBH, COR, PNE e DOM). Classificamos as previsões de acordo com suas quatro pontuações e, em seguida, para estimar a precisão de cada parâmetro de pontuação, ou combinação de parâmetros, calculamos a proporção das previsões que foram atribuídas ao número EC correto. Primeiro, para entender o poder preditivo de cada um dos quatro parâmetros de pontuação, comparamos cada parâmetro separadamente, usando os dados genômicos e metagenômicos (Figura 2B). As previsões dos dados do genoma ilustram que a pontuação de co-ocorrência é o melhor preditor e se correlaciona mais fortemente com a precisão geral. O parâmetro COR em dados metagenômicos também funciona bem, mas para mais de 30 & # x00025 das sequências metagenômicas, os perfis filogenéticos não puderam ser construídos devido à falta de similaridade de sequência com os dados disponíveis atualmente. Aqui, os domínios de assinatura permitiram muitas previsões (Figura 2B). Em segundo lugar, realizamos benchmarking para cada combinação dos quatro parâmetros de pontuação. Embora cada parâmetro de pontuação individual funcione até certo ponto, o benchmarking mostra claramente que a integração dos quatro parâmetros é melhor do que qualquer parâmetro usado isoladamente (Figura 2A). Finalmente, montamos um conjunto de previsões de alta confiança de todas as combinações de parâmetros que produziram uma precisão maior que 70 & # x00025 (Figura 2A), resultando em sequências previstas para 131 enzimas órfãs (Tabela Suplementar 2 e Conjuntos de dados Suplementares 2 e 3) . Para algumas das combinações de parâmetros, espera-se até mais de 90 & # x00025 precisão.

Benchmarking dos parâmetros de pontuação. (UMA) Gráfico de precisão derivado de dados genômicos (vermelho) e metagenômicos (azul) usando a combinação de pontuação de vizinhança (NBH), coocorrência (COR), domínios de assinatura (DOM) e vizinhos de via (PNE). A cada gene candidato / par de genes vizinhos foi atribuída uma pontuação para NBH e COR. Cada gene candidato também foi atribuído a uma pontuação de PNE e DOM. As previsões foram classificadas de acordo com suas quatro pontuações: NBH (& # x0003e0.4, & # x0003e0.5, & # x0003e0.6, & # x0003e0.7, & # x0003e0.8, & # x0003e0.9), COR (& # x0003e0.1, & # x0003e0.2, & # x0003e0.3, & # x0003e0.4, & # x0003e0.5, & # x0003e0.6), DOM (0 ou 1) e PNE (1, 2 ou mais). Em seguida, para cada combinação de parâmetros de pontuação, o número de atribuições de números de EC corretas e incorretas foi calculado a fim de determinar a precisão de cada combinação de parâmetros. No total, 100 conjuntos de dados aleatórios foram gerados para avaliar o pipeline de previsão. Cada ponto representa todas as previsões de uma combinação específica dos quatro parâmetros (centro). O eixo horizontal indica os valores preditos positivos (PPV), que são calculados como o número de verdadeiros positivos (TP) sobre a soma de TP e falsos positivos (FP). O eixo vertical indica o número de enzimas previsíveis. A área sombreada em amarelo representa o conjunto de previsões de alta confiança que foi montado a partir da união de todos os pontos, resultando em uma precisão superior a 70 & # x00025. (B) Gráfico de precisão para cada parâmetro separado calculado usando dados genômicos ou metagenômicos. A cor e o tamanho dos pontos representam a intensidade das pontuações. Os pontos cinza indicam o gráfico combinado em (A).

Em seguida, investigamos manualmente as 131 enzimas órfãs com previsões de alta confiança com mais detalhes. A reconciliação com bancos de dados adicionais e pesquisas de literatura revelou que 26 desses 131 já têm uma sequência depositada no banco de dados ou literatura Swissprot com curadoria (Figura Suplementar 4 e Tabelas Suplementares 3 e 4). Para 17 das 26 (65 & # x00025) sequências do banco de dados, houve homologia com as sequências de números de EC que concordaram até pelo menos o primeiro dígito (Figura Suplementar 5). Nossas sequências candidatas que não têm ortologia para as sequências no banco de dados podem representar grupos ortólogos alternativos que catalisam a mesma reação, uma vez que cerca de 70 & # x00025 dos números EC em KEGG são codificados por mais de um grupo ortólogo (Figura Suplementar 3A). Portanto, não as consideramos como previsões erradas, mas não podem mais ser chamadas de enzimas órfãs, embora nenhuma dessas sequências seja indicada nos bancos de dados específicos de enzima ExPASy-ENZYME ou KEGG. As atividades das 105 enzimas órfãs restantes variam do metabolismo do núcleo, como o metabolismo dos nucleotídeos, até a via periférica (Figura 3A, Figura Suplementar 6) e poderíamos atribuir mais de 16 & # x02009000 sequências a elas.

Quebra das enzimas previstas. (UMA) O número de números EC para os quais os genes candidatos podem ser previstos usando combinações de parâmetros com precisão superior a 70 & # x00025. Vermelho indica genes candidatos derivados apenas de dados genômicos e azul indica genes candidatos derivados apenas de dados metagenômicos. (B) Os gráficos de pizza representam a proporção dos candidatos a genes que têm uma função desconhecida versus uma anotação atual para genes de dados genômicos (vermelho) e metagenômicos (azul). A área listrada representa genes que foram detectados apenas em dados genômicos ou metagenômicos, enquanto os genes representados pelas cores sólidas foram identificados em dados genômicos e metagenômicos. (C, à esquerda) A novidade das previsões é ilustrada no nível da enzima e no nível do gene. As enzimas foram categorizadas em três categorias: (1) todos os genes candidatos para essa enzima são atualmente anotados como funcionalmente desconhecidos (amarelo), (2) alguns (geralmente a maioria) dos genes candidatos para a enzima são funcionalmente desconhecidos, enquanto outros são anotados com um número EC (amarelo / verde) e (3) todos os genes candidatos para aquela enzima têm uma anotação EC atual (verde). Os genes candidatos são então divididos em funcionalmente desconhecidos (amarelo) e atualmente anotados (verde). (C, à direita) Para aqueles 40 & # x00025 dos genes candidatos que estão anotados atualmente, ilustramos o nível de concordância entre nosso número EC previsto e a anotação atual. Sobrepusemos isso com dados semelhantes do KEGG, já que mais de 30 & # x00025 dos OGs no KEGG são atribuídos a vários números de EC (Figura suplementar 2). As barras brancas representam a multifuncionalidade da atividade enzimática nos dados originais do KEGG e as verdes os genes candidatos anotados atualmente.

Confirmação experimental da função enzimática prevista para duas sequências candidatas

Depois de determinar que nosso pipeline pode revelar previsões de alta confiança para sequências candidatas para enzimas órfãs, realizamos confirmações experimentais.Avaliamos a facilidade de validação experimental para algumas das previsões de alta confiança (por exemplo, acesso ao gDNA) de 45 números EC correspondentes, 15 sequências foram passíveis de clonagem e 7 foram escolhidas para validação funcional com base na disponibilidade comercial dos reagentes bem como a capacidade de monitorar os substratos e produtos usando os métodos analíticos disponíveis. Das seis proteínas que foram expressas de forma heteróloga com sucesso, a função proposta foi verificada para duas enzimas (Seção Suplementar 5).

Conseguimos verificar experimentalmente a função correta das sequências candidatas para EC 2.6.1.14 (asparagina oxo-ácido transaminase, Figura 4A à esquerda) e EC 2.6.1.38 (histidina transaminase, Figura 4A à direita), mostrando a confiabilidade deste pipeline de predição. Usando o pipeline de previsão, recuperamos as sequências candidatas para essas duas enzimas usando dados genômicos (EC 2.6.1.14) ou genômicos e metagenômicos (EC 2.6.1.38) (Figura 4B). As sequências candidatas foram expressas de forma heteróloga e em ensaios contendo as proteínas candidatas purificadas e os substratos, os produtos de reação esperados foram identificados de forma inequívoca usando uma combinação de LC / MS e MS / MS (Figura 4C e Figuras Suplementares 11 e # x0201317 ver Seção Suplementar 5 para detalhes). Em relação às outras quatro proteínas candidatas (para EC 2.1.1.19, 2.1.1.68, 2.3.1.32 e 2.7.1.28), nem a formação do produto nem o consumo de substrato foram detectados em ensaios enzimáticos por LC / MS. Para EC 2.7.1.28, um pico de intensidade muito leve com um m / z consistente com um dos produtos, D-gliceraldeído-3-fosfato, pode ser detectado. No entanto, as análises de LC / MS não puderam nos levar a concluir a atividade prevista, uma vez que o substrato D-gliceraldeído nunca foi detectado e nem o consumo de ATP nem a formação de ADP puderam ser estabelecidos. Além disso, dois ensaios espectrofotométricos contínuos diferentes foram configurados para tentar confirmar a atividade prevista. No primeiro, a produção de ADP foi acoplada ao consumo de NADH, utilizando piruvato quinase comercial e lactato desidrogenase, juntamente com fosfoenolpiruvato. No segundo, a produção de gliceraldeído-3-fosfato foi acoplada à produção de NADH utilizando gliceraldeído-3-fosfato desidrogenase comercial. Em ambos os casos, os ensaios foram inconclusivos. No entanto, conforme detalhado na discussão, pode haver muitas dificuldades no processo experimental para validar a função de uma enzima, portanto, ausência de evidência não é necessariamente evidência de ausência.

Enzimas órfãs com validação experimental. (UMA) As reações químicas catalisadas pelas duas enzimas órfãs para as quais as sequências candidatas foram validadas experimentalmente (B) Vizinhos da via metabólica e vizinhos do genoma das enzimas órfãs. (C) Cromatograma de íons extraídos (EIC) e gráficos de MS / MS que suportam a identidade dos produtos de reação esperados.

Avaliação da novidade funcional e multifuncionalidade para as sequências candidatas

Depois que o benchmarking e as validações experimentais mostraram a confiabilidade do pipeline, examinamos as enzimas órfãs validadas e seus genes correspondentes com mais detalhes. Como esperado a partir do benchmarking, o número de enzimas para as quais as sequências candidatas podem ser previstas foi maior para dados genômicos do que para metagenômicos (Figura 3A). Isso se deve em parte ao curto comprimento dos contigs nos dados metagenômicos, pois isso reduz o número de vizinhos genômicos que estão disponíveis para a primeira tela de nosso pipeline. Para 48 enzimas, as sequências candidatas foram previstas a partir de dados metagenômicos e genômicos. No entanto, para 13 enzimas órfãs, encontramos sequências candidatas apenas em dados metagenômicos, exemplificando a capacidade deste pipeline para detectar sequências de bactérias em amostras ambientais. Um exemplo é a biotina CoA sintetase (6.2.1.11) encontrada nos metagenomas intestinais. Essa previsão é apoiada pelo fato de que a síntese bacteriana e a degradação da biotina são reconhecidamente importantes no intestino grosso humano (Said, 2009, Arumugam et al, 2011).

Até 9884 das sequências candidatas individuais (cerca de 60 & # x00025) são anotadas como & # x02018 função desconhecida ', & # x02018 hipotética' ou semelhante (Figura 3B), e atribuí-las a atividades órfãs, portanto, fornece anotações funcionais que podem ser propagadas posteriormente em genomas recentemente sequenciados através do uso de métodos de anotação baseados em homologia. Uma fração ainda maior de sequências não anotadas previstas para codificar para enzimas órfãs pode ser encontrada em dados de metagenômica (Figura 3B).

No geral, 40 & # x00025 das sequências candidatas já estão anotadas com um número EC (Figura 3C). Acreditamos que a grande maioria destes implica multifuncionalidade, por ser um atributo comum das enzimas (Nobeli et al, 2009). Na verdade, mais de 30 & # x00025 dos genes no banco de dados KEGG são atribuídos a mais de um número EC (Figura Suplementar 3B). Destas enzimas multifuncionais no KEGG, cerca de 30 & # x00025 são atribuídos a números EC que concordam com até 3 dígitos, enquanto outras 50 & # x00025 não têm concordância entre os diferentes números EC. Nossas sequências candidatas que têm uma anotação atual e são potencialmente multifuncionais têm uma tendência semelhante no nível de concordância entre os números EC atribuídos e previstos (Figura 3C). Portanto, é plausível que esses genes com anotações atuais representem enzimas multifuncionais, embora não possamos descartar previsões equivocadas de nosso pipeline nem erros nas anotações atuais devido à natureza automática da maioria das anotações do genoma.

Além de acoplar sequências não anotadas a funções específicas, nossas pedicções também forneceram funções putativas para certos Domínios de Função Desconhecida (domínios DUF). O pipeline de previsão levou à identificação de cinco domínios DUF que são exclusivos para candidatos a enzimas órfãs. Por exemplo, DUF2254 está presente apenas em genes previstos para codificar o órfão EC 2.4.2.15, guanosina fosforilase (Tabela Suplementar 5). Como um subproduto de nosso pipeline, também identificamos 150 domínios DUF que são exclusivos para números EC não órfãos específicos ainda não foram anotados até agora (Tabela Suplementar 6) e devem melhorar vários estudos que usam bancos de dados de domínio como Pfam ou SMART ( Finn et al, 2010 Letunic et al, 2012).

Previsões de alta confiança geram sequências putativas para enzimas com aplicações comerciais e biotecnológicas

Algumas enzimas órfãs de nossas previsões de alta confiança têm potenciais aplicações comerciais ou médicas, por exemplo EC 2.8.1.5, tiossulfato & # x02014 ditiol sulfurtransferase, envolvido nas vias metabólicas do enxofre que são essenciais em muitas bactérias patogênicas, mas não estão presentes em humanos e podem, portanto, fornecer alvos de drogas. Além disso, quatro das enzimas órfãs com pontuações muito altas podem ser utilizadas para a síntese de nutracêuticos comercialmente disponíveis, uma pode ser usada na indústria de alimentos e outras duas têm aplicações em biorremediação (Tabela Suplementar 7). Além disso, genes candidatos foram previstos para fenilpiruvato descarboxilase (EC 4.1.1.43), usando uma combinação de parâmetros com precisão de 80 & # x00025, que converte fenilpiruvato em fenilacetaldeído, que é a primeira e crucial etapa na síntese de álcoois superiores de cadeia ramificada como biocombustíveis (Atsumi et al, 2008). Os genes que nossa análise vinculou à fenilpiruvato descarboxilase representam um repertório valioso para a produção eficiente de biocombustíveis. Todas as previsões e sequências estão disponíveis em nosso site (http://www.bork.embl.de/∼yamada/orphan_enzymes/).

Reações de enzimas órfãs melhoram a precisão de modelos metabólicos em escala de genoma

Para medir o impacto de nossas descobertas em modelos metabólicos em escala de genoma, analisamos as reações representadas pelos 120 modelos metabólicos obtidos no banco de dados do Modelo SEED (Henry et al, 2010) (Tabela Suplementar 8) e determinamos se algum deles continha enzimas órfãs para o qual temos previsões confiáveis. Para a maioria dos modelos metabólicos, as reações codificadas pelas enzimas órfãs não foram incluídas e, portanto, representam novas reações. Para cada modelo, havia cerca de 40 novas reações com média de cerca de 5 & # x0201310 & # x00025 do total de reações (Figura 5). Curiosamente, essa tendência foi observada para modelos reconstruídos manualmente, bem como para modelos reconstruídos automaticamente. Por exemplo, na reconstrução mais recente para Escherichia coli (Orth et al, 2011), 49 novas reações (de combinações de parâmetros com precisão estimada & # x0003e70 & # x00025) podem ser adicionadas ao modelo, enquanto apenas 1 reação no modelo atual representa uma dessas enzimas órfãs (Tabela Suplementar 9). O fato de que essas enzimas órfãs não estão representadas nos modelos metabólicos mostra que a integridade dessas reconstruções depende muito da qualidade da anotação atual e, portanto, é consideravelmente afetada pelas enzimas órfãs.

Enriquecimento de modelos metabólicos em escala de genoma por enzimas órfãs. O gráfico de barras mostra o número de reações em 120 modelos metabólicos em escala de genoma disponíveis publicamente do Model Seed (Henry et al, 2010) (branco) e novas reações enzimáticas para esses modelos previstos por nosso pipeline com mais de 70 & # x00025 precisão (vermelho). As lacunas atuais em termos de reações catalisadas por enzimas também são mostradas (azul). O gráfico de linha representa a fração de novas enzimas contribuídas por enzimas órfãs. Apenas os 10 modelos com a maior fração de novas reações são mostrados. O histograma no canto inferior direito mostra a distribuição da nova fração para 120 modelos de sementes usados ​​neste estudo (Tabela Suplementar 7).

Para estimar o impacto das novas reações nas simulações de fluxo usando esses modelos, realizamos a análise de acoplamento de fluxo (FCA) (Burgard et al, 2004), antes e depois de adicionar as novas reações enzimáticas órfãs correspondentes aos modelos. O FCA comparativo nos ajudou a elucidar sistematicamente os efeitos da adição de novas reações na topologia de conectividade de fluxo na escala de rede inteira (consulte Materiais e métodos). No caso do mais recente (com curadoria manual) E. coli modelo (Orth et al, 2011), uma grande fração (16 & # x00025) das relações de dependência entre os fluxos foram alteradas após a adição de 49 novas reações (Figura Suplementar 9). Em geral, a adição de novas reações levou a uma diminuição no número de reações acopladas. Por exemplo, foram detectadas mudanças nas vias de biossíntese de vitaminas, onde a adição das reações órfãs levou a uma diminuição no número de reações totalmente acopladas (pares de reações para os quais os fluxos correspondentes são diretamente proporcionais entre si). Esta tendência mostra que as novas reações estão relativamente bem incorporadas na rede existente e fornecem ramificações adicionais para o roteamento do fluxo.

Em seguida, para estabelecer se a adição de reações de enzimas órfãs aos modelos atuais melhora sua precisão, determinamos se os modelos atualizados eram melhores em prever a essencialidade do gene. Para & # x0223c80 & # x00025 dos 72 modelos SEED testados, havia pelo menos um gene para o qual a previsão mudou de essencial para não essencial, com a maior alteração sendo 26 genes no caso de Salmonella typhimurium. Para o resto & # x0223c20 & # x00025 dos modelos, nenhuma mudança nas previsões de essencialidade foi observada após a adição das reações de enzimas órfãs (Figura suplementar 10). A adição de novas reações a um modelo pode alterar as previsões existentes de duas maneiras diferentes (i) as falsas previsões essenciais podem então ser previstas corretamente como não essenciais e / ou, (ii) algumas das verdadeiras previsões essenciais são posteriormente erroneamente previstas como não essencial. Para determinar se as mudanças observadas nas previsões de essencialidade eram biologicamente significativas, comparamos o estado de essencialidade determinado experimentalmente dos genes com o estado de essencialidade previsto a partir dos modelos com e sem as reações enzimáticas órfãs. Quatro das espécies sondadas em nosso estudo tinham dados de essencialidade do gene em todo o genoma disponíveis. Para o Bacillus subtilis modelo, nenhuma alteração foi prevista para a essencialidade do gene após a adição das reações enzimáticas órfãs correspondentes. No entanto, para as outras três espécies, E. coli K-12, Campylobacter jejuni subsp. Jejuni NCTC 11168 e Helicobacter pylori J99, as previsões para um total de 15 genes mudaram para não essenciais devido à adição das reações de enzimas órfãs. Todas essas alterações para não essenciais foram então consideradas consistentes com os resultados de dados experimentais de nocaute de todo o genoma, ilustrando que a adição das reações de enzimas órfãs aos modelos metabólicos os tornou mais precisos para análises de nocaute de gene (Figura 6B).

Predições de essencialidade de gene para modelos metabólicos em escala de genoma, incluindo enzimas órfãs. (UMA) Distribuição do número de genes para os quais a previsão computacional mudou de essencial para não essencial em 72 modelos metabólicos em escala de genoma (Tabela Suplementar 8). (B) Comparação das previsões de essencialidade do gene dos modelos com / sem enzimas órfãs com a essencialidade derivada de dados experimentais. Apenas genes para os quais a adição de enzimas órfãs alterou as previsões existentes são mostrados.


MATERIAIS E MÉTODOS

Vislumbre

A característica saliente de Glimmer é o uso de modelos de Markov interpolados (IMMs) para capturar a composição do gene (18). IMMs são modelos de cadeia de Markov de ordem variável que maximizam a ordem do modelo para cada janela de oligonucleotídeo específica com base na quantidade de dados de treinamento disponíveis. IMMs, então, interpola as distribuições de nucleotídeos entre a ordem escolhida e uma maior. Assim, os IMMs constroem o modelo de composição mais sofisticado que as sequências de dados de treinamento suportam. Para segmentar a sequência em sequências codificantes e não codificantes, Glimmer usa uma estrutura baseada em ORF flexível que incorpora o conhecimento de como os genes procarióticos podem se sobrepor e recursos a montante dos locais de iniciação da tradução (TIS), como o local de ligação ribossômica (RBS). Glimmer extrai cada ORF suficientemente longa da sequência e pontua pela razão de log-verossimilhança de gerar a ORF entre os modelos treinados na sequência codificadora versus não codificadora. Os recursos incluídos na razão de probabilidade de log são composição por meio de IMMs, RBS por meio de uma matriz de peso de posição (PWM) e uso de códon de início. Para simplificar, os recursos são considerados independentes para que a pontuação geral possa ser calculada como uma soma das razões de probabilidade de log de recursos individuais. Um algoritmo de programação dinâmica encontra o conjunto de ORFs com pontuação máxima sujeito à restrição de que os genes não podem se sobrepor por mais do que um certo limite, por exemplo, 30 bp.

Características adicionais

Glimmer é ineficaz em sequências metagenômicas porque seu modelo de composição de genes é treinado sob a suposição de que todas as sequências se originaram de um único genoma. Abordagens recentes relaxam essa suposição e adicionam novos recursos usados ​​para discriminar entre sequência codificadora e não codificadora. Uma abordagem chamada MetaGeneAnnotator (MGA) usa uma estrutura semelhante ao Glimmer, pontuando ORFs e escolhendo um conjunto de alta pontuação usando programação dinâmica (25). MGA incorpora características de gene adicionais, das quais adicionamos três - comprimento de ORF, orientação de gene adjacente e distância de gene adjacente - ao Glimmer. Abaixo, descrevemos como calcular modelos para esses recursos, dado um genoma anotado. Nas seções a seguir, explicaremos melhor como esses genomas são obtidos.

Primeiro, buscamos distribuições de probabilidade para o comprimento de ORFs codificantes e não codificantes. Para o modelo de codificação, nossos dados de amostra são os comprimentos dos genes anotados no genoma de treinamento. Para o modelo não codificante, os comprimentos das ORFs não codificantes que atendem a um limite mínimo de comprimento (75 bp) e um limite máximo de sobreposição com um gene (30 bp) são considerados. Pode-se estimar as distribuições usando um método não paramétrico com base no histograma de comprimentos ou um método paramétrico onde se assume uma distribuição de probabilidade bem estudada e calcula os parâmetros de máxima verossimilhança (38). Usamos ambos os métodos para obter nossa estimativa. Onde os dados de treinamento são abundantes, como para tamanhos comuns de genes, uma abordagem não paramétrica (como suavização de kernel) oferece maior precisão de modelagem do que qualquer distribuição parametrizada. Mas quando os dados são esparsos, como para ORFs muito longos, a abordagem não paramétrica falha. Por exemplo, não podemos atribuir uma probabilidade útil a uma ORF maior do que qualquer outra em nosso conjunto de treinamento, embora ela deva obviamente receber uma grande pontuação de razão de probabilidade de log. Uma distribuição parametrizada pode atribuir probabilidades significativas a ORFs de qualquer comprimento. Analisamos uma série de distribuições e descobrimos que uma distribuição Gama modelou com mais precisão as distribuições de comprimento do gene examinadas e produziu as previsões de genes de maior precisão.

Para combinar as duas versões, usamos um histograma após a suavização do kernel com um kernel Gaussiano (38) para o primeiro quartil (conforme determinado pelas contagens brutas), uma distribuição Gama com parâmetros de máxima verossimilhança para o último quartil e uma combinação linear do dois com um coeficiente de variação linear entre eles (por exemplo, Figura 1). O desempenho foi robusto para outros esquemas de mistura e para os pontos em que o modelo muda. Classificamos uma ORF com a razão de probabilidade de log de que o recurso foi gerado pelo modelo de codificação versus não codificação e a adicionamos à pontuação geral da ORF.

Distribuições para comprimentos de ORF codificantes e não codificantes (em aminoácidos) de Deinococcus radiodurans R1 estimado usando a distribuição Gama (Gama), um histograma suavizado (Hist), e uma mistura dos dois primeiros (Mistura) que usa o modelo de histograma para o primeiro quartil, o modelo Gama para o último quartil e uma combinação linear entre os dois. o Hist modelo oferece maior precisão para ORFs curtos e médios (por exemplo, o desvio de Gama a 200 bp no gráfico de codificação), mas é inútil para ORFs muito longos, que Gama pode modelar de forma mais eficaz. A forma do D. radiodurans as distribuições de comprimento são típicas dos genomas procarióticos examinados, mas Glimmer-MG estima as distribuições para cada genoma individualmente.

Distribuições para comprimentos de ORF codificantes e não codificantes (em aminoácidos) de Deinococcus radiodurans R1 estimado usando a distribuição Gama (Gama), um histograma suavizado (Hist), e uma mistura dos dois primeiros (Mistura) que usa o modelo de histograma para o primeiro quartil, o modelo Gama para o último quartil e uma combinação linear entre os dois. o Hist modelo oferece maior precisão para ORFs curtos e médios (por exemplo, o desvio de Gama a 200 bp no gráfico de codificação), mas é inútil para ORFs muito longos, que Gama pode modelar de forma mais eficaz. A forma do D. radiodurans as distribuições de comprimento são típicas dos genomas procarióticos examinados, mas Glimmer-MG estima as distribuições para cada genoma individualmente.

ORFs truncados ao final de seus fragmentos requerem um ajuste no modelo de comprimento. Sabemos que o comprimento total de uma ORF truncada com X bp em um fragmento é pelo menos X e deve, portanto, ser pontuado mais alto do que um completo X bp ORF.Conseguimos isso modelando a distribuição conjunta do comprimento e a presença de códons de início e parada (Métodos Suplementares).

Recursos calculados em pares de genes adjacentes também capturam informações úteis. Por exemplo, os genes são freqüentemente arranjados próximos na mesma orientação para formar unidades transcricionais chamadas operons (39). Alternativamente, genes consecutivos com orientações "cabeça a cabeça" opostas (onde as extremidades 5 'dos ​​genes são adjacentes) tendem a ser mais distantes para permitir espaço para o respectivo RBS de cada gene. Adicionamos duas características de genes adjacentes: sua orientação em relação um ao outro e a distância entre eles. Novamente, precisamos de distribuições para ORFs codificantes e não codificantes para pontuar um par de genes adjacentes por sua razão de probabilidade logarítmica. O modelo de gene usa todos os pares adjacentes de genes anotados. Para o modelo não codificante, consideramos pares incluindo ORFs não codificantes que satisfazem as restrições de comprimento e sobreposição com seus genes anotados adjacentes.

Para orientação de genes adjacentes, contamos o número de vezes que cada arranjo adjacente aparece nos dados de treinamento e normalizamos as contagens para probabilidades. O modelo de distância do gene adjacente é estimado de forma semelhante aos modelos de comprimento do gene descritos acima. No entanto, as distribuições parametrizadas comuns não foram um bom ajuste para as distâncias, portanto, contamos apenas com um histograma suavizado. Como o códon de início de um gene freqüentemente se sobrepõe ao códon de parada de outro gene devido a nucleotídeos compartilhados, não suavizamos o histograma para distâncias que implicam em sobreposição de códons de início ou parada. Incorporamos esses recursos durante o algoritmo de programação dinâmica do Glimmer para escolher ORFs, adicionando as relações de log-verossimilhança ao vincular um ORF ao seu ORF adjacente anterior.

Classificação

Todas as abordagens publicadas anteriormente para a predição do gene metagenômico parametrizam os modelos de composição do gene em função do conteúdo de GC da sequência. Por exemplo, o MetaGeneMark calcula (offline) uma regressão logística para cada frequência de dicodonte como uma função do conteúdo de GC para um grande conjunto de genomas de treinamento e define seus parâmetros de modelo de Markov ocultos (online) de acordo com o conteúdo de GC da sequência metagenômica ( 28). Para genomas inteiros, o treinamento do modelo de composição de genes tem sido tradicionalmente realizado em parentes evolutivos próximos anotados, em vez de genomas com conteúdo de GC semelhante (40). Muitos métodos para atribuir uma classificação taxonômica a uma sequência metagenômica estão atualmente disponíveis (29–32). Aqui, sugerimos o uso de um desses métodos chamado Phymm (29), em vez de conteúdo de GC, para encontrar parentes evolutivos das sequências metagenômicas nas quais treinar. Phymm treina um IMM em cada genoma de referência no GenBank (41), pontua cada sequência de entrada com todos os IMMs e atribui uma classificação em cada nível taxonômico de acordo com o genoma de referência do IMM de maior pontuação. Os IMMs de Phymm são únicos periódicos e treinados em todas as sequências genômicas, em contraste com os IMMs de Glimmer, que são três periódicos e treinados apenas em sequências de codificação.

Assim, antes de predizer genes, executamos Phymm nas sequências de entrada para pontuar cada sequência com cada IMM de referência. Para treinar os modelos de predição de genes, usamos anotações de genes para os genomas correspondentes aos IMMs de maior pontuação. Essas anotações são retiradas do banco de dados RefSeq do NCBI (42). Embora a classificação com Phymm seja muito precisa, a pontuação mais alta IMM raramente é do genoma de origem exata da sequência. Por esta razão, descobrimos que o treinamento em vários genomas (por exemplo, 43) capturou um sinal mais amplo que melhorou a precisão da previsão. Embora a maior parte do treinamento possa ser realizada offline, os modelos em vários genomas devem ser combinados online para cada sequência. Recursos como comprimento, códon inicial e distribuições de genes adjacentes são fáceis de combinar em vários genomas de treinamento, simplesmente somando as contagens de recursos.

IMMs não podem ser combinados rapidamente e salvar IMMs treinados para todas as combinações de dois ou três genomas exigiria muito espaço em disco. Na prática, pares de genomas com composição semelhante têm muito mais probabilidade de serem resultados de classificação de topo juntos e podemos restringir nosso treinamento off-line apenas a esses pares (Métodos Suplementares).

O modelo RBS da Glimmer-MG treina usando ELPH (http://cbcb.umd.edu/software/ELPH), um localizador de motivos baseado na amostragem de Gibbs, para aprender um PWM de 6 pb de 25 pb a montante de cada gene no conjunto de treinamento. Treinamos esses PWMs offline para cada genoma de referência individual, mas, como os outros recursos, a modelagem RBS para sequências metagenômicas se beneficia do sinal mais amplo obtido pela combinação de vários genomas de treinamento. A média de PWMs para as três classificações principais de Phymm pode ser feita rapidamente, mas dilui o sinal. Em vez disso, generalizamos o modelo RBS em Glimmer-MG para pontuar a região a montante de cada códon de início usando uma mistura de PWMs em proporções iguais. Assim, a pontuação RBS de um gene é a probabilidade de que o melhor motivo de 6 bp nos 25 bp a montante do códon de início foi gerado por uma mistura de três PWMs normalizados por um modelo nulo com base no conteúdo de GC para uma razão de probabilidade logarítmica.

Dois casos interessantes justificam uma discussão mais aprofundada. Em primeiro lugar, uma nova sequência pode não ser filogeneticamente relacionada a nenhum genoma de referência conhecido no banco de dados. Aqui, os IMMs de maior pontuação de Phymm representarão meramente os genomas de referência com a composição de nucleotídeos mais semelhante. Trabalhos anteriores demonstrando a relação entre até mesmo estatísticas de composição de nucleotídeos simples e parâmetros de modelo de predição apóiam a validade desta estratégia (24-28). Além disso, não detectamos uma relação significativa entre a precisão da previsão e a divergência de uma sequência do banco de dados do genoma de referência (Figura Suplementar S2). Em segundo lugar, algumas sequências conterão genes transferidos horizontalmente. Embora a predição de um único gene de genoma normalmente não consiga implementar um modelo geral o suficiente para prever esses genes com precisão, Glimmer-MG é mais robusto porque Phymm provavelmente irá 'classificar erroneamente' a sequência que contém o gene, marcando a sequência mais altamente com IMMs mais representativos do genoma a partir do qual o gene foi transferido do que o verdadeiro genoma fonte da sequência.

Clustering

O seguinte pipeline de previsão foi aplicado com sucesso em genomas procarióticos inteiros. Primeiro, treine os modelos em um parente evolutivo próximo terminado e anotado. Faça previsões iniciais, mas depois treine novamente os modelos sobre eles e faça um conjunto final de previsões (40). Usando Phymm para encontrar genomas de treinamento, replicamos a primeira etapa neste pipeline para aplicação em metagenômica. No entanto, o retreinamento de todo o conjunto de sequências combinaria genes de muitos organismos diferentes e geraria um modelo inespecífico e ineficaz. Se as sequências pudessem ser separadas por seu genoma de origem, o retreinamento poderia ser aplicado.

Alcançamos esse objetivo usando S cimm, um método de agrupamento não supervisionado para sequências metagenômicas que modela cada cluster com um IMM periódico único (34). Depois de particionar inicialmente as sequências em um número especificado de clusters, o S cimm repete as três etapas a seguir até que os clusters estejam estáveis: treinar IMMs nas sequências designadas a seus clusters correspondentes, pontuar cada sequência usando cada IMM de cluster e redesignar cada sequência ao cluster correspondendo ao seu IMM de maior pontuação. Embora o S cimm possa não particionar as sequências exatamente por seu organismo de origem, os erros que tende a cometer não criam problemas significativos para o retreinamento dos modelos de predição de genes. Nos casos em que S cimm funde sequências de dois organismos, eles são quase sempre filogeneticamente relacionados no nível da família (34). Embora algumas famílias possam ser bastante diversas, essa relação filogenética compartilhada, combinada com a similaridade da composição de nucleotídeos que S cimm identifica mais diretamente, é encorajadora. Cimm às vezes separa as sequências de um único organismo em vários agrupamentos, mas isso ocorre com mais frequência para organismos altamente abundantes, caso em que geralmente ainda haverá dados de treinamento suficientes em cada agrupamento para serem informativos. As classificações Phymm que já foram obtidas implicam em um agrupamento inicial em um nível taxonômico especificado (por exemplo, família), que pode ser usado como uma partição inicial para a otimização de agrupamento iterativo em um modo do programa referido como PhyScimm (34). Usando PhyScimm também escolhe implicitamente o número de clusters, removendo esta variável livre.

Depois de agrupar as sequências, nos concentramos em cada cluster individualmente para treinar novamente os modelos de codificação IMM, RBS e códon de início antes de fazer as previsões finais dentro desse cluster. O comprimento de ORF e as distribuições de recursos de ORF adjacentes são mais difíceis de estimar a partir de fragmentos de sequência curta, portanto, continuamos a aprendê-los usando as classificações de Phymm para genomas anotados inteiros. Se o cluster for muito pequeno, o retreinamento pode não ter dados suficientes para capturar as características do gene e a precisão da previsão pode diminuir. Testamos vários limites e exigir pelo menos 80 Kb de sequência de codificação prevista para o retreinamento produziu as previsões de maior precisão. Para clusters com menos, não treinamos novamente e, em vez disso, finalizamos as previsões do gene a partir da iteração inicial. A precisão também pode diminuir se o cluster for heterogêneo e não modelar efetivamente algumas de suas sequências. Para cada sequência, calculamos a proporção entre a probabilidade de que o cluster IMM versus seu Phymm IMM de pontuação superior gerou a sequência. Se a proporção for muito baixa, presumimos que o cluster não representa essa sequência bem o suficiente e finalizamos suas previsões iniciais. O pipeline completo para a previsão do gene metagenômico é ilustrado na Figura 2.

Gasoduto Glimmer-MG. Primeiro, classificamos as sequências com Phymm para encontrar genomas de referência relacionados para treinar os modelos de características. Nós os usamos para fazer previsões iniciais de genes. Em seguida, agrupamos as sequências com S cimm, começando em uma partição inicial das classificações Phymm. Dentro de cada cluster, treinamos novamente os modelos nas previsões iniciais antes de usar todas as informações para fazer o conjunto final de previsões.

Gasoduto Glimmer-MG. Primeiro, classificamos as sequências com Phymm para encontrar genomas de referência relacionados para treinar os modelos de características. Nós os usamos para fazer previsões iniciais de genes. Em seguida, agrupamos as sequências com S cimm, começando em uma partição inicial das classificações Phymm. Dentro de cada cluster, treinamos novamente os modelos nas previsões iniciais antes de usar todas as informações para fazer o conjunto final de previsões.

Erros de sequenciação

A predição do gene em leituras de sequenciamento bruto ou contigs com baixa cobertura deve lidar com erros de sequenciamento. O tipo de erro mais comum cometido pela tecnologia de sequenciamento 454 é uma inserção ou exclusão (indel) em uma execução de homopolímero. Os indels causam grandes problemas para a predição do gene ao mudar a estrutura de codificação do gene verdadeiro, tornando impossível para um método sem um modelo para esses erros predizê-lo com exatidão. Quando Glimmer-MG encontra um gene alterado, o resultado mais frequente são duas previsões, cada uma das quais cobre metade do gene até o ponto do indel e depois (Figura 3). Essas previsões têm utilidade limitada.

Erros de Indel. Descrito acima, é um caso comum em que erros de sequenciamento indel interrompem a previsão de um gene. Esta leitura simulada de 526 bp de 454 cai dentro de um gene na direção direta, mas tem uma inserção na posição 207 e uma exclusão na posição 480. Sem modelar erros de sequenciamento, Glimmer-MG começa a prever corretamente o gene (mostrado em verde), mas é deslocado para o quadro errado pela inserção (mostrado em vermelho) e logo atinge um códon de parada. A jusante, Glimmer-MG faz outra previsão no quadro de codificação correto, mas também é forçado a entrar no quadro errado pela exclusão. Ao permitir que o Glimmer-MG preveja mudanças de quadro a partir de erros de sequenciamento, a previsão segue o quadro de codificação quase perfeitamente. O local de inserção é previsto com exatidão e o local de exclusão é desviado apenas em 19 bp.

Erros de Indel. Descrito acima, é um caso comum em que erros de sequenciamento indel interrompem a previsão de um gene. Esta leitura simulada de 526 bp de 454 cai dentro de um gene na direção direta, mas tem uma inserção na posição 207 e uma exclusão na posição 480. Sem modelar erros de sequenciamento, Glimmer-MG começa a prever corretamente o gene (mostrado em verde), mas é deslocado para o quadro errado pela inserção (mostrado em vermelho) e logo atinge um códon de parada. A jusante, Glimmer-MG faz outra previsão no quadro de codificação correto, mas também é forçado a entrar no quadro errado pela exclusão. Ao permitir que o Glimmer-MG preveja mudanças de quadro a partir de erros de sequenciamento, a previsão segue o quadro de codificação quase perfeitamente. O local de inserção é previsto com exatidão e o local de exclusão é desviado apenas em 19 bp.

Embora os problemas causados ​​por erros de sequenciamento sejam conhecidos há algum tempo (23, 22), apenas recentemente uma boa solução foi publicada no programa FragGeneScan (26). FragGeneScan usa um modelo Markov oculto onde cada um dos três índices em um códon são representados por um estado de modelo, mas permite transições irregulares entre os estados do códon que implicam a presença de um indel na sequência. Em sequências simuladas contendo erros, o FragGeneScan atinge uma precisão muito maior do que os métodos anteriores que ignoram a possibilidade de erros.

Uma vez que Glimmer-MG usa uma abordagem baseada em ORF para predição de genes, devemos adotar uma abordagem mais Ad hoc abordagem para construir um modelo de erro no algoritmo. Primeiro, abordamos 454 erros indel. Quando Glimmer-MG está pontuando a composição de uma ORF usando os IMMs codificantes e não codificantes, permitimos a ramificação em quadros de leitura alternativos. Mais especificamente, percorremos a sequência e identificamos chamadas de base de baixa qualidade (definidas abaixo) que são fortes candidatas a um erro de sequenciamento. Nessas posições, dividimos a ORF em três ramos. Um ramo pontua o ORF como está. Os outros dois mudam para quadros diferentes para terminar a pontuação, o que implica uma previsão de inserção e exclusão. ORFs que mudam os quadros são penalizados pela razão de log-verossimilhança da probabilidade de correção prevista para a probabilidade de chamada de base original. Um máximo de duas previsões indel por ORF é usado para limitar o tempo de cálculo. Depois de pontuar todos os ORFs, os ORFs com o mesmo códon de início e de parada (mas combinações potencialmente diferentes de indels internos) são agrupados e apenas a versão de maior pontuação é mantida. Todas as ORFs restantes são empurradas para o estágio de programação dinâmica, onde o conjunto de genes com pontuação máxima sujeito a restrições de sobreposição é escolhido. No entanto, o algoritmo é ainda restrito a não permitir uma predição indel em uma região de genes sobrepostos.

Focar em chamadas de base de baixa qualidade (normalmente & lt5–10% da sequência) torna o cálculo viável. Se os valores de qualidade estiverem disponíveis para as sequências, seja da saída de leitura bruta ou do estágio de consenso de um montador, Glimmer-MG os usa e designa chamadas de base menores que um limite de valor de qualidade como locais de filial em potencial. Para 454 sequências em que faltam valores de qualidade, designamos a base final do homopolímero mais longo do que um limite de comprimento como locais de filial em potencial.

Em leituras Illumina, indels são raros e os erros primários são substituições (44). A maioria das substituições não afeta um códon de início ou de parada e é quase irrelevante para a previsão do gene. Nós nos concentramos no erro mais prejudicial, que é uma substituição que converte um códon regular em um códon de parada, truncando prematuramente o gene. Para prever tais erros, consideramos os erros de substituição para remover cada códon de parada na sequência. Ou seja, para cada ORF, consideramos um ORF alterado onde não existia o códon de parada anterior, combinando assim o ORF atual com o anterior no mesmo quadro. Da mesma forma que o modelo de erro 454, penalizamos esses ORFs alterados com a razão de probabilidade logarítmica (com base nos valores de qualidade) comparando a probabilidade de que o códon de parada contém um erro de sequenciamento que o alterou de um códon regular para a probabilidade de que realmente seja um códon de parada. Todos os ORFs normais e alterados são considerados durante o estágio de programação dinâmica para escolher o conjunto de pontuação máxima de ORFs.

Genomas inteiros

Embora tenhamos implementado os recursos genéticos adicionais com a metagenômica em mente, eles melhoram a precisão em genomas inteiros também. No Glimmer3.0, o seguinte pipeline foi recomendado (20). Primeiro, usando um programa chamado long-orfs, encontre ORFs longos não sobrepostos na sequência com composição de aminoácidos que é típica de genomas procarióticos. Treine o IMM de codificação nessas sequências e preveja genes no genoma. Nas previsões iniciais, treine o RBS e inicie os modelos de códon. Finalmente, faça um segundo conjunto de previsões de genes incorporando os novos modelos.

Recomendamos um esquema semelhante para um novo pipeline de genoma completo, designado como Glimmer3.1. Como antes, usamos long-orfs para treinar um IMM e prever um conjunto inicial de genes. Sem um modelo de comprimento, essas previsões iniciais tendem a incluir muitas previsões errôneas de pequenos genes. Usamos um limite de razão de probabilidade de log para filtrar os de pontuação mais baixa. Nos genes restantes, treinamos novamente todos os modelos - IMM, RBS, códons iniciais, comprimento e características de adjacência - antes de prever novamente. Para eliminar qualquer tendência remanescente da previsão e filtragem inicial, treinamos novamente e prevemos uma última vez.

O pipeline anterior não é supervisionado, mas podemos fazer um pouco melhor, em média, seguindo Glimmer-MG e usando genomas de referência do GenBank. Neste pipeline, primeiro classificamos nosso novo genoma com Phymm para encontrar genomas de referência semelhantes. Alternativamente, um pesquisador pode ser capaz de especificar esses genomas com base em conhecimento prévio. Treinamos RBS, códon de início, modelos de comprimento e adjacência a partir das anotações RefSeq desses genomas semelhantes, conforme descrito acima. Para o gene IMM, a precisão é melhor se usarmos long-orfs em comparação com um IMM treinado em genomas de referência relativos. Depois de fazer as previsões iniciais, treinamos novamente o IMM, o RBS e os modelos de códon de início antes de prevermos os genes pela última vez.

Metagenomas simulados

Construímos conjuntos de dados simulados de 1.206 genomas de procariotos no GenBank (41) em novembro de 2010. Uma vez que Glimmer-MG envolve o agrupamento das sequências, é importante ter metagenomas simulados realistas. Para cada metagenoma, escolhemos aleatoriamente 50 organismos e incluímos todos os cromossomos e plasmídeos. Amostramos abundâncias de organismos da distribuição de Pareto, uma distribuição de probabilidade de lei de potência que foi previamente usada para modelar metagenomas (45). Os genomas de referência incluídos no metagenoma foram removidos do banco de dados de Phymm para que as sequências parecessem novas e desconhecidas. Para simular uma única leitura, selecionamos um cromossomo ou plasmídeo com probabilidade proporcional ao produto de seu comprimento pela abundância do organismo e, a seguir, escolhemos uma posição e orientação aleatórias a partir dessa sequência. Para permitir a comparação entre experimentos com diferentes comprimentos de leitura e taxas de erro, simulamos 20 metagenomas (ou seja, organismos, abundâncias, posições de leitura e orientações de leitura) e os usamos para derivar o conjunto de dados de cada experimento.Rotulamos as leituras usando anotações de genes que não são descritas como proteínas hipotéticas de RefSeq (42).

Em experimentos em que consideramos erros de sequenciamento, nos concentramos em três tecnologias predominantes. Duas variedades de tecnologias de alto rendimento e leitura curta com características muito diferentes tornaram-se ferramentas onipresentes para o sequenciamento de genomas, incluindo metagenômica (46). A plataforma de sequenciamento Illumina gera leituras de comprimento de 35-150 bp com erros de sequenciamento que consistem quase inteiramente em substituições (44). A plataforma de sequenciamento 454 gera leituras de comprimento de 400-550 bp, onde indels constituem quase todos os erros (47). Menos popular em estudos recentes devido ao maior gasto e menor rendimento é o sequenciamento Sanger com comprimentos de leitura de 600-1000 bp e erros de substituição e de sequenciamento indel. Incluímos o sequenciamento Sanger porque os programas anteriores foram projetados e testados com a tecnologia em mente e porque as leituras se assemelham a contigs montados a partir das tecnologias de leitura curta mais prevalentes com relação ao comprimento e erros que tendem a ocorrer nas extremidades dos fragmentos.

Para imitar as leituras de Sanger, usamos os comprimentos e valores de qualidade de leituras reais tiradas do NCBI Trace Archive (41) como modelos. Ou seja, para cada fragmento simulado de um genoma conforme descrito acima, escolhemos aleatoriamente uma leitura Sanger real de nosso conjunto para determinar os valores de comprimento e qualidade da leitura simulada. Em seguida, simulamos erros na leitura de acordo com os valores de qualidade e usando uma proporção de cinco substituições por indel. Para atingir uma taxa de erro específica para um conjunto de dados, multiplicamos a probabilidade de erro em cada base por um fator definido pela taxa desejada. Para gerar leituras simuladas para imitar a plataforma Illumina, usamos de forma semelhante leituras reais de 124 bp como modelos para obter valores de qualidade, mas injetamos apenas erros de substituição. Para 454 leituras, usamos um simulador de leitura chamado FlowSim, que replica de perto o processo de sequenciamento estocástico 454 para gerar as sequências e seus valores de qualidade (43). Cortamos de forma conservadora todas as extremidades lidas para evitar grandes segmentos de sequência errônea.

Precisão

Calculamos a precisão de algumas maneiras de capturar os objetivos múltiplos da predição do gene. A sensibilidade é a proporção entre as previsões positivas verdadeiras e o número de genes verdadeiros, e a precisão é a proporção entre as previsões positivas verdadeiras e o número de genes previstos. Uma vez que as anotações RefSeq tendem a ser incompletas após a remoção de proteínas hipotéticas, que são previsões computacionais não confirmadas, consideramos a sensibilidade como a medida mais importante, pois as previsões de "falso positivo" podem na verdade ser genes reais. Por esse motivo, os valores de precisão nos experimentos que realizamos são artificialmente baixos e devem ser interpretados com cuidado. Para todos os experimentos, calculamos a sensibilidade e a precisão das extremidades 5 'e 3' dos genes separadamente. Como há apenas um único local 3 ', a previsão 3' geralmente recebe mais atenção. Freqüentemente, há muitas opções para a extremidade 5 'do gene e uma escassez de informações de sequência para discriminá-los. Para aumentar a dificuldade, a maioria das anotações 5 ′, mesmo no banco de dados RefSeq de alta qualidade, não foi verificada.

Em experimentos com erros de sequenciamento, os indels mudam a estrutura do gene e as substituições podem comprometer os códons de início e parada. Para medir a capacidade da previsão do gene de seguir o quadro de codificação, calculamos a sensibilidade e a precisão no nível dos nucleotídeos. Ou seja, cada nucleotídeo é considerado uma unidade e uma predição positiva verdadeira deve anotar o nucleotídeo como codificador no quadro correto. Uma predição de gene que é correta até que um erro de sequenciamento indel, mas previsto no quadro errado além disso, recebe crédito parcial, enquanto uma predição de gene que identifica a localização do erro e muda o quadro da previsão recebe todo o crédito.


Discussão

Aqui, descrevemos uma estratégia global para prever sequências candidatas para enzimas órfãs. As sequências candidatas foram obtidas usando uma combinação de adjacência da via metabólica e informações de vizinhança genômica. No geral, uma proporção menor de sequências candidatas foi obtida usando dados metagenômicos do que dados genômicos, mas isso pode ser apenas devido às restrições que tivemos que impor: Sanger e 454 amostras que têm uma baixa cobertura dos respectivos genomas. Embora muitas novas enzimas e organismos possam ser representados em amostras metagenômicas, o intestino humano e os metagenomas marinhos que usamos são comunidades complexas com centenas de espécies (Qin et al, 2010), e uma longa cauda de organismos de baixa abundância (Arumugam et al, 2011), limitando assim a cobertura de cada genoma individual e, portanto, a extensão da montagem. Consequentemente, a maioria dos contigs que analisamos continha apenas dois genes, limitando assim o número de pares de genes vizinhos que podem ser detectados (Figuras Suplementares 7 e 8). Embora alguns conjuntos de dados metagenômicos disponíveis tenham um grande número de contigs longos, eles são geralmente dominados por alguns genomas e, portanto, não oferecem acesso a um número maior de genomas (Tyson et al, 2004 Garcia Martin et al, 2006). No futuro, os contigs se tornarão mais longos, devido a aumentos nos comprimentos de leitura e melhorias nos algoritmos de montagem, aumentando, portanto, a capacidade deste pipeline de fazer previsões a partir de dados metagenômicos, permitindo maior acesso a novas atividades de amostras ambientais ocultas.

Além do benchmarking, apoiamos nossas previsões com a validação experimental da função enzimática proposta para duas das seis proteínas candidatas expressas de forma heteróloga. A proporção de sucessos experimentais é inferior à precisão esperada de 70%. No entanto, não esperaríamos que a proporção de sucessos experimentais fosse equivalente à precisão teórica da previsão. O processo experimental para validar uma função enzimática específica é um processo muito complexo que envolve muitas variáveis. Primeiro, uma enzima pode ser purificada em uma forma solúvel, mas se tornará inativa durante o processo de purificação devido ao manuseio incorreto ou exposição a condições desfavoráveis, como oxigênio. Além disso, as proteínas purificadas neste estudo foram marcadas com uma histidina (marcada com his), como muitas proteínas expressas de forma heteróloga. A adição de um his-tag terminal pode diminuir drasticamente a atividade de uma proteína (Kadas et al, 2008) ou torná-lo totalmente inativo (Albermann et al, 2000 Halliwell et al, 2001). Além disso, existem muitas variáveis ​​a serem otimizadas para os testes de atividade enzimática. Somente ajustando o tipo de tampão, o pH do tampão, os cofatores, o tempo de incubação, a temperatura de incubação ou os métodos analíticos usados, um determinado ensaio pode ter sucesso. Por exemplo, em ensaios de otimização de ensaio para EC 2.6.1.38, alteramos a fase móvel para o LC / MS de acetato de amônio 10 mM para água e a área do pico do produto glutamato foi aumentada mais de 11 vezes (Figura Suplementar 16). No entanto, há um limite prático para quantas permutações de condições experimentais podem ser tentadas, e somente se o ensaio de triagem inicial estiver próximo das condições ideais, uma otimização adicional é viável. No entanto, as duas validações em mãos são uma prova de princípio para nossa abordagem e, mesmo sem validação experimental adicional, os benchmarks indicaram sequências candidatas de alta precisão para 131 enzimas órfãs, mais de um terço das enzimas tratáveis ​​armazenadas em bancos de dados de vias.

Em seguida, para avaliar o impacto desse conhecimento expandido de enzimas na biologia de sistemas, comparamos os modelos metabólicos em escala de genoma atualmente disponíveis com e sem a adição de enzimas órfãs com previsões de alta confiança. Posteriormente, simulações de gene knockout mostraram que alguns genes considerados essenciais nos modelos atuais tornaram-se não essenciais após a adição das enzimas órfãs. A adição dessas enzimas órfãs aumentou a precisão dos modelos, pois todos os genes para os quais a essencialidade do gene mudou agora concordam com o status de essencialidade determinado experimentalmente do gene. Curiosamente, várias das reações para as quais as previsões essenciais para as não essenciais mudaram foram reações introduzidas pelo procedimento de preenchimento de lacunas automatizado durante o processo de reconstrução. Esta observação sugere que as reações de enzimas órfãs não apenas influenciarão as simulações do modelo, mas também provavelmente afetarão o procedimento de preenchimento de lacunas e, portanto, o conteúdo da reação do modelo final, além da simples adição de algumas novas reações. Em conjunto, a porcentagem de novas reações, FCA e previsões aprimoradas de essencialidade do gene significam que nossos resultados irão melhorar o processo de reconstrução automática e manual para modelos metabólicos em escala de genoma e suas aplicações (Oberhardt et al, 2009 ).

Cerca de 70% das enzimas órfãs em KEGG não têm vizinhos de caminho e, portanto, não são receptivos ao nosso pipeline atual (Figura 1). No entanto, no futuro, nosso pipeline de identificação de genes candidatos pode ser modificado para identificar outros genes que podem estar funcionalmente relacionados às enzimas órfãs por meio da integração de dados funcionais em escala de genoma, como telas de letalidade de genes (Nichols et al, 2011), interações genéticas (Costanzo et al, 2010) ou perfis de expressão gênica. Isso deve permitir que se recupere genes candidatos pesquisando a vizinhança do gene dos ortólogos desses genes que estão funcionalmente relacionados às enzimas órfãs. Além disso, o pipeline atual é aplicável apenas a genomas procarióticos. No entanto, ele poderia ser estendido para analisar parcialmente os genomas de fungos, uma vez que certas vias metabólicas secundárias são conhecidas por serem organizadas em grupos de genes (Regueira et al, 2011 ).

A ligação de sequências a essas funções órfãs implica que essas funções podem ser utilizadas em métodos baseados em genoma, transcriptoma e proteoma. Aqui, ilustramos o impacto em modelos metabólicos em escala de genoma. Esse benefício será propagado em muitos sistemas biológicos diferentes, pois essas sequências agirão como isca para que os genomas recém-sequenciados possam receber essas funções por meio de métodos de anotação baseados em homologia. Esta é a primeira abordagem sistemática para recuperar sequências de muitas enzimas órfãs, e a estrutura computacional desenvolvida pode ser aplicada a genomas e metagenomas adicionais à medida que são sequenciados.


Cientistas prevêem desempenho acadêmico apenas com base no DNA

Cientistas do King's College London usaram uma nova técnica de pontuação genética para prever o desempenho acadêmico apenas com o DNA. Esta é a previsão mais forte do DNA de uma medida comportamental até hoje.

A pesquisa mostra que uma pontuação genética compreendendo 20.000 variantes de DNA explica quase 10 por cento das diferenças entre o nível educacional das crianças aos 16 anos de idade. Portanto, o DNA sozinho fornece uma previsão muito melhor do desempenho acadêmico do que gênero ou mesmo 'coragem', uma personalidade traço pensado para medir a perseverança e a paixão por objetivos de longo prazo.

Publicado hoje em Psiquiatria Molecular, essas descobertas marcam um 'ponto de inflexão' na previsão do desempenho acadêmico e podem ajudar a identificar crianças que correm maior risco de ter dificuldades de aprendizagem.

Pesquisas anteriores sobre estudos com gêmeos descobriram que 60 por cento das diferenças entre o desempenho educacional dos indivíduos são devidas a diferenças no DNA. Embora isso possa parecer distante dos 10 por cento previstos neste estudo, os autores observam que os estudos com gêmeos examinam a soma total de todos os efeitos genéticos, incluindo variantes comuns e raras, interações entre genes e interações gene-ambiente. Os estudos com gêmeos podem, portanto, nos dizer a influência genética geral sobre uma característica em uma população. As pontuações poligênicas, entretanto, estimam a influência genética apenas de variantes comuns, o que explica a discrepância entre esses estudos baseados em DNA e estudos de gêmeos (10 por cento vs 60 por cento).

Como as características humanas são tão complexas e influenciadas por milhares de variantes de genes de efeito muito pequeno, é útil considerar os efeitos conjuntos de todas essas variantes associadas às características - e este princípio fundamenta o método de pontuação poligênica. O valor das pontuações poligênicas é que elas nos permitem estimar os efeitos genéticos para o desempenho acadêmico, ou qualquer outra característica, em um nível individual, com base no DNA de uma pessoa.

O cálculo da pontuação poligênica de um indivíduo requer informações de um estudo de associação do genoma (GWAS) que encontra variantes genéticas específicas ligadas a características particulares, neste caso, desempenho acadêmico. Algumas dessas variantes genéticas, conhecidas como polimorfismos de nucleotídeo único (SNPs), estão mais fortemente associadas à característica, e algumas estão menos fortemente associadas. Em uma pontuação poligênica, os efeitos desses SNPs são pesados ​​pela força da associação e, em seguida, somados a uma pontuação, de modo que as pessoas com muitos SNPs relacionados ao desempenho acadêmico terão uma pontuação poligênica mais alta e maior desempenho acadêmico, enquanto as pessoas com menos associados SNPs terão uma pontuação mais baixa e níveis mais baixos de desempenho acadêmico.

Esta nova pesquisa de King é baseada em um GWAS recente que examinou quase 10 milhões de SNPs e identificou 74 variantes genéticas que estavam significativamente associadas a anos de educação completa. 'Anos de educação' foi usado como uma medida substituta para o desempenho educacional e características relacionadas.

Usando o GWAS para orientar sua seleção de variantes de DNA, os pesquisadores mediram o desempenho acadêmico em matemática e inglês aos 7, 12 e 16 anos (GCSE), em uma amostra de 5.825 indivíduos não aparentados do Twins Early Development Study (TEDS).

Suas descobertas mostram que o que faz os alunos alcançarem de forma diferente em seu desempenho educacional é fortemente afetado pelas diferenças de DNA, em média, aqueles com uma pontuação poligênica mais alta obteriam uma nota entre A e B, enquanto aqueles com uma pontuação mais baixa obtiveram uma nota inteira abaixo em termos de O GCSE pontua aos 16 anos. Além disso, 65 por cento das pessoas no grupo poligênico superior passaram a fazer os níveis A, enquanto apenas 35 por cento do grupo inferior o fizeram.

Saskia Selzam, primeira autora do Centro MRC Social, Genética e Psiquiatria do Desenvolvimento (SGDP) do King's College London, disse: 'Acreditamos que, muito em breve, as pontuações poligênicas serão usadas para identificar indivíduos com maior risco de ter dificuldades de aprendizagem .

“Por meio da pontuação poligênica, descobrimos que quase 10 por cento das diferenças entre o desempenho das crianças se deve apenas ao DNA. 10 por cento é muito longe de 100 por cento, mas é muito melhor do que costumamos fazer na previsão do comportamento. Por exemplo, quando pensamos sobre as diferenças entre meninos e meninas em matemática, o gênero explica cerca de um por cento da variância. Outro exemplo é 'determinação', que descreve a perseverança de um indivíduo e prevê apenas cerca de 5% da variação no desempenho educacional. '

O professor Robert Plomin, autor sênior do estudo, também do MRC SGDP Centre no King's College London, acrescentou: 'Estamos em um ponto crítico para prever os pontos fortes e fracos educacionais dos indivíduos a partir de seu DNA.

'As pontuações poligênicas podem ser usadas para nos dar informações sobre se uma criança pode desenvolver problemas de aprendizagem mais tarde, e esses detalhes podem orientar um suporte adicional adaptado às necessidades individuais da criança. Acreditamos que um suporte personalizado desta natureza pode ajudar a prevenir dificuldades posteriores de desenvolvimento. '

O Twins Early Development Study (TEDS) é apoiado por uma concessão do programa do Conselho de Pesquisa Médica.


Discussão e conclusão

A principal motivação para este trabalho foi a indisponibilidade de qualquer banco de dados especializado que forneça informações abrangentes sobre enzimas envolvidas em diferentes tipos de produção de biocombustíveis. A mineração da literatura revelou que apenas um número limitado de enzimas envolvidas na produção de biocombustíveis é conhecido atualmente a partir de um número limitado de genomas. Portanto, como a primeira etapa, construímos a base de conhecimento ‘BioFuelDB’ de todas as enzimas envolvidas na produção de biocombustíveis a partir da literatura disponível. No entanto, o repertório limitado dessas enzimas torna-se uma limitação ao selecionar as variantes de enzimas que podem realizar a reação desejada sob as condições industriais que podem não ser ideais para a enzima dada, levando assim à diminuição da eficiência (Bhardwaj Ajay, Zenone & amp Chen, 2015). Assim, para explorar novas e eficientes variantes de enzimas envolvidas em diferentes etapas da produção de biocombustíveis, desenvolvemos a ferramenta Benz que pode identificar novos homólogos das sequências de enzimas de biocombustíveis conhecidas a partir de genomas e metagenomas sequenciados. A abordagem híbrida que incorpora os programas HMMER 3.0 e RAPSearch2 fornece alta precisão e alta velocidade para a previsão de enzimas de biocombustíveis. Além disso, parece ser uma estratégia útil adotar uma abordagem híbrida envolvendo dois métodos diferentes, uma vez que o método baseado em homologia RAPSearch2 permite a identificação de homólogos próximos das enzimas de biocombustíveis conhecidas, enquanto o método baseado em perfil HMMER 3.0 ajuda a identificar o homólogos remotos que mostram baixa identidade de sequência.

No cenário atual, os dados metagenômicos gerados a partir de diferentes ambientes compreendendo sequências de genomas microbianos cultiváveis ​​e não cultiváveis ​​podem ser extraídos para melhorar o repertório de enzimas de biocombustíveis, revelando novas enzimas de biocombustíveis, bem como as variantes funcionais das enzimas existentes. Neste estudo, a identificação de 153.754 enzimas de 23 metagenomas indica a possibilidade de encontrar tais enzimas explorando os dados metagenômicos de várias centenas de metagenomas. Além disso, os metagenomas são tão ricos em diversidade microbiana e genes funcionais que é quase certo identificar a nova variante de uma determinada enzima (Sharma et al., 2010). Assim, a mineração de novos homólogos de enzimas de biocombustíveis de diferentes ambientes usando seus dados metagenômicos permite a identificação de novas variantes que podem funcionar em uma ampla gama de condições e, assim, melhorar o repertório de enzimas.


Endereço atual: Escola de Informática, Centro de Biologia Computacional e Bioinformática, Indiana University - Purdue University Indianapolis, 714 N Senate Ave, Indianapolis, IN, 46202, EUA

Afiliações

Grupo de Pesquisa de Bioinformática, SRI International, 333 Ravenswood Ave, Menlo Park, CA, 94025, EUA

Pedro Romero, Jonathan Wagg, Michelle L Green, Markus Krummenacker e Peter D Karp

Departamento de Biologia do Desenvolvimento, Universidade de Stanford, Stanford, CA, 94305, EUA

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Autor correspondente


Avaliação de desempenho

Um bom padrão de avaliação de modelo é crucial para avaliar a utilidade de um modelo. Diferentes indicadores podem ser usados ​​para revelar as vantagens e desvantagens de um modelo de diferentes perspectivas.Sensibilidade (Sn), especificidade (Sp), precisão (Acc) e coeficiente de correlação de Mathew (MCC) são usados ​​para avaliar modelos em aprendizado de máquina (Chu et al., 2019 Deng et al., 2020 Gong et al., 2019 Jin et al., 2019 Shan et al., 2019 Su et al., 2019a, 2019b Wei et al., 2018a, 2018b Xu et al., 2018a, 2018b, 2018c Zhang et al., 2019a, 2019b). Essas métricas são formuladas da seguinte forma: (7) S n = TPTP + FN (8) S p = TNTN + FP (9) A cc = TP + TNTP + TN + FP + FN (10) MCC = TP ∗ TN - FP ∗ FN (TP + FP) ∗ (TP + FN) ∗ (TN + FP) ∗ (TN + FN)

TP, TN, FP e FN representam verdadeiro positivo, verdadeiro negativo, falso positivo e falso negativo, respectivamente. Sn, Sp, Acc e MCC podem ser calculados a partir desses indicadores. Além disso, AUC (área sob a curva ROC) foi usada para avaliar nosso modelo (Cheng & amp Hu, 2018 Cheng et al., 2018b Ding, Tang & amp Guo, 2019a, 2019b Shen et al., 2019). Para outros experimentos, a Tabela 2 registra os hiperparâmetros do modelo.


Assista o vídeo: Enzimas de restrição do DNA (Agosto 2022).