Em formação

Encontre homólogos de proteínas com BLASTp

Encontre homólogos de proteínas com BLASTp



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Estou tentando encontrar homólogos de um conjunto de proteínas usando BLASTp. Estou trabalhando com bancos de dados personalizados.

Estou usando a avaliação de 0,00001 como limite.

Gostaria de filtrar consultas com resultados com> 90% de identidades. Como a saída do BLASTp é baseada em HSPs, não posso filtrar por% identidades / consulta, apenas por HSP.

Gostaria de saber como fazer isso e também se estou seguindo uma estratégia razoável.

Aqui está um exemplo de alinhamento: qcovs = 100 mas qcovhsp inferior.

qseqid sseqid pident comprimentos incompatíveis gapopen qstart qend sstart enviar avalie bitscore qcovs qcovhsp HPNK_01698 HAPS_0519 81,88 596 75 5 630 1225 615 1177 0,0 889 100 49 HPNK_01698 HAPS_0519 49,17 301 115 1004 2364 HPNK 53165 536 536 486 486 485 61e 201 51698 HAPS_01698 HAPS_0519 49,17 301 115 861 864 3698 265 61e 201 6165 864 3698 HAPS_0519 5316 536 2698 265 61e 201 211 115 864 236 664 698 265 61e 201 51698 HAPS_0519 536 64 698 265 61e 201 5169 HAPS_01698 236 641 265 61e 201 616 064 HAPS_0519 5364 3698 436 684 616 828 6e-49 191 100 20 HPNK_01698 HAPS_0519 46,61 251 62 3 332 510 584 834 834 6e-46 181 100 15 HPNK_01698 HAPS_0519 53,27 214 79 4 1 194 1 213 1e-45 180 100 16 HPNK_01698 HAPS_01698 584 834 834 6e-46 181 100 15 HPNK_01698 HAPS_0519 53,27 214 79 4 1 194 1 213 1e-45 180 100 16 HPNK_01698 HAPS_01698 218 549 5596 7 550 860 64 8 54 56 64 8 56 64 8 56 64 8 56 64 8 643 827 1e-40 164 100 18 HPNK_01698 HAPS_0519 51,56 225 61 7 516 731 642 827 1e-38 157 100 18 HPNK_01698 HAPS_0519 49,57 230 77 6 484 713 643 833 1e-37 154 100 19 HPNK_01698 4335 HAPS_0519 57,89 7660 1 364 1e-13 76,3 100 6

Código usado

Faça banco de dados

makeblastdb -in $ Hparasuisfastadatabase -out H_parasuis_strains_gb_ALL.fna_databaseBLAST -dbtype prot -parse_seqids

Execute o BLAST

blastp -db H_parasuis_strains_gb_ALL.fna_databaseBLAST -query 'out_2.fasta' -out HPNK_selected_vs_H_parasuis_strainss.tblastn -evalue 0.00001 -outfmt "6 qseqid sseqid qstartscore pidentspue hiachopen qstartqstartq qstartcorde comprimento 50 qstartscore gap qstart

Obrigado bernardo


Em primeiro lugar, se você quiser90%identidade, você pode descartar este hit. Nenhum dos HSPs ultrapassa esse limite. Além do mais, como você está trabalhando com proteínas, não há problemas de splicing envolvidos e você deve ser capaz de obter um único HSP abrangendo a maioria das sequências de consulta e assunto. Supondo, é claro, que você tenha um verdadeiro homólogo.

Em sua saída, vejo muitos HSPs pequenos e sobrepostos, a maioria dos quais com baixa identidade. Não posso ter certeza sem ver a sequência, mas é uma aposta segura que o que você tem são regiões de baixa complexidade / repetitivas e é por isso que você tem tantos HSPs separados. A única metade decente começa na posição 630 da sequência de consulta e tem apenas 595 resíduos de comprimento, menos da metade de sua proteína de consulta. Ou você tem uma região N-terminal muito divergente ou seu HSP é apenas um domínio conservado. Novamente, eu precisaria ver o alinhamento da sequência real para ter certeza, mas isso não parece um homólogo verdadeiro (assumindo que suas espécies são razoavelmente próximas, o que deve ser se você estiver usando um limite de identidade de 90%).

Portanto, sempre assumindo que sua espécie está próxima o suficiente para esperar homólogos decentes, eu simplesmente ignoraria os HSPs mais curtos e lidaria com aqueles que representam mais do que, digamos, 80% do comprimento da minha consulta em> = 90% de identidade. Ocorrências mais curtas serão na maioria das vezes domínios conservados ou regiões repetitivas / de baixa complexidade. Os limites que você escolhe dependem da espécie que você está estudando.

Se sua espécie não é tão próxima, não use BLASTP. Em vez disso, você pode usar algo como humm. Colete um conjunto de homólogos de várias espécies para cada uma de suas proteínas de consulta, construa uma matriz usando-os e use essa matriz para pesquisar seu banco de dados. Você também pode usar Selenoprofiles, que usa uma abordagem semelhante.


9.9: Exercício 4 - Alinhamentos de sequência múltipla

O BLASTP fornece um alinhamento de pares de sequências que é muito útil para identificar homólogos. Alinhamentos de sequência múltipla comparam um número maior de sequências simultaneamente. Ao comparar um número maior de sequências em uma faixa evolutiva mais ampla, múltiplos alinhamentos de sequência permitem aos pesquisadores identificar as regiões de uma proteína que são mais conservadas e, portanto, com maior probabilidade de serem importantes para a função de uma proteína. Neste exercício, estudaremos a conservação de sequências de proteínas em vários organismos modelo amplamente usados ​​em estudos genéticos. Os genomas dos organismos modelo foram sequenciados e as técnicas de análise genética estão bem desenvolvidas. Além disso, recursos de banco de dados e clones estão disponíveis para apoiar a pesquisa com organismos modelo. Os organismos abaixo foram selecionados porque representam ramos importantes da evolução e porque são candidatos potenciais para pesquisas futuras neste curso.

Escherichia coli cepa K-12 (Gram negativa K-12 é a cepa padrão de laboratório)Bacillus subtilis cepa 168 (cepa de referência gram positiva)

Saccharomyces cerevisiae - precisa ser incluído em árvores e alinhamentos!Schizosaccharomyces pombe Arabidopsis thaliana - organismo modelo de crosta thale para plantas com floresCaenorhabditis Elegans - organismo modelo de nematóide usado em estudos de desenvolvimentoMus musculus - rato de laboratório

Colete as sequências e os dados BLAST

A primeira etapa em um alinhamento de sequência múltipla é coletar os dados da sequência e analisar os dados BLASTP que comparam as sequências com o S. cerevisiae seqüência. Estaremos usando as sequências de referência para os organismos, que começam com um número NP___. Como você já sabe como encontrar registros NP____ e usar BLASTP, usaremos alguns atalhos para encontrar os números restantes e estatísticas BLASTP. Para as sequências eucarióticas, usaremos dados BLASTP que já estão disponíveis no banco de dados NCBI & rsquos Homologene no NCBI (Sayers et al., 2012). Os números de acesso para as espécies bacterianas estarão disponíveis no Canvas e no laboratório.

Clique em Release Statistics para ver as espécies que foram incluídas nos buscadores BLASTP. Digite o nome do seu gene na caixa de pesquisa. Isso traz à tona os vários grupos de homologenos que possuem um gene com esse nome. Se a pesquisa o levar a uma página com mais de uma lista de grupo Homologene, clique no grupo Homologene que contém o S. cerevisiaegene.

Registre o número de acesso para o grupo Homologene:

A linha superior de um registro de homologeno fornece o número de acesso e resume a distribuição taxonômica de homólogos em eucariotos (& ldquoGene conservado em _________ & rdquo) Uma proteína conservada estreitamente pode ser encontrada apenas em Ascomycota, enquanto uma proteína amplamente distribuída seria encontrada em Eucariotos .

Quais divisões filogenéticas possuem homólogos de seu gene?

A coluna da esquerda de cada registro do Homologene possui links para resumos genéticos abrangentes preparados por curadores do NCBI. A coluna da direita contém links para os registros NP___ e um gráfico mostrando os domínios conservados nos homólogos. (Área de domínios marcada com cores diferentes.)

Quantos domínios são encontrados na proteína S. cerevisiae? Os domínios são igualmente bem conservados entre as espécies?

Registre os números NP___ para homólogos de seu S. cerevisiae Proteína Metp em S.
Pombe
, A. thaliana, C. elegans e M. musculus. Adicione os números NP_ para E. coli e B. subtilishomólogos da folha de dados postada. (Alguns registros bacterianos podem ter prefixos XP__ ou ZP___, porque as proteínas não foram estudadas experimentalmente.) Se você tiver menos de cinco entradas,
por exemplo. a proteína é estritamente restrita a Ascomycota, adicione duas espécies adicionais do grupo Homologene que contém seu

O ortólogo de S. pombe do seu gene MET tem um nome diferente? Você precisará dessas informações posteriormente neste capítulo.

Em seguida, execute um alinhamento BLASTP em pares para cada sequência contra o S. cerevisiaeseqüência. Coletar dados BLASTP é fácil com o Homologene: Use a caixa cinza na parte inferior da página para configurar cada comparação BLASTP. Registre a pontuação total,% de cobertura e valor eletrônico para cada partida.

Na próxima etapa, você irá preparar um alinhamento de sequência múltipla usando as informações de sequência nos registros NP___. Usando os dados do BLASTP, pode ser possível excluir algumas sequências de um estudo posterior. As melhores correspondências terão pontuações totais altas e% de cobertura (fração das duas proteínas que estão alinhadas) e valores E baixos. Para o resto desta atribuição, exclua as sequências em que a pontuação total é inferior a 100 e os valores E são superiores a 1E-10.


Modelos ocultos de Markov para detecção Homologias Remotas de Proteínas

Um novo método de modelo de Markov oculto (SAM-T98) para encontrar homólogos remotos de sequências de proteínas é descrito e avaliado. O método começa com uma única sequência de destino e constrói iterativamente um modelo de Markov oculto ( HMM ) a partir da sequência e homólogos encontrados usando o HMM para pesquisa de banco de dados. SAM-T98 também é usado para construir bibliotecas de modelos automaticamente a partir de sequências em bancos de dados estruturais.

Avaliamos o método SAM-T98 com quatro conjuntos de dados. Três dos conjuntos de teste são testes de reconhecimento de dobra, onde as respostas corretas são determinadas por similaridade estrutural. O quarto usa um banco de dados com curadoria. O método é comparado com WU - BLASTP e contra DUPLO - EXPLOSÃO , um método de duas etapas semelhante ao ISS, mas usando EXPLOSÃO ao invés de FASTA .

SAM-T98 teve o menor número de erros em todos os testes - dramaticamente para os testes de reconhecimento de dobra. No ponto de erro mínimo no teste de domínios SCOP, SAM-T98 obteve 880 verdadeiros positivos e 68 falsos positivos, DUPLO - EXPLOSÃO obteve 533 verdadeiros positivos com 71 falsos positivos, e WU - BLASTP obteve 353 verdadeiros positivos com 24 falsos positivos.

O método é otimizado para reconhecer superfamílias e exigiria um ajuste de parâmetro a ser usado para encontrar parentesco ou parentesco.

Uma chave para o desempenho do HMM método é uma nova técnica de normalização de pontuação que compara a pontuação com a pontuação com um modelo invertido em vez de um modelo nulo uniforme.

Um servidor da World Wide Web, bem como informações sobre como obter o pacote de software Sequence Alignment and Modeling (SAM), podem ser encontrados em http://www.cse.ucsc.edu/research/compbio/

[email protected]
SPMquot http://www.cse.ucsc.edu/ karplus & quot

O foco deste artigo é apresentar um novo modelo oculto de Markov ( HMM ) método para detectar homologias remotas. O método SAM-T98 cria um modelo de Markov oculto a partir de uma única sequência alvo, encontrando iterativamente homólogos em um banco de dados de proteínas e refinando o modelo. Comparamos nossos resultados com aqueles que usam métodos mais estabelecidos.

Os resultados são apresentados no contexto de quatro testes, três dos quais são testes de reconhecimento de dobras. Esses três testes usam um conjunto de sequências alvo cujas dobras devem ser determinadas, um banco de dados de dobras de sequências de estrutura conhecida e uma definição de pares de sequências de banco de dados de destino "corretos". O quarto usa um banco de dados com curadoria cujas sequências de proteínas foram agrupadas de acordo com a família, principalmente usando informações de sequência. Para todos os testes, usamos apenas informações de sequência primária - o teste foi puramente um teste de detecção de homólogos remotos, não de previsão de estrutura de proteína ou segmentação.

Para os testes de reconhecimento de dobra, nosso HMM Os métodos baseados em dados se saíram extremamente bem em todos os níveis de erro aceitáveis, encontrando muito mais homólogos remotos do que os métodos baseados em sequência mais tradicionais.

Um artigo complementar [Park et al. , 1998] compara SAM-T98 nos conjuntos de teste SCOP com BLAST [Altshul et al. , 1990] e FASTA [Pearson & amp Lipman, 1988] e com dois métodos de última geração: PSI-BLAST [Altschul et al. , 1997] e ISS [Park et al. , 1997]. Os resultados mostram que o SAM-T98 é superior ao PSI-BLAST, que é superior ao ISS, que é superior ao BLAST e FASTA.

Para este trabalho, usamos um procedimento de alinhamento local que relaciona parte da sequência a um caminho contíguo através de parte do HMM [Tarnas e Hughey, 1998]. Se duas sequências estiverem alinhadas ao modelo, um alinhamento múltiplo entre essas sequências pode ser inferido de seus alinhamentos ao modelo, embora seja necessário lembrar que os caracteres modelados por estados de inserção não são alinhados entre as sequências.

Quando um HMM é treinado em sequências que são membros de uma família de proteínas, o resultado HMM pode identificar as posições dos aminoácidos que descrevem a estrutura primária conservada da família. Esse HMM pode então ser usado para discriminar entre membros familiares e não familiares em uma pesquisa em um banco de dados de sequência. Um alinhamento múltiplo de sequências para o HMM irá revelar as regiões na estrutura primária que são conservadas e que são características da família.

   Figura 1: Um exemplo de um HMM com duas sequências cujos caracteres são gerados pelo HMM , e o alinhamento correspondente. Posições modeladas por HMM os estados de correspondência de são indicados com letras maiúsculas, enquanto aqueles modelados por estados de inserção desalinhados são indicados com letras minúsculas.

o FSSP conjunto de teste usa DALI comparação de estrutura [Holm & amp Sander, 1993] para determinar a homologia estrutural. Foi feita uma classificação de limite suave, em que os escores z de DALI maiores que 6 foram considerados homólogos, os escores z menores que 2 eram não homólogos e os escores z entre 2 e 6 foram contados como parcialmente homólogos e parcialmente não -homologous usando uma interpolação linear para obter uma pontuação de homologia entre 0 e 1. Para os 174.134 pares não próprios, a soma das pontuações de homologia foi 3510,85 (então cerca de 2% dos pares representam homologias a serem detectadas), embora o melhor possível classificador ainda comete pelo menos 1494,95 erros (Figura 2). No ponto de erro mínimo para um classificador ótimo, existem 2449,45 pares homólogos (1,4% dos pares possíveis).

   Figura 2: O melhor número possível de falsos positivos (topo) e os erros em função do número de verdadeiros positivos para o limiar suave feito no FSSP teste.

O conjunto de teste de cadeia inteira foi composto por 571 proteínas de domínio único. Dos 162.735 pares, apenas 931 (0,6%) são considerados homologias corretas. O conjunto de teste de domínio continha o conjunto de teste de cadeia inteira, além de outros 364 domínios que eram apenas partes de cadeias (935 sequências no total). Dos 436.645 pares não próprios possíveis, apenas 2.605 foram considerados homólogos (0,6%).

A maior taxa de homologia para o FSSP O conjunto de dados pode ser um artefato de nossa seleção de sequências alvo para cobrir as principais subárvores - sequências com poucos positivos verdadeiros eram menos prováveis ​​de serem escolhidas como alvos.

Uma vez que as famílias PIR são geralmente de homólogos razoavelmente próximos, o conjunto de testes de Pearson é um teste de classificação homóloga próxima, não de classificação homóloga remota.

Dois dos métodos usados ​​aqui são baseados no EXPLOSÃO programa de pesquisa [Altshul et al. , 1990], talvez a ferramenta de bioinformática mais amplamente usada hoje. Este programa é extremamente rápido e fácil de usar, por isso avaliá-lo é essencial. Ferramentas que não apresentam desempenho superior EXPLOSÃO raramente valem seu custo computacional.

Em vez de tentar encontrar os homólogos no banco de dados diretamente da sequência alvo, é usada uma abordagem em duas etapas. Primeiro, um conjunto de homólogos próximos à sequência alvo é encontrado em um grande banco de dados de sequências, então cada homólogo é usado como uma consulta para pesquisar o banco de dados final. O grande banco de dados empregado é o banco de dados de proteínas não redundante NRP [NRP, 1998]. WU - BLASTP é usado para encontrar o conjunto de homólogos próximos e para usar cada um desses homólogos para realizar a segunda pesquisa. A primeira pesquisa é feita com um valor E de 0,00005 e a segunda pesquisa com um valor E de 0,2. A pontuação relatada é o log do máximo dos valores E relatados para os acertos. Cada acerto encontrado na primeira pesquisa é tratado como um homólogo separado, pois as tentativas de combinar os acertos resultaram em muitos mais falsos positivos. Isso foi particularmente evidente para o SCOP conjunto de teste de cadeia inteira, uma vez que domínios não homólogos podem ocorrer entre dois homólogos em uma sequência de banco de dados.

Quando o banco de dados é pequeno, o método SAM-T98 também pode ser usado para criar um HMM para cada sequência no banco de dados. Esse banco de dados de modelos pode então ser pesquisado com a sequência de destino, fornecendo uma abordagem dupla para o problema de pesquisa. Como o SAM-T98 cria iterativamente um modelo a partir de uma única sequência, alinhamentos de sementes ajustados manualmente, como aqueles usados ​​para PFAM [Sonnhammer et al. , 1997], não são necessários, embora o método possa ser aplicado a tais alinhamentos de sementes.

Para os testes de reconhecimento de dobra, criamos HMM s para todas as sequências no banco de dados dobra (1050 para FSSP e 931 para SCOP , 1677 ao todo, levando em consideração a sobreposição). Para o teste de Pearson, uma vez que não queríamos construir um HMM para cada uma das 12.216 sequências no banco de dados, usamos SAM-T98 para construir HMM s apenas para as 67 sequências alvo, e pontuado apenas com o alvo HMM s. Com base nos resultados dos outros conjuntos de teste, usando apenas o alvo HMM s reduz o desempenho apenas ligeiramente (consulte Somando Pontuações, abaixo).

Desde a construção HMM s de alinhamentos múltiplos ponderados é um aspecto crítico do método, discutimos especificamente a ponderação de sequência a seguir, seguido pelo próprio método SAM-T98 e uma discussão sobre como o HMM s foram usados ​​para pontuar sequências nos conjuntos de teste.

Os pesos relativos são definidos com os pesos de sequência baseados na posição de Henikoffs [Henikoff & amp Henikoff, 1994], mas o peso absoluto é definido para obter um nível específico de entropia média sobre todas as colunas após um regularizador de mistura de Dirichlet [Sj & # 246lander et al . , 1996] é aplicado às contagens ponderadas. A entropia é especificada pelo número de bits salvos em relação à entropia da distribuição de fundo. Essa medida de entropia relativa foi usada anteriormente para caracterizar matrizes de substituição [Altschul, 1991], e as populares matrizes BLOSUM50 e BLOSUM62 correspondem a economizar cerca de 0,5 e 0,7 bits por coluna. A economia para nosso método varia de 2,5 bits para alinhamentos com apenas 20 colunas de correspondência até cerca de 0,36 bits por coluna para alinhamentos com mais de 600 colunas de correspondência. Mais precisamente, a economia solicitada para um alinhamento de n colunas é, onde n é o comprimento do alinhamento.

A grande economia solicitada para alinhamentos curtos geralmente não está disponível com quaisquer pesos, e o desempenho relativamente pobre do método SAM-T98 em peptídeos curtos, perceptível ao analisar os principais falsos positivos para o SCOP conjunto de teste de domínio, pode ser devido a este problema de ponderação.

O método SAM-T98 então usa 4 iterações de um procedimento de seleção, treinamento e alinhamento. Para cada iteração, é necessário um alinhamento inicial, um conjunto de sequências a serem pesquisadas, um valor limite e um regularizador de transição. Do alinhamento e regularizador, um HMM é construído e usado para pontuar o conjunto de sequências. Todas as sequências com pontuação melhor do que o valor limite são usadas para estimar um novo HMM . Alinhamento das sequências de treinamento com o HMM produz o alinhamento que é a entrada para a próxima iteração.

Na primeira iteração, a única sequência passada para o método é usada como o alinhamento inicial (trivial) e os homólogos próximos encontrados por WU - BLASTP são usados ​​como o conjunto de pesquisa. O limite é definido estritamente (-40 nats), portanto, apenas correspondências fortes para a sequência são consideradas. O regularizador de transição aproxima os custos de lacuna usados ​​por WU - BLASTP . Requerendo ambos WU - BLASTP e a inicial HMM marcar bem uma sequência garante que apenas homólogos próximos sejam incluídos neste estágio do processo.

Em iterações subsequentes, o alinhamento de entrada é a saída da iteração anterior e o conjunto de pesquisa é o maior conjunto de homólogos possíveis encontrados por WU - BLASTP . Os limites são gradualmente afrouxados (-30 nats, -24 nats e -16 nats).

Para a segunda e terceira iteração, usamos um regularizador que incentiva longas sequências de estados de correspondência e, para a iteração final, um regularizador de transição treinado em FSSP alinhamentos estruturais é usado.

Os procedimentos de seleção, treinamento e alinhamento acima consistem em várias chamadas para programas SAM. Os modelos são criados com o programa modelfromalign do SAM, que usa o alinhamento, a ponderação da sequência, o regularizador de transição e a mistura de Dirichlet para construir um HMM . Pontuando a sequência definida com um HMM usa o procedimento de pontuação de múltiplos domínios do SAM, agora parte do hmmscore, que seleciona apenas a parte de uma sequência correspondente ao HMM (pontuação local [Smith & amp Waterman, 1981] aplicada a modelos SAM [Tarnas & amp Hughey, 1998]). A partir das sequências selecionadas usando este procedimento, um novo modelo é estimado usando o buildmodel do SAM HMM programa de treinamento. O alinhamento das sequências de treinamento de volta ao resultado HMM é realizado com o programa align2model do SAM. Para garantir que a sequência inicial de todo o processo não seja perdida, ela é adicionada ao conjunto de treinamento neste ponto e quaisquer sequências duplicadas no conjunto de treinamento são eliminadas.

Como esse processo está envolvido e requer tempo de computação substancial, ele é feito apenas uma vez para qualquer sequência e o alinhamento final é mantido como uma entrada em uma biblioteca. Um HMM pode ser rapidamente construído para o alinhamento armazenado usando modelfromalign e ponderação de sequência.

A qualidade do HMM O resultado deste método é criticamente dependente das sequências selecionadas para treinamento, e essa seleção de sequência depende da implementação da pontuação. Durante o desenvolvimento do método, descobrimos que os múltiplos alinhamentos de muitas famílias de proteínas mostram colunas de conservação estrita do que normalmente são os resíduos mais raramente vistos (cisteína, por exemplo). Ao pontuar bancos de dados com um HMM construídas para essas famílias, as sequências com tendência de composição para esses resíduos tendem a receber pontuações inflacionadas e se tornar falsos positivos.

Antes desta observação, a pontuação envolvia comparar a probabilidade de log de uma sequência para um HMM com sua probabilidade logarítmica para um modelo nulo [Barrett et al. , 1997]. Para resolver este problema, olhamos para a diferença do log de probabilidade da sequência e o log de probabilidade da sequência com um inverso HMM (equivalentemente, a pontuação da sequência invertida com o HMM ) Uma vez que a sequência invertida tem o mesmo comprimento e composição da sequência, essas duas fontes de erro são efetivamente eliminadas. A Figura 3 mostra a eficácia desta pontuação do modelo invertido no SCOP conjunto de teste de toda a cadeia. Para o restante deste experimento, usamos a pontuação do modelo reverso ao pontuar um HMM contra os conjuntos de teste.

   Figura 3: Incorporar a pontuação do modelo reverso nos resultados do procedimento iterativo do método SAM-T98 em HMM s que são melhores discriminadores homólogos do que usar um modelo nulo padrão. Isso é ilustrado aqui usando o SCOP conjunto de teste de cadeia inteira.

Para avaliar a eficácia da soma da pontuação, na Figura 4 representamos os falsos positivos como uma função dos verdadeiros positivos usando ambos os SCOP cadeia inteira e FSSP conjuntos de teste. Como pode ser visto para o primeiro, a carga computacional adicional de construir um HMM para todas as sequências do conjunto de testes, de modo que a soma da pontuação possa ser realizada, nem sempre é justificado. Isso muda quando se considera o FSSP conjunto de teste, pois a soma fornece uma melhoria definitiva além do nível de 100 falsos positivos. Essa diferença pode ser atribuída ao fato de que o FSSP conjunto de teste contém sequências com não mais do que 25% de homologia de sequência (em oposição ao SCOP 40% da cadeia inteira), e a soma é necessária para fortalecer as pontuações fracas entre um par verdadeiramente homólogo.

Outra explicação possível é que o teste SCOP consistiu apenas em domínios únicos, enquanto o teste FSSP teve que combinar domínios de proteínas de múltiplos domínios. Quando o alvo e o modelo têm comprimentos muito diferentes, a pontuação pode funcionar melhor em uma direção do que na outra.

Para os testes de reconhecimento de dobras baseados em estrutura, executamos ambas as direções de pontuação e somamos as pontuações.

   Figura 4: A soma das pontuações não fornece muitas melhorias para o SCOP conjunto de teste de cadeia inteira (topo). Para o FSSP conjunto de teste, somando as pontuações (sum-SAM-T98) da biblioteca de modelos HMM s (db-SAM-T98) e a sequência alvo HMM (targ-SAM-T98) fornece uma melhoria além de cerca de 100 falsos positivos. A simetria do SCOP o teste de cadeia inteira torna as curvas db-SAM-T98 e targ-SAM-T98 idênticas.
   Figura 5: Comparação dos métodos para o FSSP Conjunto de teste. SAM-T98 distingue mais homólogos verdadeiros do que WU - BLASTP ou DUPLO - EXPLOSÃO para qualquer taxa de erro. O melhor desempenho teoricamente possível é mostrado na Figura 2.

Para avaliar o desempenho dos métodos de pesquisa para cada conjunto de teste, todos os pares de sequência de destino e sequência de banco de dados foram classificados da melhor pontuação para a pior pontuação. Ao percorrer essa lista classificada, comparamos os métodos em três estilos. Em primeiro lugar, para fazer comparações com base em um número, na Tabela I comparamos o número de erros no ponto de erro mínimo de cada método. A seguir, nas Figuras 5-8, discutidas abaixo, representamos graficamente o número de pares não homólogos encontrados versus o número de pares homólogos encontrados (os falsos positivos em função dos verdadeiros positivos). Uma vez que o número de falsos positivos cresce quase exponencialmente com o número de verdadeiros positivos, é difícil definir um limite ideal a partir do gráfico de falso positivo versus verdadeiro positivo. Assim, também plotamos o número total de erros como uma função de verdadeiros positivos para fornecer uma visão mais detalhada da compensação entre precisão (minimizando falsos positivos) e recall (minimizando falsos negativos).

   Figura 6: Resultados para os métodos no SCOP o teste de cadeia inteira de 571 sequências mostra que SAM-T98 é um discriminador homólogo muito melhor do que os outros métodos. O número máximo possível de verdadeiros positivos é 931.
   Figura 7: Resultados para os métodos no SCOP teste de domínio de 935 sequências. Este conjunto de teste fornece a evidência mais dramática da capacidade superior do SAM-T98 sobre WU - BLASTP e DUPLO - EXPLOSÃO como um método de detecção de homologia remota. O número máximo possível de verdadeiros positivos é 2605.
   Figura 8: Resultados para os métodos no conjunto de dados Pearson. O número máximo de verdadeiros positivos é 3474. WU - BLASTP faz melhor para homólogos próximos, e SAM-T98 faz melhor para os mais remotos.

Para toda a cadeia SCOP conjunto de dados, a Figura 6 mostra que o HMM Os métodos baseados em dados têm melhor desempenho para todos os níveis de falsos positivos. Se nenhum falso positivo for permitido, WU - BLASTP obtém 148 verdadeiros positivos, DUPLO - EXPLOSÃO obtém 233 e SAM-T98 obtém 256. Os pontos de erro mínimo são ainda mais dramaticamente separados com 740 para WU - BLASTP , 665 para DUPLO - EXPLOSÃO , e apenas 555 erros para SAM-T98 (consulte a Tabela I).

A proximidade dos membros das famílias pode ser percebida no excelente desempenho de WU - BLASTP neste conjunto de dados. Sem falsos positivos, WU - BLASTP obtém 547 verdadeiros positivos, DUPLO - EXPLOSÃO obtém 603 verdadeiros positivos, e SAM-T98 obtém apenas 350. Em 200 falsos positivos (próximo WU - BLASTP ponto de erro mínimo de), WU - BLASTP obtém 2952 verdadeiros positivos, DUPLO - EXPLOSÃO obtém 2760 e SAM-T98 obtém 2584. Em 400 falsos positivos (próximo ao ponto de erro mínimo de SAM-T98), WU - BLASTP obtém 3121 verdadeiros positivos, DUPLO - EXPLOSÃO obtém 3099 e SAM-T98 obtém 3287. A Figura 8 mostra claramente essa compensação no desempenho. O método SAM-T98 foi otimizado para encontrar superfamílias, não famílias, e assim ele funde famílias semelhantes.

Observe que usamos um único limite para cada método para todos os alvos em um conjunto de teste, não um limite separado para cada alvo como feito anteriormente para o conjunto de teste de Pearson [Agarwal & amp States, 1998, Karchin & amp Hughey, 1998]. Usar limites separados forneceria números muito mais impressionantes, mas o limite único é um teste mais valioso. Não estamos testando quão bem uma determinada biblioteca de modelos pode ser ajustada, mas quão bem um conjunto de homólogos pode ser encontrado para uma proteína de caráter desconhecido. Se ainda não conhecemos a classificação, não podemos escolher um limite específico da classificação, daí a insistência em um único limite. Se tivéssemos usado um limite ideal para cada família, o ponto de erro mínimo do SAM-T98 teria caído de 584 para 285 erros. Neste ponto, havia 3.274 positivos verdadeiros e 148 falsos positivos.

O banco de dados SCOP é uma classificação hierárquica de estruturas de domínio de proteínas, com classificação em classe, dobra, superfamília, família e subfamília. Optamos por considerar pares que estavam na mesma superfamília como correspondências corretas, mas poderíamos ter escolhido qualquer nível da hierarquia como nossa definição de correção. A Figura 9 mostra como a escolha de diferentes níveis afetaria nossos resultados para o método SAM-T98. As taxas de falsos positivos quase idênticas para dobras e superfamílias com taxas de erro baixas significam que a taxa de erro geral é muito mais baixa para superfamílias do que para dobras, uma vez que há muito mais falsos negativos no nível de dobras.

   Figura 9: Resultados do SAM-T98 para o conjunto de testes de domínios SCOP com correção definida como correspondência em diferentes níveis da hierarquia SCOP. As curvas falso-positivas são quase idênticas para dobras e superfamílias com baixas taxas de erro. (O gráfico de erro usa uma escala logarítmica devido às enormes diferenças no número de falsos negativos entre as definições de correção.)

O método SAM-T98 também parece funcionar bem em famílias na Figura 9, mas um olhar mais atento na curva de calibração na Figura 10 mostra que os homólogos incluídos nos alinhamentos SAM-T98 estão distantes o suficiente para contaminar o método como uma família ou subfamília reconhecedor (como foi visto com o conjunto de teste de Pearson). Teríamos que usar limites mais rígidos na construção dos alinhamentos para criar uma família, ao invés de uma superfamília, reconhecedor.

A curva de calibração na Figura 10 pode ser aplicada a uma pesquisa com um alvo em um banco de dados de N sequências, o número de falsos positivos da curva deve ser multiplicado por N / 436.645 para obter o número esperado de falsos positivos.

Se ignorarmos o `` cauda gorda '' (o número excessivo de falsos positivos para pontuações fortes), o número de falsos positivos pode ser razoavelmente aproximado por. A cauda gorda provavelmente resulta de duas fontes de erro: pequenos motivos compartilhados (como hélices ampipáticas) que não são longas o suficiente para justificar a classificação das proteínas na mesma superfamília e a contaminação do alinhamento SAM-T98 por sequências não homólogas.

   Figura 10: Falsos positivos versus a soma dos dois custos de SAM (para o modelo de destino e modelo), usando alinhamento local e modelo nulo de sequência reversa no conjunto de teste de domínios SCOP. O número de falsos positivos não cai para zero para famílias ou subfamílias porque mais homólogos remotos são incluídos nos alinhamentos usados ​​para construir os HMMs. N = 436645 é o número de testes de pares de homologia tentados.
  Tabela I: Tabela de pontos de erro mínimo para os diferentes conjuntos de teste e diferentes métodos. Cada coluna relata o número de verdadeiros positivos, falsos positivos e erros (falsos positivos mais falsos negativos) para um dos quatro conjuntos de teste. Target-SAM-T98 refere-se à direção da pontuação em que um HMM é construído para a sequência de destino e usado para pontuar a biblioteca de sequências, em oposição a pontuar a sequência de destino com o HMM s construídos para as sequências da biblioteca. Os resultados do SAM-T98 foram gerados usando a soma das pontuações de ambas as direções.
1c | SCOP 1c | SCOP
método FSSP cadeia inteira domínio Pearson
ótimo, verdadeiro + 2449.45 931 2605 3474
ótimo, falso + 433.55
ótimo, erros 1494.95
WU - BLASTP , verdadeiro + 173.75 212 353 2948
WU - BLASTP , falso + 26.25 21 24 195
WU - BLASTP , erros 3363.35 740 2276 721
explosão dupla, verdadeiro + 279.30 288 533 3072
explosão dupla, falso + 50.00 22 71 352
explosão dupla, erros 3281.55 665 2143 754
target-SAM-T98, verdadeiro + 421.23 338 869 3296
target-SAM-T98, falso + 79.78 15 72 406
target-SAM-T98, erros 3169.40 557 1808 584
SAM-T98, verdadeiro + 459.68 397 880 -
SAM-T98, falso + 81.33 21 68 -
SAM-T98, erros 3132.50 555 1793 -

SAM-T98 introduziu ajuste de pontuação de modelo reverso. Este método de pontuação não apenas corrige os vieses de comprimento e composição, mas alguns outros efeitos mais sutis também são cancelados - por exemplo, os padrões de hidrofobicidade periódica de hélices anfipáticas ou fitas beta também aparecem na sequência reversa, assim como a superfície de baixa frequência. padrão de hidrofobicidade do núcleo. Por causa desses efeitos sutis, a sequência invertida é uma isca muito mais realista do que uma sequência embaralhada.

Esses efeitos podem afetar a pontuação de forma significativa. Por exemplo, na pontuação do concurso CASP-2 [Karplus et al. , 1997], tivemos que eliminar manualmente alguns modelos de bobina enrolada que pontuavam bem qualquer proteína helicoidal - a pontuação do modelo reverso elimina esses problemas. Além disso, a metalotioneína (4mt2), com 24 cisteínas de 61 resíduos, pode se alinhar bem a quase qualquer sequência com cisteínas conservadas. Desde muitos HMM s obtêm uma grande parte de sua pontuação do alinhamento de cisteínas altamente conservadas, 4mt2 frequentemente apareceu como um falso positivo para estes HMM s, mas como a reversão de 4mt2 tem o mesmo número de cisteínas com a mesma distribuição de espaçamentos, também pontua bem para esses HMM se a diferença entre as pontuações do modelo e do modelo invertido é próxima de zero.

O método SAM-T98 também introduziu a soma da pontuação. Realizamos a soma da pontuação para CASP-2 também - a novidade aqui é a avaliação sistemática dessa abordagem. A soma envolve a despesa computacional adicional de construção de HMM s que nem sempre são claramente justificados. Para o SCOP conjuntos de teste de toda a cadeia e de domínio, a soma das pontuações proporcionou ganho insignificante no desempenho. Este não foi o caso do FSSP conjunto de teste, para o qual a soma forneceu uma melhoria acentuada para homólogos mais remotos do que o ponto de erro mínimo.

Se a soma da pontuação for usada, os modelos devem ser construídos para as sequências de destino e para as sequências de banco de dados. Se não, apenas banco de dados HMM s ou sequência alvo HMM s são construídos. Que HMM s a construir depende do número de sequências a serem classificadas e do número de famílias nas quais classificar. Se apenas um pequeno número de sequências for identificado, então provavelmente é melhor construir um HMM para cada. Se muitos devem ser classificados, então é melhor construir uma biblioteca de modelos.

O método SAM-T98 usa pontuação de modelo reverso e limiares de pontuação para selecionar sequências de treinamento em seu procedimento iterativo. Descobrimos que um método predecessor (SAM-T97) que não incluiu a pontuação do modelo reverso e usou valores de limite mais liberais acumulou mais homólogos remotos à custa de incluir mais sequências espúrias nos alinhamentos. Isso levou à criação de HMM s de caráter ligeiramente diferente, eles costumavam ser mais hábeis em encontrar homologias mais remotas, mas não tão capazes de filtrar falsos positivos. Isso é ilustrado na Figura 11. Embora acreditemos que a pontuação do modelo reverso deva ser mantida, estaremos investigando as configurações de limite adequadas para encontrar o melhor equilíbrio para a construção de dados sensíveis e precisos HMM s.

   Figura 11: HMM s com diferentes habilidades de reconhecimento podem ser criados ajustando o procedimento iterativo do SAM-T98. Aqui, `` SAM-T97 '' se refere a um método predecessor que não possuía a pontuação do modelo reverso e usava limites de pontuação mais liberais.

O método SAM-T98 e seu uso exemplificado neste trabalho estão disponíveis na World Wide Web em http://www.cse.ucsc.edu/research/compbio/. Pode-se pesquisar grandes bancos de dados de sequência para homólogos usando uma única sequência de consulta. Isso faz uso do método SAM-T98 para construir um HMM e pesquisar um banco de dados. Uma vez que não é viável construir HMM s para todas as sequências de banco de dados, a pontuação do banco de dados não soma nenhuma pontuação. A segunda opção permite pesquisar nossa biblioteca de modelos com uma sequência. Isso é semelhante à primeira opção, exceto que o banco de dados é composto de sequências selecionadas do PDB. Desde que construímos HMM s para cada uma dessas sequências, a soma da pontuação é usada. Outras opções permitem o acesso a componentes separados do método SAM-T98. Eles permitem construir um alinhamento a partir de uma sequência de consulta, gerar pesos de sequência a partir de um alinhamento ou construir um HMM de uma única sequência de consulta ou um alinhamento com pesos.

Trabalhos futuros são necessários em várias direções: avaliação de outros métodos de reconhecimento de dobra, ajuste dos parâmetros (como limiares e número de iterações) do SAM-T98 e avaliação da qualidade dos alinhamentos produzidos como subproduto do reconhecimento de dobra. Outras técnicas de reconhecimento de dobras que precisam ser avaliadas incluem outros métodos baseados em sequência para encontrar relacionamentos, como MetaMEME [Grundy et al. , 1997] e SearchWise [Birney et al. , 1996], técnicas de comparação estrutura-estrutura e métodos, como threading, que usa informações de estrutura para a sequência de modelo, mas não a sequência de destino. Alguns dos métodos baseados em sequência mais populares, incluindo PSI-BLAST [Altschul et al. , 1997] e ISS [Park et al. , 1997], já foram testados no conjunto de dados SCOP [Park et al. , 1998]. Uma tentativa de testar os alinhadores estrutura-estrutura foi feita [Gerstein & amp Levitt, 1998], mas esse experimento olhou apenas para pares conhecidos por estarem na mesma superfamília, portanto, nenhuma taxa de falso-positivo pode ser determinada.

Agradecemos a Nguyet Manh, que executou muitos dos primeiros testes do método SAM-T97 no FSSP conjunto de testes e fez grande parte do trabalho disponibilizando o SAM-T98 no site, e Cyrus Chothia, que nos forneceu as sequências selecionadas que compõem o SCOP conjuntos de teste. Agradecimentos especiais a Philipp Bucher e Kay Hofmann, cujo uso de bancos de dados de sequência reversa para normalizar HMM s inspirou nosso uso um tanto diferente de pontuação de modelo invertido.

Este trabalho foi apoiado em parte pela concessão NSF DBI-9408579, concessão DOE DE-FG0395ER62112 e uma concessão da Digital Equipment Corporation.

Agarwal & amp States, 1998 Agarwal, P.& amp States, D. J. (1998).
Precisão comparativa de métodos para pesquisa de similaridade de sequência de proteína.
Bioinformatics, 14 (1), 40-47.

Altschul et al. , 1997 Altschul, S., Madden, T., Schaffer, A., Zhang, J., Zhang, Z., W., M., & amp D., L. (1997).
Gapped BLAST e PSI-BLAST: Uma nova geração de programas de pesquisa de banco de dados de proteínas.
NAR, 25, 3899-3402.

Altschul, 1991 Altschul, S. F. (1991).
Matrizes de substituição de aminoácidos de uma perspectiva teórica da informação.
JMB, 219, 555-565.

Altshul et al. , 1990 Altshul, S. F., Gish, W., Miller, W., W., M. E., & amp J., L. D. (1990).
Ferramenta básica de pesquisa de alinhamento local.
JMB, 215, 403-410.

Baldi et al. , 1994 Baldi, P., Chauvin, Y., Hunkapillar, T., & amp McClure, M. (1994).
Modelos ocultos de Markov de informações de sequência primária biológica.
PNAS, 91, 1059-1063.

Barker et al. , 1990 Barker, W., George, D., & amp Hunt, L. (1990).
Banco de dados de sequência de proteínas.
Methods Enzymol. 183, 31-49.

Barrett et al. , 1997 Barrett, C., Hughey, R., & amp Karplus, K. (1997).
Pontuação de modelos de Markov ocultos.
CABIOS, 13 (2), 191-199.

Birney et al. , 1996 Birney, E., Thompson, J., & amp Gibson, T. (1996).
PairWise e SearchWise: encontrar o alinhamento ideal é uma comparação simultânea de um perfil de proteína com todos os quadros de tradução de DNA.
NAR, 24, 2730-2739.

Brenner, 1996 Brenner, S. E. (1996).
Proximidade molecular: relações evolutivas e estruturais de proteínas.
Tese de doutorado University of Cambridge Cambridge, England.

Bucher & amp Bairoch, 1994 Bucher, P. & amp Bairoch, A. (1994).
Uma sintaxe de perfil generalizada para motivos de sequência biomolecular e sua função na interpretação automática de sequência.
In: ISMB-94 pp. 53-61, Menlo Park, CA: AAAI / MIT Press.

Bucher et al. , 1996 Bucher, P., Karplus, K., Moeri, N., & amp Hoffman, K. (1996).
Uma técnica de pesquisa de motivos flexível com base em perfis generalizados.
Computadores e Química, 20 (1), 3-24.

Eddy, 1995 Eddy, S. (1995).
Alinhamento múltiplo usando modelos de Markov ocultos.
Em: ISMB-95, (Rallings, C. et al., Eds) pp. 114-120, Menlo Park, CA: AAAI / MIT Press.

Eddy et al. , 1995 Eddy, S., Mitchison, G., & amp Durbin, R. (1995).
Modelos de Markov ocultos de discriminação máxima de consenso de sequência.
J. Comput. Biol. 2, 9-23.

Gerstein & amp Levitt, 1998 Gerstein, M. & amp Levitt, M. (1998).
Avaliação abrangente do alinhamento estrutural automático em relação a um padrão manual, a classificação SCOP de proteínas.
Protein Sci. 7, 445-456.

Grundy et al. , 1997 Grundy, W. N., Bailey, W., Elkan, T., & amp Baker, C. (1997).
Meta-MEME: modelos de Markov ocultos baseados em motivos de famílias de proteínas.
CABIOS, 13 (4), 397-406.

Haussler et al. , 1993 Haussler, D., Krogh, A., Mian, I. S., & amp Sj & # 246lander, K. (1993).
Modelagem de proteínas usando modelos de Markov ocultos: Análise de globinas.
In: Proceedings of the Hawaii International Conference on System Sciences volume 1 pp. 792-802, Los Alamitos, CA: IEEE Computer Society Press.

Henikoff & amp Henikoff, 1994 Henikoff, S. & amp Henikoff, J. G. (1994).
Pesos de sequência com base na posição.
JMB, 243 (4), 574-578.

Holm & amp Sander, 1993 Holm, L. & amp Sander, C. (1993).
Comparação da estrutura de proteínas pelo alinhamento de matrizes de distâncias.
JMB, 233 (1), 123-138.

Holm & amp Sander, 1996 Holm, L. & amp Sander, C. (1996).
O banco de dados FSSP: Classificação de dobras com base no alinhamento estrutura-estrutura das proteínas.
NAR, 24 (1), 206-209.

Holm & amp Sander, 1997 Holm, L. & amp Sander, C. (1997).
Dali / FSSP classificação de dobras tridimensionais de proteínas.
NAR, 25, 231-234.

Hubbard et al. , 1997 Hubbard, T., Murzin, A., Brenner, S., & amp Chothia, C. (1997).
SCOP : um banco de dados de classificação estrutural de proteínas.
NAR, 25 (1), 236-9.

Hughey & amp Krogh, 1996 Hughey, R. & amp Krogh, A. (1996).
Modelos ocultos de Markov para análise de sequência: Extensão e análise do método básico.
CABIOS, 12 (2), 95-107.
Informações sobre como obter o SAM estão disponíveis em http://www.cse.ucsc.edu/research/compbio/sam.html.

Karchin & amp Hughey, 1998 Karchin, R. & amp Hughey, R. (1998).
Ponderando modelos de Markov ocultos para discriminação máxima.
Aparece a bioinformática.

Karplus et al. , 1997 Karplus, K., Kimmen Sj & # 246lander, Barrett, C., Cline, M., Haussler, D., Hughey, R., Holm, L., & amp Sander, C. (1997).
Predição da estrutura da proteína usando modelos de Markov ocultos.
Proteins: Structure, Function and Genetics, Suppl. 1, 134-139.

Krogh et al. , 1994 Krogh, A., Brown, M., Mian, I. S., Sj & # 246lander, K., & amp Haussler, D. (1994).
Modelos ocultos de Markov em biologia computacional: Aplicações à modelagem de proteínas.
JMB, 235, 1501-1531.

McClure et al. , 1996 McClure, M., Smith, C., & amp Elton, P. (1996).
Estudos de parametrização para os métodos SAM e HMMER de geração de modelos de Markov ocultos.
In: ISMB-96 pp. 155-164, St. Louis: AAAI Press.

NRP, 1998 NRP (1998).
Banco de dados de NRP (Proteína Não Redundante). Distribuído na Internet via FTP anônimo de ftp.ncifcrf.gov, sob os auspícios do Frederick Biomedical Supercomputing Center do National Cancer Institute.

Park et al. , 1998 Park, J., Karplus, K., Barrett, C., Hughey, R., Haussler, D., Hubbard, T., & amp Chothia, C. (1998).
As comparações de sequências usando sequências múltiplas detectam duas vezes mais homólogos remotos do que métodos de pares.
JMB, para aparecer.
http://cyrah.med.harvard.edu/assess_final.html.

Park et al. , 1997 Park, J., Teichmann, S., Hubbard, T., & amp Chothia, C. (1997).
As sequências intermediárias aumentam a detecção de homologia entre as sequências.
JMB, 273, 349-354.

Pearson, 1995 Pearson, W. (1995).
Comparação de métodos para pesquisar bancos de dados de sequência de proteínas.
Protein Science, 4, 1145-1160.

Pearson & amp Lipman, 1988 Pearson, W. & amp Lipman, D. (1988).
Ferramentas aperfeiçoadas para comparação de sequência biológica.
Proc. Natl. Acad. Sci. USA, 85, 2444-2448.

Sj & # 246lander et al. , 1996 Sj & # 246lander, K., Karplus, K., Brown, M. P., Hughey, R., Krogh, A., Mian, I. S., & amp Haussler, D. (1996).
Misturas de Dirichlet: Um método para melhorar a detecção de homologia de sequência de proteína fraca, mas significativa.
CABIOS, 12 (4), 327-345.

Smith & amp Waterman, 1981 Smith, T. F. & amp Waterman, M. S. (1981).
Identificação de subsequências moleculares comuns.
JMB, 147, 195-197.

Sonnhammer et al. , 1997 Sonnhammer, E., Eddy, S., & amp Durbin, R. (1997).
Pfam: Um banco de dados abrangente de famílias de proteínas com base em alinhamentos de sementes.
Proteins, 28, 405-420.

Tarnas & amp Hughey, 1998 Tarnas, C. & amp Hughey, R. (1998).
Treinamento de modelo de Markov oculto em espaço reduzido.
Bioinformática, 14 (5), 401-406.


Métodos

Visão geral do algoritmo de DIAMOND

Indexação dupla

DIAMOND usa a abordagem de indexação dupla, em conjunto com várias sementes espaçadas 17, para otimizar o manuseio de grandes consultas e grandes bancos de dados de referência. Na primeira etapa, as tabelas de pares de localização de sementes são construídas para sequências de consulta e referência. Em seguida, as sementes correspondentes são calculadas usando uma técnica de hash join que conduz o agrupamento radix recursivo de ambas as tabelas até que uma tabela hash para os dados da consulta caiba no cache, ponto em que o resto da junção é calculado pelo hash 18. Descobrimos que essa abordagem é mais rápida do que o método de classificação usado por versões anteriores do DIAMOND 16, especialmente considerando que uma classificação completa da tabela de referência é evitada para conjuntos de dados de consulta menores.

O algoritmo de indexação dupla é projetado para reconhecer o cache, visto que os dados associados a uma semente precisam ser carregados para comparação da memória apenas uma vez, enquanto a pesquisa linear de semente clássica baseada em índice sofre de baixa localidade de dados. Além disso, nosso método de indexação instantânea permite o uso eficiente de várias sementes espaçadas, processando as formas uma de cada vez e não exigindo que as tabelas de índice para todas as formas estejam presentes na memória simultaneamente, ao mesmo tempo que evita pesquisas caras de sementes por meio de nosso cache -implementação de hash join amigável.

DIAMOND (v2.0.7) usa duas formas de sementes de peso 10 para seu modo rápido, 16 formas de peso 8 e 14 formas de peso 7 para seus modos sensíveis e muito sensíveis, respectivamente, e 64 formas de peso 7 para seus modos ultra modo sensível. As formas das sementes foram calculadas usando o SpEED 19. Mesmo quando operando com 64 formas, a geração de tempo de execução dos índices, junto com o cálculo de junção, ocupa menos de 1% do tempo total de execução do programa. Ao processar o banco de dados NCBI nr, o tamanho total desses índices seria de 123 bilhões de letras × 9 bytes por entrada × 64 formas, que é

64 TB se mantido na memória ou gravado no disco, enquanto DIAMOND (v2.0.7) requer menos de 16 GB de RAM quando executado no modo ultrassensível. Isso mostra que DIAMOND não requer infraestruturas de computação caras e pode ser operado com recursos de hardware modestos, se necessário. Por causa da indexação do tempo de execução, DIAMOND mantém arquivos de banco de dados baseados em disco que contêm apenas as sequências de referência e, opcionalmente, também pode usar bancos de dados BLAST (desde a v2.0.8).

Filtro de distância de Hamming

No primeiro estágio do processo de comparação de sequência, um cálculo de distância de hamming entre uma sequência de consulta e uma sequência de assunto é realizado em todos os locais de acerto semente em uma janela de 48 letras que abrange o acerto. Otimizamos este procedimento usando uma cadeia de SSE (extensões de streaming de instrução única de dados múltiplos (SIMD)) pcmpeqb, pmovmskb e instruções popcnt para atingir uma diminuição dez vezes maior no tempo de computação em comparação com um alinhamento sem lacunas que incorpora uma matriz de pontuação, enquanto reduz o número de acertos em 1–2 ordens de magnitude. Um corte dependente do nível de sensibilidade para a distância de hamming, que também pode ser definido manualmente pelo usuário, determina se um acerto é passado para o próximo estágio do filtro.

Nós estendemos ainda mais nossa abordagem inicial, introduzida na versão original do DIAMOND 16, e maximizamos a taxa de transferência de filtragem usando uma estratégia de loop-tiling para incorporar a hierarquia do cache e abordar o fato de que os dados associados a uma única semente podem exceder a capacidade do cache nos novos modos muito sensíveis e ultra-sensíveis de DIAMOND (v2.0.7). Também carregamos as janelas de 48 letras nas localizações de consulta e assunto em buffers lineares antes de executar o cálculo de distância hamming tudo-contra-tudo, para fazer o melhor uso do pré-buscador de hardware e evitar qualquer acesso aleatório à memória.

Extensão não aberta

Após o estágio de distância de hamming, a próxima etapa no pipeline calcula extensões sem lacunas nos locais de acerto de semente. Este procedimento é vetorizado usando instruções AVX2, alinhando uma consulta com até 32 sequências de assuntos. Depois que 32 sequências de assuntos são carregadas em registros AVX2, uma transposição de matriz de 32 × 32 bytes é calculada usando uma série de 160 instruções de desempacotamento, de modo que 32 letras de diferentes assuntos são intercaladas em um registro SIMD, e as pontuações de correspondência podem ser carregadas ao longo do consulta. Um dependente do nível de sensibilidade e-value threshold determina os hits que serão passados ​​para o próximo estágio.

Filtro de sementes mais à esquerda

Devido ao seu algoritmo de indexação dupla, DIAMOND pode encontrar o mesmo alinhamento várias vezes de forma independente durante o estágio de pesquisa. Essas ocorrências redundantes precisam ser filtradas para evitar o uso excessivo de espaço temporário em disco. DIAMOND realiza essa tarefa inspecionando o alinhamento local sem lacuna para ocorrências de seed à esquerda da ocorrência que está sendo processada no momento, bem como ocorrências de seed por formas processadas anteriormente. Se tal acerto for encontrado, DIAMOND percebe a repetição e o acerto atual é descartado. Dado que este procedimento envolve a verificação em até 64 formas de sementes diferentes, otimizamos ainda mais esse processo incorporando uma tabela de pesquisa pré-computada que armazena informações sobre se alguma das formas processadas atingirá uma determinada correspondência codificada por bit ou padrão de incompatibilidade, permitindo assim que o mesma verificação a ser executada em uma passagem sobre o padrão de acerto local.

Classificação adaptativa

Dado que a aplicação típica de um alinhador exigirá o relatório de um certo número de melhores alinhamentos (acertos) para cada consulta (conforme definido na linha de comando usando a opção --max-target-seqs), DIAMOND faz uso deste parâmetro para controlar o esforço computacional gasto na extensão da semente e evitar ter que calcular extensões com lacunas para todos os resultados da semente. Para esse fim, após a conclusão da pesquisa de seed nas sequências de destino, determinamos uma ordem provisória de acertos de destino em relação a uma única consulta. No caso presente, este procedimento de classificação usa as pontuações de extensão sem lacuna em acertos de semente para atribuir uma ordem linear aos alvos. DIAMOND classifica a lista de alvos por pontuação de extensão sem lacuna (da melhor para a pior) para cada alvo, semelhante à maneira como MMSeqs2 usa suas pontuações de pré-filtro derivadas de extensão sem lacuna. Embora o MMSeqs2 calcule as extensões Smith – Waterman para um número fixo de melhores alvos (conforme definido usando o parâmetro --max-seqs), o DIAMOND usa um critério dinâmico para interromper a avaliação de outros alvos. Chamamos essa abordagem dinâmica de classificação adaptativa, que melhora a precisão do relatório DIAMOND em comparação com o critério estático usado por MMSeqs2, ao mesmo tempo que fornece um procedimento de filtragem menos tendencioso e mais adaptado aos dados. A lista classificada é processada em blocos de 400 destinos (configuráveis ​​na linha de comando usando ext-chunk-size), para os quais as extensões são calculadas. Se nenhuma extensão no bloco atual produzir um alinhamento significativo sob os critérios de relatório especificados pelo usuário, o cálculo de extensões adicionais para a consulta será abortado, caso contrário, o próximo bloco de destinos será processado.

Filtro de extensão com lacunas

Dado que computar extensões completas de Smith – Waterman 20 é caro, desenvolvemos um algoritmo heurístico rápido projetado para estimar uma pontuação de alinhamento com lacuna e descartar acertos que provavelmente não atendem ao limite de relatório definido pelo usuário. Usamos uma estrutura de dados de perfil de consulta da mesma forma que o algoritmo Smith-Waterman vetorizado introduzido por Farrar 21, que é uma matriz para cada uma das letras de aminoácidos que armazena as pontuações ao longo da consulta em relação ao resíduo fornecido. Em seguida, usamos as instruções AVX2 para somar essas pontuações ao longo das diagonais da matriz de programação dinâmica, calculando, assim, as pontuações de extensão local sem lacuna nas diagonais. Essa abordagem ignora lacunas no alinhamento e, portanto, elimina dependências de dados intra-registro. Com sua lógica mínima, nossa heurística atinge um rendimento

cinco vezes mais rápido do que um cálculo de Smith-Waterman usando o método SWIPE vetorizado 22. No entanto, pontuações sem lacuna nas diagonais podem ser usadas para estimar uma pontuação de extensão com lacuna estabelecendo e computando um programa dinâmico unidimensional que desconsidera a localização dos segmentos diagonais. Embora essa suposição simplificadora leve a uma superestimativa da pontuação de alinhamento verdadeiro na maioria das vezes, a heurística ainda é capaz de reduzir o número de acertos espúrios em uma ordem de magnitude no modo de alinhamento mais sensível. Se exigido pelo usuário, esta etapa do filtro pode ser desabilitada usando a opção gapped-filter-avalue 0.

Encadeamento

O encadeamento é o cálculo de um programa dinâmico no nível de segmentos diagonais em vez de no nível de base ou resíduo, e tem sido usado com sucesso em ferramentas de alinhamento de DNA, como minimap2 (ref. 23). DIAMOND (v2.0.7) introduz o uso de encadeamento em sequências de proteínas. O resultado do cálculo de encadeamento é usado para inferir um andaime para o alinhamento ideal e para determinar a geometria da banda para um algoritmo de Smith-Waterman com bandas 20.

O encadeamento pode ser simplificado em sequências de DNA considerando apenas segmentos diagonais de correspondências exatas. No entanto, isso não é possível para sequências de proteínas, o que torna esse cálculo substancialmente mais elaborado. DIAMOND resolve este problema classificando os segmentos diagonais obtidos pelo estágio de extensão sem lacunas na posição inicial no assunto e constrói um gráfico no qual os nós representam segmentos diagonais e as bordas denotam deslocamentos diagonais (lacunas) calculando conexões de pares entre os segmentos diagonais em uma passagem da esquerda para a direita. Essas conexões de pares são então armazenadas como bordas de gráfico, incorporando suas coordenadas de entrada e saída para evitar cadeias inválidas e permitir conexões em zigue-zague nas quais o caminho ideal alterna repetidamente entre os mesmos dois nós diagonais. Uma árvore vermelho-preta para os nós ordenados na diagonal é usada para acessar rapidamente os nós mais proximais e candidatos para determinar uma conexão. Para cada nó, a melhor pontuação de um alinhamento local terminando nesse nó é armazenada, cujo máximo produz a estimativa de pontuação final e o ponto final para retrocesso do alinhamento ótimo aproximado.

SWIPE com faixas

As extensões finais são calculadas usando uma versão modificada da abordagem SWIPE vetorizada (ref. 22) que acomoda bandas. Devido ao seu design, ambos os algoritmos SWIPE e SIMD de vetorização 21 "listrados" não permitem facilmente o alinhamento em faixas, resultando na necessidade de um O (n²) cálculo em proporção ao comprimento da consulta e sequências de assuntos. Vetorizamos o alinhamento de uma consulta em até 32 assuntos, sobrepondo as colunas da matriz de programação dinâmica em faixas dos assuntos com base em seus intervalos de consulta (o intervalo de coordenadas da consulta [eu0,eu1] que corresponde a uma fatia de determinada coluna com a banda do sujeito). Dado que as bandas dos assuntos são diferentes, isso não pode ser encaixado perfeitamente no registro, mas atinge uma eficiência de carga de registro de 80-90% para bancos de dados maiores. Todas as extensões são calculadas usando pontuações de 8 bits e são repetidas quando um estouro é detectado, a menos que uma pontuação de alinhamento de & gt255 já seja conhecida nos estágios anteriores.

Os alinhamentos são pontuados usando a matriz BLOSUM62 por padrão. Além disso, também usamos um método de ajustes de pontuação com base na composição 15 que é projetado para aumentar a especificidade do procedimento de pontuação. Se necessário, DIAMOND (desde a v2.0.6) também suporta a aplicação do procedimento de pontuação de ajuste de matriz de composição BLAST 24 para calcular pontuações de alinhamento semelhantes a BLAST (opções --comp-based-stats 3,4).

Como alternativa, DIAMOND (v2.0.7) também inclui a opção de calcular matriz completa em vez de extensões Smith-Waterman em faixas (opção de linha de comando --ext full), que também são vetorizadas usando o algoritmo SWIPE.

Alinhamentos de frameshift

As leituras produzidas pela tecnologia MinION 25 são conhecidas por serem ruidosas e contêm erros indel frequentes, um problema que também se traduz em montagens derivadas dessas leituras longas. Em conseqüência, os genes não podem ser detectados de forma confiável em tais sequências de DNA. O DIAMOND soluciona esse problema fornecendo alinhamentos de frameshift no modo de pesquisa traduzida (blastx).As sequências de proteína correspondentes a todos os três quadros de leitura de uma fita são alinhadas simultaneamente contra a sequência alvo, permitindo mudanças no quadro de leitura em qualquer posição no alinhamento, enquanto incorrendo em uma penalidade de pontuação definida pelo usuário (definida usando -F na linha de comando ) O MinION bruto lê e contigs até o comprimento de cromossomos bacterianos completos são suportados como entrada no modo de pesquisa traduzido, permitindo a descoberta e anotação de genes na ausência de limites de genes conhecidos.

Máscara de repetição

A diferenciação entre relações evolutivas verdadeiras e semelhanças espúrias apresenta um grande desafio na detecção de homologia remota, particularmente dada a natureza repetitiva das regiões de sequência encontradas em muitos genomas. Ao lidar com uma carga crescente de genomas disponíveis para buscas de sequência em escala de árvore da vida, a capacidade de diferenciar relações de similaridade com base na repetitividade da sequência e homologia com base em uma estrutura de sequência biologicamente significativa (sequência não repetitiva sob seleção purificadora) torna-se crucial para reduzir o número de acertos falso-positivos e aumentar a especificidade do alinhamento em escala. O mascaramento de regiões de baixa complexidade (mascaramento de repetição) é a estratégia mais comumente usada para eliminar ocorrências falso-positivas e reter apenas ocorrências encontradas em homólogos biologicamente significativos. Foi demonstrado que, apesar de usar a ferramenta SegMasker incluída no BLASTP 26, muito mais semelhanças espúrias mais fortes surgirão do que o esperado em sequências aleatórias, conforme definido por um e-value threshold parâmetro 27. DIAMOND reduz esse viés de falso positivo usando paradigmas de mascaramento mais rigorosos e sofisticados baseados em tantan. Se necessário, o mascaramento tantan pode ser substituído pelo mascaramento BLASTP SEG padrão mais conservador e estatísticas baseadas em composição usando a opção --comp-based-stats 3 (ref. 24).

Paralelização de memória distribuída

Como parte do DIAMOND, nossa estrutura de busca de sequência abrangente suporta uma paralelização de memória distribuída para alavancar o poder de computação de HPC de última geração e recursos de computação em nuvem para alinhamentos de proteínas em grande escala. Para esse fim, o banco de dados de consulta e o banco de dados de referência são segmentados em pacotes de dados aos quais nos referimos como blocos. O produto cartesiano dos conjuntos de consulta e referência define um conjunto (geralmente grande) de pacotes de trabalho. Na primeira instância, os arquivos que contêm metadados nesses pacotes de trabalho são criados centralmente antes de uma execução paralela ser iniciada em nós de computação independentes e são subsequentemente processados ​​de maneira distribuída por vários processos de trabalho do DIAMOND. Normalmente, apenas um processo de trabalho é executado por nó de computação, utilizando de forma eficiente todos os núcleos disponíveis localmente por meio de threads. Ao contrário do trabalho relacionado, como mpiBLAST 28, nossa implementação não usa nenhuma biblioteca de comunicação interprocessual especial, como a interface de passagem de mensagem (MPI) específica para ambientes HPC, em vez disso, depende de operações de entrada e saída suportadas por qualquer sistema de arquivos paralelo compatível com POSIX que é montado em todos os nós de computação envolvidos. A vantagem dessa abordagem é que os pacotes de trabalho são distribuídos de forma auto-organizada em tempo de execução para todos os processos de trabalho participantes, usando pilhas simples baseadas em arquivo localizadas no sistema de arquivos paralelo, com operações de push e pop atômicas. Depois que todos os fragmentos de banco de dados para um fragmento de consulta específico foram processados, o processo de trabalho final envolvido no fragmento de consulta assume a função de realizar a operação de junção para criar o fluxo de saída. Observe que a maior parte dos arquivos temporários permanece local para um nó de computação, e apenas os arquivos leves da pilha de trabalho e as ocorrências DIAMOND das pesquisas de proteínas são gravados no sistema de arquivos paralelo compartilhado. Essa estratégia reduz significativamente as sobrecargas de entrada e saída e permite o processamento massivamente paralelo de execuções DIAMOND. Além da falta de dependências complexas, como no MPI, destacamos as vantagens particulares de nossa abordagem. Primeiro, não há um trabalhador primário designado para induzir um gargalo devido à sincronização ou para atuar como um ponto único potencial de falha. Em segundo lugar, e por design, os processos de trabalho podem entrar e sair em tempo de execução, o que é menos importante em sistemas de HPC clássicos que usam sistemas em lote para orquestrar um número potencialmente grande de processos, mas é de grande vantagem em recursos elásticos de computação em nuvem e nos existentes recursos de commodities, como computadores desktop de laboratório em rede. Por último, nosso protocolo de distribuição de trabalho baseado em arquivo transacional permite tolerância a falhas, o que significa que se os processos de trabalho morrem inesperadamente, outros processos em uma execução subsequente podem assumir e retomar seus pacotes de trabalho.

Benchmarks

Benchmark principal

Para criar um banco de dados de benchmark, anotamos o lançamento de 14 de setembro de 2019 do UniRef50 contendo 37,5 milhões de sequências com famílias SCOP. Para categorizar cada sequência de proteína, executamos SWIPE 22 usando um e-valor de corte de 10-5 contra o conjunto de dados SCOPe ASTRAL40 v2.07 12 de sequências de domínio consistindo em 4.850 famílias de proteínas, o que resultou em uma coleção de 7,74 milhões de sequências de proteínas anotadas. Usamos o hit com a pontuação de bit mais alta por dobra SCOPe (um agrupamento de superfamílias estruturalmente semelhantes) para inferir a anotação da família de proteínas, permitindo associações de vários domínios.

Dado que DIAMOND requer um grande conjunto de dados de consulta para atingir sua eficiência máxima, usamos uma abordagem SWIPE análoga e anotamos o banco de dados NCBI nr de 25 de outubro de 2019 de acordo com as famílias SCOPe. Usamos UPGMA clustering 29 nos conjuntos de todas as sequências de proteínas anotadas com a mesma superfamília para agrupar e reduzi-las a um máximo de 1.000 sequências, que selecionamos como representantes dessa superfamília, resultando em um conjunto de dados de referência de 1,71 milhão de consultas.

As sequências de consulta e referência foram embaralhadas localmente em janelas de 40 letras fora dos intervalos anotados. Todos os conjuntos de dados e anotações de referência foram publicados 30.

O alinhamento de todas as ferramentas foi executado em uma estação de trabalho AMD Ryzen Threadripper 2970WX de 24 núcleos com clock de 3,0 GHz com 256 GB de RAM, exceto para a execução de BLASTP (v2.10.0), que, devido às suas limitações de tempo de execução em uma estação de trabalho de computador desktop , foi realizado no supercomputador Draco da Max Planck Society em Garching, Alemanha, usando 24 nós (32 núcleos em dois chips Intel Haswell E5-2698v3 por nó). Na máquina de benchmark, o desempenho do BLASTP (v2.10.0) foi estimado usando um subconjunto aleatório de 10.000 consultas amostradas do conjunto de dados de benchmark inicial.

Para cada consulta, determinamos o valor de AUC1, definido como o número de alinhamentos contra sequências correspondentes à família de proteínas da consulta, dividido pelo número total de sequências de banco de dados dessa família (também chamado de cobertura da família de proteínas). Apenas os acertos até o primeiro alinhamento contra um falso positivo foram levados em consideração, que foi definido como o alinhamento da consulta e das sequências de assunto de diferentes dobras SCOPe. Para proteínas de múltiplos domínios, o valor de AUC1 foi calculado pela média dos domínios. Os valores AUC1 das consultas individuais foram novamente calculados em média sobre o conjunto de dados da consulta para obter o valor de sensibilidade final (Fig. 1a). Para garantir que um falso positivo esteja contido na lista de resultados de cada consulta, as ferramentas foram configuradas para relatar todos os alinhamentos até um e-valor de 1.000 (informações complementares). Mais informações sobre o design do benchmark também podem ser encontradas no Nature Research Reporting Summary.

Avaliação detalhada de identidades de sequência em alinhamentos verdadeiro-positivos

Exploramos a sensibilidade de todas as ferramentas comparadas com mais detalhes, resolvendo-a no nível de identidade de sequência de aminoácidos de alinhamentos positivos verdadeiros. Para este propósito, definimos a identidade de sequência de uma associação consulta-sujeito induzida por anotação com a mesma família de proteínas SCOPe que aquela obtida a partir do alinhamento Needleman-Wunsch entre o par de intervalos anotados na consulta e no sujeito. Dados estendidos A Figura 2 mostra uma análise da sensibilidade AUC1 para nosso principal benchmark, calculado como se o espaço de busca de casos positivos fosse restrito a associações dos respectivos intervalos de identidade de sequência. Além disso, dados estendidos Fig. 3 mostra como as associações de família de uma sequência de consulta são distribuídas entre os bins de identidade para nosso conjunto de dados de referência.

Benchmarks suplementares

Relatamos os resultados de benchmark para dois conjuntos de dados adicionais, consistindo em leituras de sequenciamento do sequenciamento final emparelhado Illumina HiSeq 4000 (2 × 150 pares de bases) e sequenciamento final emparelhado Illumina HiSeq 2500 (2 × 250 pares base). Os conjuntos de dados foram criados com base em dados de um estudo recente de metagenoma do rúmen 31 (Informações Suplementares, consulte Referência Suplementar 1) e um estudo ambiental do microbioma da camada superior do solo 32 (Informações Suplementares, consulte Referência Suplementar 2). Os conjuntos de dados anotados no SCOPe de 1,55 milhões e 1 milhão de leituras, respectivamente, foram obtidos conforme descrito nas Informações Suplementares. As execuções de benchmark para os dois conjuntos de dados de leitura de consulta foram realizadas de forma análoga à execução de nosso benchmark principal, operando todas as ferramentas no modo de pesquisa traduzido contra o mesmo banco de dados de sequências UniRef50 anotadas com SCOPe. Relatamos o desempenho, os valores AUC1 e as curvas ROC para ambas as execuções (Dados estendidos Figs. 4–7).

Estudo experimental

A ambição final do DIAMOND v2.0.7 é fornecer uma estrutura de pesquisa abrangente para alinhamentos de proteínas sensíveis à escala da árvore da vida na era do Earth BioGenome Project e além. Embora os níveis de sensibilidade do tipo BLAST sejam os limites máximos alcançáveis ​​para alinhamentos de pares, o próximo foco de qualquer alinhador deve ser a escalabilidade computacional para processar milhões de espécies sequenciadas. Com o novo modo - ultrassensível introduzido no DIAMOND v2.0.0, alcançamos esse nível crítico de sensibilidade semelhante ao BLAST, mantendo um aumento de velocidade computacional de 80 vezes, e alcançamos um aumento de velocidade paralelo quase linear adicional ao usar a implementação DIAMOND HPC personalizada . Para simular todas as facetas de uma pesquisa de proteínas em escala de árvore da vida que é capaz de imitar aplicações futuras de projetos genômicos comparativos em grande escala, realizamos DIAMOND - pesquisas muito sensíveis e - ultra-sensíveis em 520 nós do Cobra supercomputador da Max Planck Society (40 núcleos em dois chips Intel Skylake 6148 e 192 GB de RAM por nó), totalizando 20.800 núcleos de computação (41.600 threads), usando o banco de dados NCBI nr (atualmente armazenando todas as proteínas sequenciadas para

12.000 espécies eucarióticas e todas as proteínas de

440.000 genomas de espécies não eucarióticas) como banco de dados de consulta e UniRef50 como conjunto de dados de referência. Misturamos aleatoriamente as sequências em ambos os arquivos FASTA para evitar um desequilíbrio de carga devido a uma distribuição tendenciosa de sequências nos arquivos originais. Como resultado, DIAMOND v2.0.0 produziu 23,1 bilhões de alinhamentos em pares no caso - ultrassensível e 23,0 bilhões de alinhamentos em pares no caso --muito sensível, a partir de um conjunto de dados de consulta inicial que continha 281 milhões de sequências e um conjunto de dados de referência que continha 39 milhões de sequências de assuntos. No modo --muito sensível, a execução terminou em 5,42 horas, enquanto no modo --ultra-sensível terminou em 17,77 horas. A última execução é mostrada na Fig. 2 e os Dados Estendidos na Fig. 1, demonstrando o grande paralelismo alcançado na infraestrutura de HPC, conforme mostrado pelo processamento de tarefas individuais ao longo do tempo. Devido à natureza paralela das operações de alinhamento e junção, a aceleração paralela é virtualmente linear e é limitada apenas pela taxa de transferência do sistema de arquivos paralelo compartilhado do supercomputador usado. Isso demonstra que o DIAMOND v2.0.0 pode aproveitar suas melhorias algorítmicas e seu novo suporte HPC para cobrir todas as espécies sequenciadas na árvore da vida em horas ao invés de meses, ao mesmo tempo em que corresponde aos níveis de sensibilidade de alinhamento do BLAST. A saída descompactada gerada por esta execução ocupa

1.100 GB de espaço em disco e armazena as 100 melhores ocorrências de proteínas para cada sequência no banco de dados NCBI nr.

Prevemos que, no futuro, este tipo de resultado DIAMANTE será facilmente acessível a todos os cientistas da vida por meio de um aplicativo da web no qual os usuários podem filtrar e pesquisar seus homólogos de proteínas de interesse em minutos na árvore da vida em um conjunto de dados pré-computado, em vez de ter que realizar análises de dados complexas e meses ou anos de pesquisas BLAST para obter alinhamentos de proteínas sensíveis nesta escala.

Resumo de relatórios

Mais informações sobre o desenho da pesquisa estão disponíveis no Nature Research Reporting Summary, vinculado a este artigo.


As mitocôndrias são organelas complexas cuja disfunção está subjacente a um amplo espectro de doenças humanas. Identificar todas as proteínas residentes nesta organela e entender como elas se integram às vias representam grandes desafios na biologia celular. Para este objetivo, realizamos espectrometria de massa, marcação GFP e aprendizado de máquina para criar um compêndio mitocondrial de 1098 genes e sua expressão de proteína em 14 tecidos de camundongo. Ligamos proteínas mal caracterizadas neste inventário a vias mitocondriais conhecidas em virtude da história evolutiva compartilhada. Usando essa abordagem, prevemos que 19 proteínas sejam importantes para a função do complexo I (CI) da cadeia de transporte de elétrons. Validamos um subconjunto dessas previsões usando RNAi, incluindo C8orf38, que ainda mostramos abriga uma mutação herdada em uma deficiência infantil de IC letal. Nossos resultados têm implicações importantes para a compreensão da função e patogênese do IC e, de maneira mais geral, ilustram como nosso compêndio pode servir de base para investigações sistemáticas de mitocôndrias.

Estes autores contribuíram igualmente para este trabalho


Conclusão

O número de classes de proteínas do tipo GPCR identificadas no presente estudo é o maior relatado em fungos. Pesquisas adicionais sobre esses receptores ajudarão a delinear caminhos de sinalização potencialmente novos com os quais eles interagem. A nova classe de receptores relacionados ao PTH11, específicos para um subfilo Ascomycota e relativamente numerosos em M. grisea, é particularmente interessante. PTH11 é uma proteína de membrana integral localizada na membrana celular e é necessária para a patogenicidade [26]. É proposto que atue a montante da via do cAMP como um receptor que canaliza sinais para esta via. PTH11 não tem um ortólogo em N. crassa. Além disso, como discutido anteriormente, apenas uma proteína de sete períodos contendo CFEM está presente em N. crassa em comparação com 12, incluindo PTH11, em M. grisea. Resta determinar se outros membros desta classe expandida de proteínas relacionadas ao PTH11 estão envolvidos em diferentes aspectos da patogenicidade. O subfilo Pezizomycotina inclui a maioria das espécies conhecidas de ascomicetas e inclui patógenos e mutualistas. Como as proteínas semelhantes a GPCR relacionadas a PTH11 estão presentes em não patógenos, muitos membros dessa classe estão provavelmente envolvidos em funções não relacionadas à patogênese. Todos os receptores de sete intervalos e suas assinaturas de domínio características que descobrimos (Figuras 2, 3) serão valiosos na identificação e estudos comparativos de novos receptores nos muitos genomas de fungos que estão sendo sequenciados.


Fundo

Mel de abelhasApis mellifera) têm sido objeto de pesquisa científica por mais de 2.300 anos [1], mas foi apenas nas últimas duas décadas que a pesquisa sobre abelhas se expandiu além de características comportamentais ou sociais para um nível molecular. Com a publicação do genoma da abelha melífera em 2006 [2], as informações básicas para permitir análises em nível de proteoma desse organismo estão agora disponíveis. Desde então, vários grupos publicaram análises proteômicas de abelhas inteiras ou órgãos / tecidos individuais [3-6], mas esses estudos se concentraram em animais adultos. O desenvolvimento larval em abelhas melíferas é amplamente inexplorado, apesar de sua importância na determinação de castas [7] e na patogênese de certas doenças das abelhas melíferas economicamente significativas, como a foulbrood americana e europeia.

O desenvolvimento larval da abelha melífera, que segue um período de 3 dias como ovo, tem de 5 a 6 dias de duração e precede os estágios de pupa (metamorfose) e adulto. Além de um aumento surpreendente no tamanho, o crescimento larval é relativamente normal no nível macroscópico [8]. No entanto, as abelhas fêmeas se diferenciam em operárias ou rainhas (diferenciação de castas) em resposta à dieta muito no início do desenvolvimento larval e a aquisição de imunidade a certas doenças durante este período de 5 a 6 dias sugere que mudanças biológicas moleculares complexas estão ocorrendo.

O desenvolvimento de insetos tem sido estudado principalmente usando a mosca da fruta como sistema modelo. Drosófila a embriogênese atraiu historicamente muito mais atenção do que qualquer outro estágio de crescimento, devido ao seu valor para estudar o mecanismo de regulação espacial da transcrição e tradução. Com exceção do bicho-da-seda economicamente importante Bombyx mori, a pesquisa sobre o desenvolvimento larval tem sido lenta. Para as abelhas, a falta de trabalhos publicados é evidente: o artigo intitulado 'Morfologia da Larva das Abelhas' publicado por Nelson em 1924 [8] ainda hoje permanece como um dos recursos mais citados sobre o assunto. Aqui, usamos proteômica baseada em espectrometria de massa para traçar o perfil da abundância variável de proteínas individuais ao longo dos primeiros 5 dias do estágio larval da operária e usamos esses dados, com a ajuda de predição de função baseada em sequência, para construir uma estrutura para os processos de desenvolvimento acontecendo na larva em maturação.


Introdução

Homologia - similaridade por descendência comum - ocorre em escalas que vão desde a sequência genética até a anatomia. O alto grau de homologia de sequência de proteína observada dá uma forte expectativa de que as descobertas sobre a função da proteína feitas em uma espécie fornecerão compreensão em outra [1]. A extensão da homologia da função da proteína é de importância prática e teórica, pois fundamenta a confiança em alguns organismos modelo e fornece uma visão sobre a manutenção e diversificação da função da proteína através da evolução.

Neste artigo, examinamos as evidências de homologia no domínio das interações proteína-proteína. As proteínas, os principais cavalos de batalha da célula, não desempenham suas funções isoladamente, mas sim interagem entre si para realizar a função biológica. Neste estudo, fazemos a seguinte pergunta: Até que ponto as interações proteína-proteína são conservadas ao longo da evolução? Um alto grau de conservação torna viável a transferência de interações entre as espécies. Isso é particularmente pertinente, dado o custo de coleta de dados experimentais e a concentração desses dados em muito poucas espécies. Se, no entanto, houver um baixo grau de conservação de interações de proteínas - dado o alto grau de conservação de sequências de proteínas - isso sugeriria que as informações de interação não podem ser transferidas entre as espécies e que as interações podem ser perdidas e ganhas rapidamente com pouca sequência mudança.Isso, por sua vez, poderia ajudar a explicar como pequenas mudanças na sequência da proteína ocasionalmente provocam grandes mudanças fenotípicas.

A homologia das interações proteína-proteína pode ser investigada buscando evidências de interologs. Interólogos são pares de proteínas em interação: interagindo em uma espécie e interagindo em outra, onde é um homólogo de e é um homólogo de (ver Figura 1). A detecção de homólogos é um problema não resolvido [2], então consideramos três definições diferentes de homologia: blastp [3] acertos recíprocos em diferentes limiares de similaridade, melhores acertos recíprocos de blastp e EnsemblCompara GeneTrees [4].

A noção de interólogos entre espécies foi introduzida pela primeira vez por Walhout et al em 2000 [5]. Desde então, muitos estudos previram interações com base na transferência por homologia (por exemplo, [6] - [18]). Apesar do uso prevalente de interações transferidas, relativamente poucos trabalhos foram publicados investigando a confiabilidade desse procedimento entre as espécies. As taxas de sucesso publicadas para a transferência de interações variam de menos de [19] a [20], e muitos valores intermediários foram relatados [8], [21] - [24]. Essas diferenças podem ser explicadas em parte por escolhas metodológicas. Por exemplo, Qian et al [20] relataram a maior taxa de conservação. Eles excluíram duplicatas de genes e compararam dois organismos que são evolutivamente muito próximos. Em contraste, a maioria dos estudos tem se concentrado em comparações entre espécies que estão muito mais distantes na árvore da vida - fermento em flor S. cerevisiae (SC), verme nematóide C. elegans (CE), mosca da fruta D. melanogaster (DM), e humano H. sapiens (HS) - visto que são as espécies para as quais existem mais dados [19], [21] - [23].

Também é possível investigar a homologia das interações dentro de uma espécie. Existem dois tipos de interações homólogas. Interações e são homólogas, nos referimos a elas como ambos-diferentes interações conservadas. Além disso, as interações e são homólogas, nos referimos a interações como um mesmo interações conservadas. Mika e Rost descobriram que as interações eram mais conservadas dentro das espécies do que entre as espécies [23]. Eles consideraram este resultado surpreendente devido à crença de longa data de que as proteínas decorrentes de eventos de duplicação de genes (parálogos) devem divergir em função a fim de serem conservadas, enquanto as proteínas que surgem de um evento de especiação (ortólogos) têm pressão evolutiva para manter o função da proteína ancestral [25]. No entanto, Mika e Rost não separaram ortólogos de parálogos em seu estudo entre espécies, então os resultados que eles observaram podem ser devidos a parálogos entre espécies superando em número os ortólogos.

Erros nos dados de interação, ambos - falsos negativos (ou seja, interações existentes que não são relatadas no conjunto de dados) e falsos positivos (ou seja, interações no conjunto de dados que não existem de fato) - podem claramente ter um impacto substancial nos resultados. Obviamente, os falsos negativos no interactome alvo farão com que algumas interações sejam julgadas como não conservadas quando os dados na espécie alvo simplesmente estiverem ausentes. No entanto, exceto para a Ref. [24], que examina um tipo de proteína (fatores de transcrição) em um par de espécies (camundongo e humano), nenhum desses estudos investigou o papel dos erros nos dados ao avaliar a conservação.

Um breve levantamento da literatura dá uma noção de quão significativos esses erros são considerados. As taxas de falso positivo em dados de interação proteína-proteína de alto rendimento, que foram estimados em excesso de [26] - [28], foram estimados mais recentemente em ou consideravelmente mais baixos [29], [30]. As taxas de falsos positivos nos vários estudos que são agrupados para fornecer conjuntos de dados com curadoria da literatura parecem difíceis de avaliar. As taxas de erro no processo de curadoria foram estimadas em [31]. Comparando os tamanhos estimados de interatomas com os tamanhos atuais dos conjuntos de dados, as taxas de falso negativo de conjuntos de dados agregados podem ser derivadas. Estimativas recentes do S. cerevisiae Interação varia de [32] a [29] interações (c.f. interações no conjunto de dados que usamos) estimativas recentes para H. sapiens variam de [30] a cerca de [32] (c.f. em nosso conjunto de dados) e estimativas recentes para D. melanogaster variam de cerca de [32] a [29] (c.f. em nosso conjunto de dados). C. elegans foi estimado para ter cerca de interações [32] (c.f. em nosso conjunto de dados). A grande variedade de estimativas dá uma ideia de como os resultados dependem das suposições feitas. Essas estimativas indicam que as taxas de falso-negativo para todas as espécies, exceto S. cerevisiae são muito altos, enquanto o S. cerevisiae interactome está potencialmente quase completo.

Além de estar longe em todos os organismos, exceto S. cerevisiae, a cobertura de interactomes é tendenciosa [33], [34]. Em particular, há uma alta correlação entre o número de publicações nas quais uma proteína é mencionada e o número de interações relatadas para essa proteína em dados curados pela literatura (um valor de foi relatado por [34]). Isso reflete o fato de que os experimentos de baixo rendimento são orientados por hipóteses, ou seja, interações específicas são testadas se forem de interesse dos pesquisadores. Se as hipóteses forem formuladas em parte sobre o que se sabe sobre proteínas homólogas, então deve-se esperar um viés no qual as interações homólogas são mais prováveis ​​de serem relatadas. Isso faria com que as taxas de conservação parecessem infladas em comparação com os dados amostrados de forma independente em diferentes espécies.

Neste estudo, investigamos a evidência para a homologia das interações proteína-proteína binárias usando dados de seis espécies: S. cerevisiae (SC), C. elegans (CE), D. melanogaster (DM), H. sapiens (HS), fermento de fissão S. pombe (SP) e mouse M. musculus (MILÍMETROS). As primeiras quatro espécies nós investigamos porque existem dados consideráveis ​​para elas, as duas últimas porque essas espécies estão evolutivamente próximas de S. cerevisiae e H. sapiens respectivamente, e portanto representam um ponto de comparação interessante.

Na primeira parte do presente estudo, calculamos as taxas de conservação observadas para as interações entre as espécies e discutimos os efeitos do viés potencial.

Na segunda parte, tentamos abordar as fontes de erro que podem fazer com que as taxas de conversação observadas sejam subestimadas. Nós separamos os efeitos da completude da interação da conservação das interações por meio da evolução e, assim, chegamos a estimativas para ambos. Usando as suposições de nosso modelo e definições de homologia frequentemente empregadas para transferir anotações funcionais, mostramos que a fração de interações que são conservadas é baixa, mesmo quando os erros de interactome são levados em consideração. Se definições estritas de homologia são empregadas, o número de interações conservadas entre as espécies é baixo. Enfatizamos que nossas estimativas da fração de interações conservadas não consideram os vieses nos dados de interação e são, portanto, provavelmente sobreestimativas. Em seguida, produzimos estimativas para a taxa na qual as interações são perdidas através da evolução - a primeira, ao nosso conhecimento, com base em conjuntos de dados em grande escala e comparando espécies que estão bem separadas na árvore da vida - encontrando taxas de cerca de por milhão de anos entre as proteínas de sequência mais semelhantes.

Na terceira parte deste estudo, consideramos a transferência de interações dentro das espécies. Examinamos três conjuntos diferentes de inferências. Definir um é um mesmo inferências, onde é inferido de onde e são homólogos e está presente em ambas as interações. O segundo conjunto é ambos-diferentes-1 inferências, por exemplo, é inferido de onde e são homólogos e e são homólogos. Em um estudo de caso final sobre esses dados (ambos-diferentes-2) identificamos a interação homóloga mais próxima e mantemos apenas uma única inferência para cada interação. Isso significa que, se a inferência mais próxima vier de uma inferência do mesmo tipo, não faremos mais uma previsão a partir de uma inferência menos semelhante de ambos os diferentes. Foi mostrado anteriormente que inferências do mesmo tipo são muito poderosas na previsão de interação dentro da espécie [23], um resultado que também observamos. Se alguém deseja comparar a taxa de conservação das interações dentro das espécies àquela entre as espécies, excluindo as mesmas interações como feito na Ref. [23] parece justo. Em nosso teste deste tipo (ambos-diferentes-1), descobrimos que as interações dentro das espécies são conservadas aproximadamente na mesma extensão que nas interações entre as espécies.

As anotações funcionais são frequentemente transferidas usando definições que não são particularmente rígidas (ver, por exemplo, [35] - [37]). Argumentamos que o baixo sucesso da transferência de interação em níveis comparáveis ​​de similaridade de sequência não pode ser explicado apenas por erros de interactome. A menos que uma definição muito rigorosa de homólogo seja empregada, a taxa de mudança evolutiva das interações é muito alta para permitir a transferência entre espécies que estão bem separadas na árvore da vida. Nessas definições rigorosas, o número de interações conservadas é baixo. A prática comum de transferência de interações com base na homologia entre essas espécies distantes [6] - [17] deve ser tratada com cautela.


Do seguinte artigo: Genética evolutiva: Aproveitando ao máximo a redundância. Edward J. Louis. Nature 449, 673-674 (11 de outubro de 2007)

Os domínios são freqüentemente carregados em exons.

Além disso, podemos mudar a forma como unimos o mRNA.

Isso dá diferentes combinações de proteínas de um mRNA.

Guttmacher e Collins 347 (19): 1512, Figura 2, 7 de novembro de 2002

Ao trocar de domínio, a atividade de uma proteína pode ser alterada

Novas proteínas são feitas por troca de domínios e por mutações dentro de domínios

Adicione domínios adicionais ou faça mutações para mudar membros da mesma família.

Parálogos ou famílias de proteínas - proteases de serina

A seguir, examinaremos uma família específica de proteínas.

Entre em BIOLOGY WORKBENCH e encontre a sequência que usamos para a tripsina na semana passada em Protein Tools.

Para encontrar proteínas relacionadas, usaremos uma pesquisa BLASTP. Selecione o banco de dados H. sapiens proteínas para a pesquisa.

Selecione de 6 a 7 sequências nos resultados desta pesquisa. Se você mantiver pressionada a tecla Ctrl, poderá selecionar várias sequências individuais. Neste ponto, selecione apenas as sequências de proteínas humanas. Tente escolher uma variedade de sequências, ou seja, algumas que estão intimamente relacionadas e alguns membros da família distantes. Não vá abaixo de uma pontuação inferior a 100, ou o alinhamento começa a desmoronar.

Importe essas sequências para o Biology Workbench

Alinhe essas sequências usando CLUSTALW. Certifique-se também de alinhá-los com as sequências SWISSPROT e PDBFINDER com as quais sua sequência atribuída correspondeu.

Examine o alinhamento e a árvore filogenética.

  • O alinhamento parece uniforme ou há regiões de sequências conservadas e regiões com pouca semelhança?
  • Parece haver loops presentes em algumas proteínas que estão ausentes em outras?
  • Com base na árvore, essas proteínas parecem ter evoluído de um ancestral comum?

Volte para a janela Biology Workbench original e selecione Protein Tools.

  • Existem motivos ou domínios presentes nas outras proteínas que não estão presentes na tripsina?
  • Eles aparecem como loops na estrutura da tripsina ou são adicionados a uma extremidade da proteína?

Motif Search (link para Biology Workbench)

Compare Urokinase, Factor IX e Plasminogen

Ferramenta de recuperação de arquitetura de domínio DART

Examine o Plasminogênio (Nº de Acesso P00747)

Clique em cada domínio para aprender sua função

Clique em "28 arquiteturas de domínio semelhantes" Isso exibirá ortólogos e parálogos. Qual é a principal diferença entre algumas dessas proteínas?

Na parte inferior da página, clique em "Avançar". Existem 10 páginas de proteínas que contêm pelo menos um dos domínios do Plasminogênio. Esses domínios foram combinados com outros domínios para criar proteínas únicas.

Ortólogos - Serina Proteases

A seguir, examinaremos os ortólogos de tripsina.

Entre em BIOLOGY WORKBENCH e encontre a sequência que usamos para a tripsina na semana passada em Protein Tools.

Para encontrar proteínas relacionadas, usaremos uma pesquisa BLASTP. Selecione os bancos de dados GenBank Mamíferos, GenBank Invertebrados, GenBank Fungi, GenBank Bactérias para cada pesquisa. Faça cada pesquisa separadamente, ou será difícil encontrar algumas das correspondências mais distantes, pois haverá centenas de linhas nos resultados.

Selecione de 6 a 7 sequências nos resultados desta pesquisa. Se você mantiver pressionada a tecla Ctrl, poderá selecionar várias sequências individuais. Certifique-se de que está colhendo a mesma proteína nas diferentes espécies e tente obter uma variedade de espécies. Você pode não conseguir encontrar sua proteína em todas as espécies, por exemplo, a tripsina está em invertebrados como a drosófila, mas não em plantas, fungos ou bactérias.

Importe essas sequências para o Biology Workbench

Alinhe essas sequências usando CLUSTALW. Certifique-se também de alinhá-los com as sequências SWISSPROT e PDBFINDER com as quais sua sequência atribuída correspondeu.


Encontre homólogos de proteínas com BLASTp - Biologia

Previsão do impacto da substituição de aminoácidos usando homólogos e uma matriz de substituição direcional.

As previsões DeMaSk podem ser facilmente obtidas para qualquer sequência de proteína usando a ferramenta da web. Este pacote pode ser baixado para uso personalizado. Consulte a documentação completa para obter instruções mais detalhadas.

Instale a partir do PyPI com pip:

Para instalar a partir do GitHub, clone o repositório ou baixe e descompacte. Para obter dependências do Python e poder executar ou importar os módulos de qualquer diretório, instale com pip (ou pip3 se pip = pip2):

A menos que você esteja fornecendo seus próprios homólogos alinhados, você precisará ter o programa blastp. Ele pode ser baixado como parte do BLAST +.

A etapa blastp requer um banco de dados de sequência formatado. Para usar UniRef90, que demask.princeton.edu usa, baixe o arquivo fasta compactado daqui, descompacte e use makeblastdb do BLAST + para formatar o banco de dados.

Para evitar ter que especificar a localização do binário blastp e do banco de dados para cada execução do DeMaSk, coloque-os em um arquivo de configuração, por exemplo:

Por padrão, DeMaSk procurará o arquivo de configuração DeMaSk / config.ini, que também pode conter quaisquer outros argumentos de linha de comando, como nseqs, threads e matriz.

Execute qualquer um dos módulos de comando com -h para ver todas as opções, por exemplo:

Obtenha previsões para uma sequência de consulta

Uma vez que o pacote demask é instalado, você pode executá-lo de qualquer lugar. Se você ainda não tiver homólogos alinhados para sua consulta, execute o módulo demask.homologs:

O comando acima também produzirá um arquivo myquery.blast.json contendo a saída blastp intermediária.

Em seguida, gere previsões de impacto de aptidão para todas as variantes de resíduo único da sequência de consulta:

A saída é semelhante a esta:

As funções correspondentes podem ser executadas no código Python importando demask.find_homologs e demask.run_demask.

Matriz e coeficientes gerados pelo usuário

DeMaSk vem com uma matriz de substituição direcional calculada a partir de uma coleção de conjuntos de dados de varredura mutacional profunda, bem como coeficientes de modelo linear correspondentes. Comandos adicionais são incluídos no caso de você desejar ajustar o modelo a uma matriz customizada, ou até mesmo calcular uma matriz a partir de uma coleção de dados customizada e então ajustar o modelo linear a ela.

Por exemplo, a matriz padrão foi gerada assim:

Em seguida, os coeficientes do modelo linear foram calculados:

As funções correspondentes podem ser executadas em código Python importando demask.prepare_matrix e demask.fit_model.


Assista o vídeo: PROTEÍNAS Bioquímica fácil y sencilla (Agosto 2022).