Em formação

É PSI-BLAST ou BLASTP se eu usar PSI-BLAST para apenas uma iteração

É PSI-BLAST ou BLASTP se eu usar PSI-BLAST para apenas uma iteração



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

No meu caso, usei PSI-BLAST no BLAST + local para pesquisar consultas no banco de dados criado por ele mesmo. Após a primeira pesquisa, adicionei o resultado pesquisado ao banco de dados e, em seguida, conduzi o alinhamento de várias sequências com o MUSCLE para obter as partes conservadas. Em seguida, pesquisei as consultas contra a sequência de consenso obtida a partir do alinhamento de sequência múltipla (sem lacuna). Nesse processo, não calculei um PSSM, enquanto a primeira iteração do PSI-BLAST usa uma matriz constante, que é muito semelhante ao BLASTP. Então, o que eu realmente usei no processo - PSI-BLAST ou BLASTP?


Você simplesmente usou BLASTP contra uma sequência de consenso. A primeira iteração do PSI-BLAST é idêntica ao BLASTP.


A primeira rodada de psiblast é igual a blastp e uma avaliação de 0,001 é baixa e está abaixo do limite recomendado de (e) -valor = 0,005.

Você precisa de um conhecimento significativo de viés de composição e domínios globulares para passar para a 2ª e a 3ª iterações. Eu recomendo a leitura do manual do NCBI aqui.

De sua resposta, você está usando psiblast como uma ferramenta para observar a reatividade cruzada de anticorpos, que eu presumo que seja pan-Clostridium.

Eu recomendo usar psi-blast apenas como análise investigativa e mudar para o banco de dados de epítopos imunológicos aqui. Tudo será explicado no servidor IEDB. Neste servidor, sugiro realizar duas análises separadas e ver se os resultados se correlacionam,

  • Previsão de epítopo de células B em seu valor mais forte
  • Previsão de epítopos de células B em sua sequência de consulta
  • As posições dos epítopos coincidem?

Se as posições do epítopo não corresponderem, a hipótese de um anticorpo de reação cruzada pan-Clostridium pode ser imediatamente descartada. Se houver uma correspondência, ela fornecerá a base para uma investigação mais aprofundada.

Lembre-se de que o Clostridium usará glicosilação para modular a ligação do anticorpo.


É PSI-BLAST ou BLASTP se eu usar PSI-BLAST para apenas uma iteração - Biologia

[1] Holm, L. & Sander, C. (1997) "New structure - novel fold?" Structure 5: 165-171. (PubMed)

[2] Brenner, S.E., Chothia, C. & Hubbard, T.J.P. (1998) "Avaliando métodos de comparação de sequência com relacionamentos evolutivos distantes identificados estruturalmente confiáveis." Proc. Natl. Acad. Sci. USA 95: 6073-6078. (PubMed)

[3] Schneider, T.D., Stormo, G.D., Gold, L. & Ehrenfeucht, A. (1986) "Information content of binding sites on nucleotide sequence." J. Mol. Biol. 188: 415-431. (PubMed)

[4] Gribskov, M., McLachlan, A.D. e Eisenberg, D. (1987) "Profile analysis: detecção de proteínas relacionadas distantes." Proc. Natl. Acad. Sci. USAR 84: 4355-4358. (PubMed)

[5] Staden, R. (1988) "Métodos para definir e localizar padrões de motivos em sequências." Comput. Appl. Biosci. 4: 53-60. (PubMed)

[6] Gribskov, M. (1992) "fator de iniciação translacional-IF-1 e fator-EIF-2-alfa compartilham um motivo de ligação de RNA com proteína ribossômica procariótica-S1 e polinucleotídeo fosforilase." Gene 119: 107-111. (PubMed)

[7] Tatusov, R.L., Altschul, S.F. & Koonin, E.V. (1994) "Detecção de segmentos conservados em proteínas: Varredura iterativa de bancos de dados de sequência com blocos de alinhamento." Proc. Natl. Acad. Sci. USA 91: 12091-12095. (PubMed)

[8] Sim, T-M. e Lander, E.S. (1994) "Reconhecimento de proteínas relacionadas por refinamento de modelo iterativo (ITR)." Prot. Sci. 3: 1315-1328. (PubMed)

[9] Bucher, P., Karplus, K., Moeri, N. & Hofmann, K. (1996) "Uma técnica de pesquisa de motivo flexível baseada em perfis generalizados." Comput. Chem. 20: 3-23. (PubMed)

[10] Altschul, S.F., Madden, T.L., Sch & aumlffer, A.A., Zhang, J., Zhang, Z., Miller, W. & Lipman, D.J. (1997) "Gapped BLAST e PSI-BLAST: uma nova geração de programas de pesquisa de banco de dados de proteínas." Nucleic Acids Res. 25: 3389-3402. (PubMed)

[11] Durbin, R., Eddy, S., Krogh, A. e Mitchison, G. (1998) "Biological Sequence Analysis. Probabilistic Models of Proteins and Nucleic Acids." Cambridge University Press, Cambridge, Reino Unido.

[12] Altschul, S.F., Gish, W., Miller, W., Myers, E.W. & Lipman, D.J. (1990) "Ferramenta básica de pesquisa de alinhamento local." J. Mol. Biol. 215: 403-410. (PubMed)

[13] Karlin, S. & Altschul, S.F. (1990) "Métodos para avaliar a significância estatística das características da sequência molecular usando esquemas gerais de pontuação." Proc. Natl. Acad. Sci. USA 87: 2264-2268. (PubMed)

[14] Altschul, S.F. & Gish, W. (1996) "Estatísticas de alinhamento local." Meth. Enzymol. 266: 460-480. (PubMed)

[15] Mushegian, A.R., Bassett, D.E. Jr., Boguski, M.S., Bork, P. & Koonin, E.V. (1997) "Posicionalmente clonados genes de doenças humanas: padrões de conservação evolutiva e motivos funcionais." Proc. Natl. Acad. Sci. USA 94: 5831-5836. (PubMed)

[16] Huynen, M., Doerks, T., Eisenhaber, F., Orengo, C., Sunyaev, S., Yuan, Y. & Bork, P. (1998) "Homology-based fold predictions for Mycoplasma genitalium proteínas . " J. Mol. Biol. 280: 323-326. (PubMed)

[17] Aravind, L., Tatusov, R.L., Wolf, Y.I., Walker, D.R. e Koonin, E.V. (1998) "Evidência para troca massiva de genes entre hipertermófilos archaeal e bacterianos." Trends Genet., 14: 442-444 (PubMed)

[18] Bult, CJ, White, O., Olsen, GJ, Zhou, L., Fleischmann, RD, Sutton, GG, Blake, JA, FitzGerald, LM, Clayton, RA, Gocayne, JD, Kerlavage, AR, Dougherty , BA, Tomb, JF, Adams, MD, Reich, CI, Overbeek, R., Kirkness, EF, Weinstock, KG, Merrick, JM, Glodek, A., Scott, JL, Geoghagen, NSM & Venter, J.C. (1996) "Complete genome sequence of the methanogenic archaeon, Methanococcus jannaschii." Science 273: 1058-1073. (PubMed)

[19] Sterky, F., Holmberg, A., Pettersson, B. & Uhlen, M. (1996) "A sequência de um fragmento de 30 kb no braço esquerdo do cromossomo XV de Saccharomyces cerevisiae revela 15 quadros de leitura abertos, cinco dos quais correspondem a genes previamente identificados. " Levedura 12: 1091-1095. (PubMed)

[20] Shuman, S. & Schwer, B. (1995) "RNA capping enzima and DNA ligase: a superfamily of covalent nucleotidyl transferases." Mol. Microbiol. 17: 405-410. (PubMed)

[21] Wootton, J.C. & Federhen, S. (1996) "Análise de regiões com tendência de composição em bancos de dados de sequência." Methods Enzymol. 266: 554-571. (PubMed)

[22] Lupas, A. (1996) "Prediction and analysis of coiled-coil structure." Methods Enzymol. 266: 513-525. (PubMed)


PSI-BLAST

BLAST significa Basic Local Alignment Search Tool. A ênfase desta ferramenta é encontrar regiões de similaridade de sequência, o que fornecerá pistas funcionais e evolutivas sobre a estrutura e função de sua nova sequência. O BLAST iterativo específico da posição (PSI-BLAST) refere-se a um recurso do BLAST 2.0 no qual um perfil é construído automaticamente a partir do primeiro conjunto de alinhamentos BLAST. O PSI-BLAST é semelhante ao NCBI BLAST2, exceto que usa matrizes de pontuação específicas da posição derivadas durante a pesquisa, esta ferramenta é usada para detectar relações evolutivas distantes. A funcionalidade PHI-BLAST está disponível para usar padrões para restringir os resultados da pesquisa.

Como usar esta ferramenta

Executar uma ferramenta a partir do formulário da web é um processo simples de várias etapas, começando na parte superior da página e seguindo as etapas até a parte inferior.

Cada ferramenta tem pelo menos 2 etapas, mas a maioria delas tem mais:

  • As primeiras etapas são geralmente onde o usuário define a entrada da ferramenta (por exemplo, sequências, bancos de dados.) (Veja formatos de entrada de exemplo)
  • Nas etapas a seguir, o usuário tem a possibilidade de alterar os parâmetros padrão da ferramenta (ver exemplos de formatos de saída)
  • E por fim, a última etapa é sempre a etapa de envio da ferramenta, onde o usuário pode especificar um título a ser associado aos resultados e um endereço de email para notificação por email. Usar o botão de envio enviará efetivamente as informações especificadas anteriormente no formulário para lançar a ferramenta no servidor

Observe que os parâmetros são validados antes de lançar a ferramenta no servidor e em caso de falta ou combinação errada de parâmetros, o usuário será notificado diretamente no formulário.

Etapa 1 - Banco de dados

Bancos de dados

Os bancos de dados nos quais executar a pesquisa de similaridade de sequência. Vários bancos de dados podem ser usados ​​ao mesmo tempo

O UniProt Knowledgebase (UniProtKB) é o ponto de acesso central para informações extensas sobre proteínas com curadoria, incluindo função, classificação e referências cruzadas. Pesquise UniProtKB para recuperar & quot tudo o que é conhecido & quot sobre uma sequência particular.

O UniProt Knowledgebase inclui UniProtKB / Swiss-Prot e UniProtKB / TrEMBL.

O banco de dados MEROPS é um recurso de informação para peptidases (também chamadas de proteases, proteinases e enzimas proteolíticas) e para as proteínas que as inibem.

MEROPS-MPRO é o conjunto de dados de varredura MEROPS, que inclui todos os nossos exemplos de tipo no nível de peptidase (sequências c5000).

O banco de dados MEROPS é um recurso de informação para peptidases (também chamadas de proteases, proteinases e enzimas proteolíticas) e para as proteínas que as inibem.

MEROPS-MPEP contém a peptidase ou sequência de domínio inibidor apenas de todas as proteínas na coleção MEROPS.

O banco de dados MEROPS é um recurso de informação para peptidases (também chamadas de proteases, proteinases e enzimas proteolíticas) e para as proteínas que as inibem.

MEROPS-MP contém sequências completas de todas as proteínas da coleção MEROPS.

Etapa 2 - Sequência

Janela de entrada de sequência

A seqüência de consulta pode ser inserida diretamente neste formulário. A sequência pode estar no formato GCG, FASTA, PIR, NBRF, PHYLIP ou UniProtKB / Swiss-Prot. Uma sequência parcialmente formatada não é aceita. Adicionar um retorno ao final da sequência pode ajudar certos aplicativos a entender a entrada. Observe que o uso direto de dados de processadores de texto pode gerar resultados imprevisíveis, pois podem estar presentes caracteres ocultos / de controle.

Upload de arquivo de sequência

Um arquivo contendo uma sequência válida em qualquer formato (GCG, FASTA, PIR, NBRF, PHYLIP ou UniProtKB / Swiss-Prot) pode ser usado como entrada para a pesquisa de similaridade de sequência. Arquivos de processadores de texto podem gerar resultados imprevisíveis, pois caracteres ocultos / de controle podem estar presentes nos arquivos. É melhor salvar os arquivos com a opção de formato Unix para evitar caracteres ocultos do Windows.

Etapa 3 - Parâmetros

Matriz

A matriz de comparação a ser usada para pontuar alinhamentos ao pesquisar no banco de dados

O valor padrão é: BLOSUM62

Informações adicionaisLeia mais sobre matrizes

Penalidade por lacuna aberta

Penalidade retirada da pontuação quando uma lacuna é criada na sequência. Aumentar a penalidade de abertura de espaço diminuirá o número de lacunas no alinhamento final.

Informações adicionaisLeia mais sobre penalidades de gap

Penalidade de extensão de lacuna

Penalidade retirada da pontuação para cada base ou resíduo na lacuna. Aumentar a penalidade de extensão de lacuna favorece lacunas curtas no alinhamento final, ao contrário, diminuir a penalidade de extensão de lacuna favorece lacunas longas no alinhamento final.

Informações adicionaisLeia mais sobre penalidades de gap

Limite E () de resultados

Limita o número de pontuações e alinhamentos relatados com base no valor esperado. Este é o número máximo de vezes que a partida deve ocorrer por acaso.

Corte do valor E PSSM

Limite de valor de expectativa para seleção automática de sequências combinadas para inclusão no PSSM em cada iteração.

Filtro

Filtrar regiões de baixa complexidade de sequência. Isso pode evitar problemas com sequências de baixa complexidade em que as correspondências são encontradas devido à composição, em vez de similaridade de sequência significativa. No entanto, em alguns casos, a filtragem também mascara regiões de interesse e, portanto, deve ser usada com cuidado.

Pontuações

Número máximo de resumos de pontuação de correspondência relatados na saída do resultado.

Alinhamentos

Número máximo de alinhamentos de correspondência relatados na saída do resultado.

Faixa de Sequência

Especifique um intervalo ou seção da sequência de entrada para usar na pesquisa. Exemplo: Especificar '34 -89 'em uma sequência de entrada de comprimento total 100, dirá ao BLAST para usar apenas os resíduos 34 a 89, inclusive.

O valor padrão é: START-END

Deixar

O valor que uma pontuação pode diminuir antes que a extensão das ocorrências de palavras seja interrompida

O valor padrão é: 15 (padrão) [15]

Desistência Final

Valor de queda para o alinhamento final com lacuna

O valor padrão é: 25 (padrão) [25]

Visualizações de alinhamento

Formatando para os alinhamentos

NomeDescriçãoValor
emparelhadosA consulta e a correspondência são geradas como um alinhamento de pares com uma linha de consenso entre as duas sequências. No consenso, os estados de correspondência são representados como: correspondência idêntica como base / resíduo, similaridade como '+' e correspondência incorreta como um espaço.0
Identidades M / SAs correspondências encontradas são mostradas em relação à sequência de consulta sem lacunas como diferenças para a consulta. As identidades aparecem como pontos (.), Semelhanças em maiúsculas, erros de correspondência em minúsculas e lacunas como traço (-). As inserções são indicadas com uma linha apontando para o local de inserção com a sequência inserida em outra linha.1
M / S não identidadesAs correspondências encontradas são mostradas em relação à sequência de consulta sem lacunas como diferenças para a consulta. Identidades e semelhanças aparecem em maiúsculas, erros de correspondência em minúsculas e lacunas como traço (-). As inserções são indicadas com uma linha apontando para o local de inserção com a sequência inserida em outra linha.2
Identidades planasAs correspondências encontradas são mostradas em relação à sequência de consulta com intervalo como diferenças para a consulta. As identidades aparecem como pontos (.), Semelhanças em maiúsculas, erros de correspondência em minúsculas e lacunas como traço (-).3
Não identidades planasAs correspondências encontradas são mostradas em relação à sequência de consulta com intervalo como diferenças para a consulta. Identidades e semelhanças aparecem em maiúsculas, erros de correspondência em minúsculas e lacunas como traço (-).4

O valor padrão é: pairwise [0]

Upload de arquivo de checkpoint

Arquivo de ponto de verificação da iteração anterior. Deve estar no formato binário ASN.1.

Modo de uso para PHI-BLAST

Modo de uso para a funcionalidade PHI-BLAST

Nome do modo de usoDescriçãoValor
blastpgpEste é o modo de programa PHIBLAST / BLASTPGP padrão, sem opções patseedp ou seedp.blastpgp
patseedpEssa função leva três entradas, um padrão de entrada, uma sequência de proteína de consulta com o padrão e um banco de dados de sequência de proteína. Ele identifica o padrão na consulta e alinha a consulta com as entradas do banco de dados que contêm o mesmo padrão. Ele relata a posição do padrão na consulta, o número total de ocorrências de padrão no banco de dados e as entradas reais do banco de dados com padrão e alinhamento com a consulta de entrada. Especificamente, ele relata o seqid da entrada do banco de dados, seu alinhamento (com a consulta), valor E, pontuações e posição do padrão.patseedp
seedpRestrinja a pesquisa de alinhamentos locais a um subconjunto das ocorrências de padrão na consulta. Esta opção de programa requer que o usuário especifique a (s) localização (ões) da (s) ocorrência (ões) de padrão interessante no arquivo de padrão (para a sintaxe, veja abaixo). Quando há várias ocorrências de padrão na consulta, pode ser importante decidir quantas são de interesse, porque o valor E para correspondências é efetivamente multiplicado pelo número de ocorrências de padrão interessantes.seedp

O valor padrão é: blastpgp

Upload de arquivo de padrão

Arquivo padrão para funcionalidade PHI-BLAST. Este arquivo precisa estar no estilo de um arquivo de entrada prosite, com pelo menos uma linha ID, linha PA e linha HI opcional.

Etapa 4 - Envio

Cargo

É possível identificar o resultado da ferramenta dando-lhe um nome. Este nome será associado aos resultados e pode aparecer em algumas das representações gráficas dos resultados.

Notificação de Email

A execução de uma ferramenta geralmente é um processo interativo, os resultados são entregues diretamente ao navegador quando ficam disponíveis. Dependendo da ferramenta e de seus parâmetros de entrada, isso pode levar muito tempo. É possível ser notificado por e-mail quando o trabalho for concluído, bastando marcar a caixa & quotSer notificado por e-mail & quot. Um e-mail com um link para os resultados será enviado para o endereço de e-mail especificado na caixa de texto correspondente. As notificações por e-mail requerem endereços de e-mail válidos.

Endereço de e-mail

Se a notificação por e-mail for solicitada, um endereço de e-mail da Internet válido no formato [email protected] deve ser fornecido. Isso não é necessário ao executar a ferramenta interativamente (os resultados serão entregues na janela do navegador quando estiverem prontos).

Referências

Gapped BLAST e PSI-BLAST: uma nova geração de programas de pesquisa de banco de dados de proteínas.
(1997, 01 de setembro) Nucleic acid research 25 (17): 3389-3402
PMID: 9254694 Ferramenta básica de pesquisa de alinhamento local.
(01 de outubro de 1990) Journal of molecular biology 215 (3): 403-410
PMID: 2231712 A web de bioinformática EMBL-EBI e a estrutura de ferramentas programáticas.
(06 de abril de 2015) Pesquisa de ácidos nucléicos 43 (W1): W580-4
PMID: 25845596 Serviços da Web da ferramenta de análise do EMBL-EBI.
(13 de maio de 2013) Pesquisa de ácidos nucléicos 41 (edição do servidor da Web): W597-600
PMID: 23671338


Se você ler o wiki com atenção, verá que o PSSM é calculado em 3 etapas. A primeira frequência é calculada (quantas vezes o aminoácido ou nucleotídeo estava naquele local no motivo), a partir daí você pode calcular a probabilidade (no exemplo wiki havia 10 sequências, então cada frequência é dividida por 10).

Em seguida, a probabilidade de log é calculada, que são os valores PSSM. Eles estão em sua primeira matriz (arredondada para baixo). A segunda matriz mostra o quanto os valores são relativos às suas pseudocontas (presumo que tenha sido definido como padrão = 0).

Lambda e kappa são estimados para calcular a pontuação normalizada (S ') para HSP, se você nunca ouviu isso antes, sugiro que leia o artigo original sobre explosão psi que pode encontrar aqui.


2 respostas 2

Depende do que você está procurando. Se você está apenas procurando por homologia de sequência, pode simplesmente escolher os melhores resultados em uma pesquisa de detonação. Se, no entanto, você está se referindo a funcional homologia, se você está procurando a proteína que tem as mesmas funções da sua consulta, então é mais complicado.

A homologia de sequência não é suficiente para inferir homologia funcional. Por exemplo, você pode ter casos de duplicação de genes e subsequente divergência funcional. Tal parálogos continuam a ser homólogos (paralogs são um subconjunto de homólogos), mas eles não têm necessariamente a mesma função. Também é frequente que o homólogo (seja ele ortólogo ou parálogo) de uma proteína na espécie B tenha uma função completamente diferente do seu homólogo na espécie A, apesar de um alto nível de similaridade de sequência. Isso geralmente é muito difícil de determinar em sílico.

Para encontrar a (s) proteína (s) funcionalmente homóloga (s), você idealmente precisa identificar os resíduos essenciais que permitem que sua proteína execute sua função. Isso pode ser feito usando algo como o PFam, que identificará os domínios da proteína. Você pode então verificar se os homólogos que encontrar também têm este domínio.

Isso é essencialmente o que o PSI-blast faz. Embora não leve os domínios em consideração, cada iteração sucessiva é usada para construir um modelo de sua propriedade. O modelo é construído sob a suposição razoável de que resíduos altamente conservados são importantes. Portanto, ele irá considerar sequências mais divergentes como homólogas se esses resíduos forem conservados.

Se você sabe como sua proteína funciona e quais resíduos são importantes, você pode usar esse conhecimento para refinar os resultados de seu PSI-blast. Do contrário, você terá que usar apenas "bons" hits para fazer o modelo. Uma maneira de fazer isso, para proteínas bem estudadas, é adicionar apenas proteínas que já estão anotadas como homólogas do que você está procurando para construir seu modelo e, em seguida, usar esse modelo para pesquisar em espécies não anotadas.

Se você não sabe, pode tentar procurar domínios de proteína reconhecíveis em sua proteína de consulta (use PFam) e, em seguida, use o HMM (modelo de markov oculto) do domínio para identificar resíduos importantes. Por exemplo, este é o logotipo HMM para o domínio de dedo de zinco zf-A20:

Os enormes resíduos de cisteína (C) são mostrados nesse tamanho porque são muito conservados nas proteínas que transportam este domínio e, presumivelmente, são funcionalmente importantes para o domínio. Então, se você passar sua proteína através de PFam e identificar domínios, encontre os resíduos importantes e certifique-se de que todos os seus homólogos os tenham conservados. Se estiver usando PSI-blast, inclua apenas sequências onde esses resíduos são conservados nos resultados que você mantém.

Finalmente, outra ferramenta útil que funciona da mesma maneira é o HMMER. Isso leva um alinhamento de proteína como entrada, como PSI-blast constrói um modelo HMM a partir dele e, em seguida, pode usar esse modelo para consultar um banco de dados de proteínas para obter mais resultados. Métodos como HMMER e PSI-blast são muito melhores do que abordagens de similaridade de sequência simples ao procurar homólogos.


Métodos

DELTA-BLAST constrói um PSSM combinando informações de perfil de domínios conservados relacionados a uma sequência de consulta e, em seguida, pesquisa um banco de dados de sequência com este PSSM. As subseções a seguir fornecem uma descrição mais detalhada do algoritmo e dos bancos de dados e experimentos usados ​​para avaliá-lo.

Sequências de consulta e banco de dados

Avaliamos o desempenho do DELTA-BLAST usando o subconjunto ASTRAL 40 [30] da versão 1.75 do banco de dados Structural Classification of Proteins (SCOP) [31]. Para criar um conjunto de consultas, classificamos os domínios SCOP em ordem lexicográfica e os dividimos em conjuntos de consultas de treinamento (sequências ímpares) e de teste (sequências pares). Removemos desses conjuntos todas as sequências que eram o único membro de sua superfamília no ASTRAL 40. Usamos o conjunto de treinamento para otimizar os parâmetros e o conjunto de teste para avaliar o desempenho do DELTA-BLAST. O banco de dados “benchmark”, contra o qual as consultas foram pesquisadas, consistia em todas as 40 sequências ASTRAL.

Para uma determinada sequência de consulta, ignoramos seu autoatendimento, mas contamos como homólogo (verdadeiro positivo), qualquer sequência de referência pertencente à mesma superfamília SCOP e como não homóloga (falso positivo) qualquer sequência de referência pertencente a uma dobra SCOP diferente . Não classificamos como verdadeiro ou falso positivo qualquer sequência pertencente à mesma dobra, mas a uma superfamília diferente, porque é difícil estabelecer se tal sequência é ou não homóloga.

Havia 4853 e 4852 consultas nos conjuntos de treinamento e teste, respectivamente, e o banco de dados de benchmark continha 10.569 sequências. O conjunto de treinamento rendeu 195.944 pares homólogos, e o conjunto de teste 196.490.

Domínios conservados

Neste trabalho, CDD é um recurso de anotação de domínio e uma coleção de perfis de famílias de proteínas usados ​​para construir modelos de busca de sequência. Cada domínio conservado (CD) dentro de CDD consiste em um alinhamento de sequência múltipla (MSA). Cada coluna desses MSAs é caracterizada por frequências ponderadas observadas para os vários aminoácidos, bem como por um número efetivo de observações independentes [23, 34, 39].

Para evitar a construção de PSSMs com foco restrito, consideramos apenas CDs que sejam suficientemente diversos. Especificamente, excluímos qualquer CD para o qual o número máximo de observações independentes, medido em todas as colunas, seja inferior a 6. Descobrimos que para DELTA-BLAST este limite rendeu o melhor desempenho de detecção de homologia em nosso conjunto de referência.

Depois de empregar o RPS-BLAST para comparar uma sequência de consulta ao CDD, o DELTA-BLAST usa um CD correspondente para a construção PSSM apenas se for relatado E-valor fica abaixo de um limite especificado. Empiricamente, o limite 0,05 rendeu o melhor equilíbrio entre a sensibilidade de pesquisa e o potencial para os PSSMs resultantes serem corrompidos [34] quando testados em nosso conjunto de treinamento.

Alinhamento múltiplo de domínios conservados

Para construir um MSA a partir de CDs, primeiro coletamos todos os segmentos de CD que foram alinhados à consulta com E-valor abaixo de um limite especificado pelo usuário. Analogamente ao PSI-BLAST, usamos a consulta como um modelo para recolher vários alinhamentos de pares em um único MSA e, em seguida, construir um PSSM correspondente. As colunas do CD que se alinham às lacunas inseridas na consulta são ignoradas. Se o mesmo CD se alinha mais de uma vez a uma determinada coluna da sequência de consulta, apenas o alinhamento com o mais baixo E-value é retido para essa coluna.

Após o alinhamento a quaisquer CDs, a seqüência de consulta faz parte de um alinhamento múltiplo, representado por uma única contagem de resíduos em cada coluna. Para evitar a super-representação da sequência de consulta no PSSM construído, evitamos calcular essa contagem quando o resíduo da consulta já está representado em um CD alinhado. Isso preserva a eficácia dos CDs que modelam grandes famílias de proteínas, mas garante que todos os resíduos na sequência de consulta entrem na construção do PSSM resultante. A estimativa das frequências de resíduos em uma coluna é ilustrada na Figura 11.

Visão geral do cálculo das frequências alvo para uma posição PSSM. Perfis de frequência de aminoácidos de domínios conservados alinhados à consulta são adicionados após ponderação pelo número de observações independentes em modelos de domínio (mostrados como números próximos às setas). A sequência da consulta é incluída, com uma observação, em todas as posições onde o resíduo da consulta não foi observado em nenhum domínio alinhado.

A derivação de frequências alvo e pontuações para PSSMs

As pontuações PSSM para qualquer coluna assumem a forma (ln R eu) / λ, Onde R eu é a proporção da frequência alvo para a frequência de fundo para o resíduo eu, e λ é um fator de escala [23].

Seguimos o procedimento do PSI-BLAST para estimar as razões de frequência [34, 39], que se baseia no método "pseudocontagem dependente de dados" [40] para abordar as questões de tamanho de amostra pequeno e conhecimento prévio das relações de aminoácidos.

Fong e Marchler-Bauer [41] observam que o alinhamento E-valor não fornece um bom critério para selecionar entre ou ponderar domínios homólogos correspondentes. Portanto, ponderamos as colunas CD alinhadas não em função de sua pontuação de correspondência, mas sim proporcionalmente ao seu número efetivo de observações independentes. Para obter parâmetros estatísticos [42] para o PSSM resultante usado com pontuações com intervalo, usamos o procedimento de escalonamento apresentado em [23].

Avaliação

Descrevemos aqui o nosso protocolo para comparar o desempenho do DELTA-BLAST, por vários critérios, aos do BLASTP, PSI-BLAST versão 2.2.25 e Context-Specific BLAST (CS-BLAST) versão 2.1.2. O banco de dados CDD usado pelo DELTA-BLAST é um subconjunto do CDD versão 2.27.

Precisão de recuperação

Depois de comparar um conjunto de consultas com o banco de dados de referência, reunimos todos os resultados da pesquisa, ordenando-os por E-valor. Medimos a precisão da recuperação na lista resultante usando o ROC n pontuação, a área normalizada sob a curva ROC até n falsos positivos [33]. O ROC n pontuação tem valor entre zero e um, com pontuações maiores denotando melhor desempenho, calculamos os erros padrão conforme descrito em [34]. Em seguida, dividimos os resultados agrupados em subconjuntos de acordo com a classe de proteína SCOP da consulta e ROC calculado n pontuação para cada subconjunto, com n igual ao número de consultas de subconjunto.

Também calculamos ROC5 pontuações dos resultados da pesquisa para cada consulta e traçou a porcentagem de todas as consultas de teste que geram resultados com ROC5 pontuação maior do que um determinado valor vs. o valor. Para garantir que poderíamos calcular as pontuações ROC para até cinco falsos positivos, adicionamos cinco resultados falsos positivos falsos no final de cada lista de resultados.

Para construir PSSMs eficazes, o PSI-BLAST deve pesquisar um banco de dados de sequência abrangente. Portanto, para avaliar o PSI-BLAST, nós o usamos em todas as iterações iniciais para pesquisar uma versão do banco de dados Não Redundante (NR) do NCBI congelado em 16 de agosto de 2011, e para pesquisar o banco de dados de referência apenas na iteração final.

Também examinamos o desempenho do PSI-BLAST quando inicializado com um CS-BLAST ou um PSSM gerado por DELTA-BLAST. Nós nos referimos a esses métodos como BLAST Iterado Específico do Contexto (CSI-BLAST) [24] e DELTA-BLAST iterado. eu iterações de CSI-BLAST ou DELTA-BLAST iterado referem-se a eu - 1 iterações de PSI-BLAST iniciadas a partir de um PSSM computado por CS-BLAST ou DELTA-BLAST.

Para PSI-BLAST, CSI-BLAST e DELTA-BLAST iterado, definimos em 5000 o número máximo de resultados de pesquisa PSI-BLAST da iteração anterior usada para construção PSSM. Selecionamos esse número para consistência, porque ele está embutido no programa CSI-BLAST [24].

Qualidade de alinhamento

Avaliamos a qualidade do alinhamento usando o subconjunto superfamília do conjunto SABmark [32]. SABmark fornece os alinhamentos de referência para sequências que correspondem aos domínios SCOP. Neste experimento, usamos apenas alinhamentos com identidade de sequência no alinhamento de referência abaixo de 30%. Além disso, removemos alinhamentos que continham pelo menos uma sequência presente no conjunto de treinamento usado para ajustar os parâmetros DELTA-BLAST e alinhamentos com menos de cinco pares alinhados de resíduos. O conjunto resultante continha 10.006 alinhamentos entre 2.379 sequências.

Geramos alinhamentos de sequência para cada par de sequências com DELTA-BLAST, BLASTP e CS-BLAST. O alinhamento de melhor pontuação foi avaliado para cada par. A qualidade dos alinhamentos de sequência foi medida pela sensibilidade de alinhamento definida como | N ∩ S | / | S |, e precisão definida como | N ∩ S | / | N | , Onde N é o conjunto de pares de resíduos no alinhamento de sequência, e S é o conjunto de pares de resíduos no alinhamento de referência. Essas medidas de qualidade de alinhamento são idênticas ao f D e f M medidas usadas em [43].

Agrupamos os alinhamentos em caixas por identidade de sequência no alinhamento de referência e calculamos a sensibilidade e a precisão média para cada caixa.

Precisão nominal E-valores

Para cada método de pesquisa, representamos um gráfico x o número médio de resultados falsos positivos com E-valor ≤ x. Porque o E- os valores relatados por diferentes métodos não são igualmente precisos, identificamos E-valor limites nos quais os vários métodos retornam números semelhantes de falsos positivos. Esses pontos de corte são usados ​​nos experimentos descritos a seguir.

Comparação de sensibilidade de pesquisa

Comparamos a sensibilidade DELTA-BLAST, PSI-BLAST e CS-BLAST pelo número de resultados positivos verdadeiros encontrados com E-valor abaixo dos respectivos limites específicos do método (veja acima). Também comparamos o número de tais ocorrências com consulta e assunto pertencentes a diferentes famílias SCOP e o número de superfamílias gerando pelo menos um verdadeiro acerto positivo. Executamos o PSI-BLAST da mesma maneira descrita no Precisão de recuperação subseção, mas relatar resultados apenas para cinco iterações.

Anotação CDD de resultados positivos verdadeiros

Anotamos o conjunto de teste e as sequências do banco de dados usando RPS-BLAST para compará-los ao CDD versão 2.30. Um E-valor ≤ 0,01 produziu uma associação com um CD. Para DELTA-BLAST, PSI-BLAST, CS-BLAST e BLASTP, examinamos as associações de CDD de resultados positivos verdadeiros com E-valores abaixo dos respectivos limites específicos do método. Para cada método, registramos a fração dos verdadeiros positivos retornados com a consulta e o assunto anotado com o mesmo CD, mesma superfamília de CDD, diferentes superfamílias de CDD e com consulta ou assunto que não corresponda a nenhum CD. Calculamos as mesmas porcentagens para todos os pares homólogos no conjunto de benchmark. Uma associação de sequência de consulta e benchmark com pelo menos um CD comum rendeu atribuição ao primeiro desses grupos, enquanto uma associação de ambos com pelo menos uma superfamília CDD comum rendeu atribuição ao segundo. Como nem todos os CDs pertencem a superfamílias de CDD, as frequências para as mesmas e diferentes superfamílias podem não somar uma.


É PSI-BLAST ou BLASTP se eu usar PSI-BLAST para apenas uma iteração - Biologia

Este documento de ajuda descreve o recurso Estruturas Relacionadas (também conhecido como CBLAST), que aceita uma sequência de proteína como entrada e, em seguida, encontra estruturas 3D resolvidas experimentalmente que estão relacionadas à proteína de consulta com base na similaridade de sequência. (Observação: um recurso separado, a Vector Alignment Search Tool (VAST), identifica estruturas tridimensionais de proteínas semelhantes por critérios puramente geométricos e pode ser usado se sua consulta for uma estrutura de proteína em vez de uma sequência de proteínas.)

  • O que é o serviço de Estruturas Relacionadas?
  • Como o serviço Related Structures pode ser usado para aprender mais sobre proteínas?
  • Como acessar o serviço de Estruturas Relacionadas e quais formas de input ele aceita?
    • Pesquisa direta no serviço de Estruturas Relacionadas, usando um número de proteína GI como consulta
    • Link from an Entrez Protein sequence record to Related Structures
      • illustrated example of link from protein sequence record to related structures
      • illustrated example of related structures search results
      • illustrated example of detailed view for related structure
      • Subset
      • SortBy
      • Exibição
        • Gráfico
        • Mesa
        • PSI-BLAST
        • CD-Search

        To do this, the Related Structures service uses BLAST to compare the protein query sequence against the protein sequences from all structures in the Molecular Modeling Database (MMDB) in pairwise comparisons. It then lists statistically significant matches, sorted by similarity scores.

        This approach is used because the 3D structure (tertiary structure) of a protein is considered to be largely determined by the its amino acid sequence (primary structure). Therefore, if the amino acid sequence of a protein is similar to that of a protein whose 3D structure is known, we can then assume that the query sequence is likely to have a similar 3D structure.

        The Related Structures service is also referred to as " CBLAST ," where "BLAST" represents the sequence similarity search tool that is used to find proteins (from experimenally resolved structures) that are related to the query protein, and the "C" represents the Cn3D structure viewer that can be used to interactively view the 3D protein structures that are found along with the sequence alignment suggested by BLAST, and to map aligned regions to the 3D structure space.

        (NOTE: A separate service, the Vector Alignment Search Tool ( VAST ), identifies protein 3-dimensional structures that are similar to each other by purely geometric criteria. These are referred to as similar structures , and the VAST help document provides additional details about that tool.)

             

         
        How can the Related Structures service be used to learn more about proteins?
         
          A 3D structure can often provide detailed information on a protein's biological function and mechanism of action, but experimentally solving a 3D structure is no easy task and is not always possible. Therefore, only a small fraction of known proteins have their 3D structure information available.

        For other proteins, however, some structural information may be inferred by comparison to 3D structures of proteins that are in the same sequence family (based on sequence similarity ) -- that is, by examination of related structures .

        The Related Structures service finds 3D protein structures that are similar in sequence to your query protein. It presents a 3D view of each related structure together with a pairwise alignment of the query protein sequence and the 3D structure's protein sequence.

        The Related Structures service also searches our Conserved Domain Database (CDD) to identify conserved domains in the query protein sequence, and to map functional sites from the conserved domains onto the query sequence.

        Each related structure and pairwise sequence alignment can be downloaded and viewed in Cn3D , or saved on a local computer for later use.

         
           
         
        How to access the Related Structures service, and what forms of input does it accept?
         
          Related Structures can be accessed in a variety of ways, such as:

        Direct search in the Related Structures service, using a protein GI number as the query:

        • Open the Related Structures home page.
        • In the text box, enter 463989 , which is the GI number for protein accession AAC50285: DNA mismatch repair protein homolog [Homo sapiens].)
        • Press the " Find related structures " button to retrieve proteins that are similar in sequence to your query, and that have experimentally resolved structures. (View the related structures for this sample query.)

        Link from an Entrez Protein sequence record to Related Structures:

          Open the protein sequence record AAC50285 (GI 463989), for the human DNA mismatch repair protein homolog, in the Entrez Protein sequence database and scroll down the page. In the right-hand margin, you will see a "Related Information" section, which includes links for "Related Structures (list)" and "Related Structures (summary)." The latter link opens a page with a graphical display that summarizes conserved domains and conserved features/sites found on the protein query sequence, the alignment footprints of related structures, and links that allow you to display the 3D structure and sequence alignment in Cn3D.
          (These steps are illustrated below , where the protein sequence record is shown in FASTA format. The "Related Information" links also appear in the right hand margin when the sequence record is displayed in other formats, including the default GenPept format.)

        Protein BLAST search against the PDB data set, using a protein GI number as the query

        • Open the Protein BLAST query page, and enter 463989 as the protein query sequence (463989 is the GI number for the human MLH1 protein homolog). In the " Choose Search Set " section of the query page, select " Protein Data Bank proteins (pdb) ," and press the "BLAST" button near the bottom of the page to start the search. On the BLAST results page for GI 463989, click on the description of any hit to view a pairwise alignment between the protein query sequence and the BLAST hit. Each pairwise alignment will show a "Related Information: Structure" link in the right margin of the display, because all of the BLAST hits are from the Protein Data Bank, which we chose as the search set, and therefore have a 3D structure.
        • Note: If you choose the default "nr" (non-redundant) database (instead of the "Protein Data Bank proteins (pdb)") in the " Choose Search Set " menu, then only the hits that have 3D structures will show the "Related Information: Structure" link in the right margin of their pairwise alignment. If you do not see a "Related Information: Structure" link in the right margin of a pairwise alignment, that means the BLAST hit is not from a 3D structure record.

        Protein BLAST against the PDB data set, using protein sequence data (in FASTA format ) as the query:

        • Open the protein BLAST search page
        • In the " Enter Query Sequence " section of the page, type/paste your query protein sequence data (preferrably in FASTA format ) into the text field box.
        • In the " Choose Search Set " section of the page, select " Protein Data Bank proteins(pdb) " as the database to search against.
        • Click on the "BLAST" button near the bottom of the page to start the search.
        • After the BLAST search is completed, click on a hit of interest to view its pairwise sequence alignment with the query sequence. Look for the " Structure " link in the right margin of the pairwise sequence alignment display. Click on the "Structure" link and the Related Structures service will open in a new window/tab.

         
           
         
        How to read the results from the Related Structures service?
         
          Below is an example of a Related Structures search results page , for the query protein sequence GI 257051069, transitional endoplasmic reticulum ATPase from Xenopus laevis . The query sequence, which does not have an experimentally resolved structure, is aligned to similar protein sequences that do have experimenally resolved 3D structures. (Click on the image to open the live Related Structures search results page for GI 257051069.)


        The top of the display summarizes information about your query sequence , including its GI number, Accession, and definition line (description). The sequence identifiers are shown in FASTA defline format (e.g., [gi|nnnnnn|db|XXXXXX], where nnnnnn is the GI number, db is an abbreviation for the source database (such as "sp" for Swiss Prot), and XXXXXX is the accession number). The sequence identifiers link to the corresponding sequence record in the Entrez Protein protein database, enabling you to open the sequence record, if desired. (Note: If you entered a protein query sequence that is not yet available in the Entrez Protein database, then the top of the display will show the sequence identification information that you provided in your FASTA-formatted query sequence.)

        In the graphic display , the ruler labed " Query Seq " represents the query sequence with amino acid positions labeled, providing a defined scale for the alignments. Below the ruler are small triangles that indicate conserved features/sites, and cartoons with distinct colors/shapes that indicate conserved domains. These were found in the query sequence by the CD-Search service, which uses RPS-BLAST to compare a query protein sequence against the Conserved Domains Database (CDD) . A conserved domain that appears on the line labeled "Specific hits" indicates a high confidence that the query sequence belongs to the same protein family as the sequences used to create the domain model. (Please refer to the Conserved Domain Database Help document, and the CD-Search Help document, for more information about those resources, including types of hits such as specific, non-specific, superfamily, and multidomain).

        • A thumbnail of the structure, with an option to interactively view the structure and sequence alignment in Cn3D
        • A PDB-style sequence ID of the related structure
        • An alignment footprint (pink line) that shows the region of sequence similarity between the query protein and the related structure
        • The BLAST score ( E-value (default), bit score, alignment length, sequence identity) that is used to sort the related structures.
        • A larger model picture of the structure
        • A link to the corresponding structure record in the Molecular Modeling Database (MMDB), where all structures are stored, and where more details about each structure are available
        • A link to search references (publications) of the structure in PubMed database
        • The description title of the structure
        • All four BLAST scores ( E-value, bit score, alignment length, and sequence identity) for the alignment between the query protein sequence and the 3D structure's protein sequence. (Details about those scores, and other terms related to sequence similarity searching, are provided in the BLAST Glossary and NCBI Handbook Glossary.) A pairwise sequence alignment , illustrated below , provides a detailed, residue-by-residue comparison of the query protein and the 3D structure's protein :
          • identical residues are in shown red
          • similar residues in blue
          • non-matched residues in grey


            Clicking on to download the data and display them in Cn3D . (Cn3D must be installed on your computer in order for the button to work. A tutorial shows how the progam can be used.) Clicking on will download the data in a human-readable format ( ASN-text ) and present them in the browser window. Clicking on will download the data in binary ( ASN-binary , not human-readable) and prompt you to save the file on local computer.

          If there are too many structures found, the results may be paginated . There are two navigation bars (one bar above the graphic display and an identical bar beneath the graphic display, just for convenience) that allow you to page through the results using the left and right arrows, or to jump to a specific page by selecting it from the drop-down menu that appears between the arrows.

         
         

        • The " Subset " menu allows you to select the level of redundancy that you would like to see in the display of search results. (The default setting is "Low redundancy.") A separate section of this document provides additional information about redundancy levels, and the method used for clustering structures in order to provide various levels of redundancy in search results.
        • A separate section of this document provides additional information about redundancy levels, and the method used for clustering structures in order to provide various levels of redundancy in search results.
        • Graphic summary (" Graph ," the default setting), which shows the alignment footprints (pink bars) of the related structures relative to the query protein ( illustrated example ) . It also provides a detailed view that shows the pairwise sequence alignment of the query protein and the related structure's protein ( illustrated example ) , along with options to view the 3D structure and sequence alignment in Cn3D . (The detailed view is accessible by clicking on the "+" beside the thumbnail graphic of the related structure, or by clicking on the pink alignment footprint.)
        • " Table ," which shows the thumbnail molecular graphic, structure identifiers (PDB ID and MMDB ID), description, and BLAST scores ( E-value, bit score, alignment length, sequence identity) for each related structure. (The Table display also enables you to save the results for future reference simply select/copy/paste the desired subset of results into your preferred file type (e.g., *.txt, *.doc, spreadsheet.)

         
           
         
        What is redundancy level and how does the Related Structures service handle it?
         
          The "Subset" menu on a Related Structures search results page allows you to select the level of redundancy you want to view in the display.

        Many proteins may have identical or very similar amino-acid sequences (for example, several proteins sequenced from different organisms by different labs may turn out to have identical amino-acid sequences). Search results that display every one of those sequences can be redundant.

        To address this, the structures in MMDB are clustered into groups based on protein sequence similarity . Structures in each group are ranked according to apparent quality and completeness of the structure data, and only the highest ranked structure will be listed as a representative of the group, thus reducing redundancy in the display of related structures.

          All similar MMDB -- No clustering . All related structures are listed. This is the highest redundancy level.
          Non-identical -- Only identical sequences are grouped into a cluster, and one representative from each cluster is shown in the results. Very high redundancy.
          High redundancy -- Proteins are clustered based on sequence similarity using an E-value threshold of 10 -80 , and one representative from each cluster is shown in the results.
          Medium redundancy -- Proteins are clustered based on sequence similarity using an E-value threshold of 10 -40 , and one representative from each cluster is shown in the results.
          Low redundancy -- Proteins are clustered based on sequence similarity using an E-value threshold of 10 -7 (default), and one representative from each cluster is shown in the results.

        Note that the redundancy levels are provided as a convenience, in order to make browsing Related Structures search results faster and easier. Nevertheless, even when a cluster contains identical protein sequences, there might be interesting variations among members of the cluster. For example, some might be free proteins while others might be bound to another molecule. If such variations are of interest, select "All similar MMDB" from the "Subset" menu to view the complete set of search results.

         
         

        Position-Specific Iterated BLAST (PSI-BLAST) can find more distantly related proteins than the regular protein BLAST program, and some of the more distantly related proteins might be associated with structures. The first iteration of PSI-BLAST search results might not contain any protein sequences derived from 3D structure records, but subsequent iterations will find more distantly related proteins, some of which might have experimentally resolved 3D structures. If a PSI-BLAST hit is associated with a 3D structure, it will have a "Structure" link in the right hand margin of the pairwise alignment of the query sequence and the PSI-BLAST hit.

        • Open the protein BLAST ( blastp ) page.
        • Select the search parameters:
          In the " Search Set " section of the page, select " non-redundant protein sequences (nr) ."
          In the " Program Selection " section, and select " PSI-BLAST (Position-Specific Iterated BLAST) ." (Or simply click on the link at the beginning of this paragraph, which will open the protein BLAST page with those search parameters already selected.)
        • Enter the protein query sequence as a GI number or as FASTA-formatted sequence data.
        • Press the "BLAST" button at the bottom of the page.
        • Altschul SF, Madden TL, Schaffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ. Gapped BLAST e PSI-BLAST: uma nova geração de programas de pesquisa de banco de dados de proteínas. Nucleic Acids Res. 1997 Sep 125(17):3389-402. Análise. PubMed PMID: 9254694 PubMed Central PMCID: PMC146917. [Free full text in PubMed Central] [Free Full Text in Nucleic Acids Research (PDF)]
          McGinnis S, Madden TL. BLAST: at the core of a powerful and diverse set of sequence analysis tools. Nucleic Acids Res. 2004 Jul 132(Web Server issue):W20-5. PubMed PMID: 15215342 PubMed Central PMCID: PMC441573. [Free full text in PubMed Central] [Free Full Text in Nucleic Acids Research (PDF)]
          Madden T. The BLAST Sequence Analysis Tool. IN The NCBI Handbook [Internet] 2nd edition, National Library of Medicine (US), National Center for Biotechnology Information, Bethesda, MD, 2013 March 15. [cited 2014 May 14]. Available from https://www.ncbi.nlm.nih.gov/books/NBK153387/ in Entrez Bookshelf (https://www.ncbi.nlm.nih.gov/books).

        The CD-Search service is a web-based tool for the detection of conserved domains in protein sequences. It can therefore help to elucidate the protein's function. Many conserved domains, particularly NCBI-curated domain models , are based on multiple sequence alignments that include proteins from experimentally resolved 3D structures. Therefore, if the CD-Search service finds conserved domains in your query sequence, and if some of the hits are NCBI-curated domain models (or members of conserved domain superfamilies associated with 3D structures), it is likely that you can see 3D structures that are related to the functional parts of your query sequence , even if the Related Structures (CBLAST) service did not find hits for your overall query protein. To use CD-Search:


        2 respostas 2

        QUERY 365176198 is a protein

        DATABASE are nucleotics

        What is the Transcriptome Shotgun Assembly (TSA) Database?

        TSA is an archive of computationally assembled sequences from primary data such as ESTs, traces and Next Generation Sequencing Technologies. The overlapping sequence reads from a complete transcriptome are assembled into transcripts by computational methods instead of by traditional cloning and sequencing of cloned cDNAs.

        Are TSA sequences available by a BLAST search?

        A Transcriptome Shotgun Assembly (TSA) BLAST database is now available. The sequences were initially included in nt but now have been segregated into a separate database. The TSA database is available from the BLAST home page under Basic BLAST at the nucleotide, tblastn, and tblastx links. These sequences are not available in nt.

        BLAST FLAVORS

        MANUALLY ANSWER

        BIOPYTHON ANSWER

        you must use "tsa_nt" instead of "tsa", and "tblastn" instead of "blastp"


        A Brief Bioinformatics Tutorial

        This can seem to be trivial. In fact it may not be that simple given the abundance of data. Mainly two databases can be used: (i) NCBI, which we will use here, and (ii) SRS at EBI. The latter can be very convenient as the query form allows making complicated requests. However, it is not as intuitive as NCBI. so:

        1/ Go to the NCBI web site . Note that you can also download the NCBI search toolbar for Internet Explorer or Firefox.

        2/ Enter your query using the NCBI search field. We will be working with the Yeast gene VPS36. To look for it, you may simply type VPS36 in the search field. Note however that your search won't be very specific. There will be 113 entries that have "vps36" somewhere in their text, but this includes the annotation, e.g., it may include proteins known to associate with Vps36. If you click on the "Preview/Index" tab below the search field, you can use the associated menus to narrow your search.

        From the preview/index page, you can add qualifying terms to narrow the search. For example, to restrict the search to entries having the gene name "Vps36", pull down the "Field name" tab, select "Gene name", type Vps36 in the search box then click on "AND".

        This generates a new search command as shown below


        Clicking on the Go button generates 16 hits. If pull-down menus annoy you, you could have simply typed "vps36[gene name]" in the search field and gotten the same result.

        For more details on how to make specific searches please refer to this link, but for this workshop, [gene name] will suffice.

        3/ In the list of Vps36 genes, you will see the protein NP_013521 among the results. Click on it.

        4/ You can simply get the sequence (or part of it) in a FASTA format using the Display and Range options on the top of the screen. Save the sequence from position 1 to 289. done


        You might as well copy this sequence to the clipboard, as you'll need it in the next section.

        Do a Blast Search With Your Sequence


        1/ Go back to the NCBI protein page.
        2/ On the left , below "related resouces" click on Blast.
        3/ In the "Protein" subdivision, click on "Protein-protein BLAST (blastp)"
        4/ Paste your sequence (just the sequence, not the header). Then, there are a number of options. In general, I would:

        • Look in the "nr" database. The default database for a BLAST is the "nr" database. The "nr" database is the largest database available through NCBI BLAST. Choosing the largest database is not always best. You may want to find a match from a specific organism. The name "nr" is derived from "non-redundant", but this is historical only, because this database is no longer non-redundant.
        • Try with "NO CD-search" selected at least you know that the predicted domains are accurate.
        • Composition adjustments: select composition-based statistics
        • Word size, select 2

        You will get a list of pairwise alignments with your query sequence in order from most similar to least similar. The column labeled "E-value" represents approximately how many sequences you would expect to match by chance in a database of the size searched (i.e., the nr database).

        The "bit scores" (S values) have been normalized with respect to the scoring system, so that they can be used to compare alignment scores from different searches.

        Do iterative Blast Searches: PSI-BLAST

        The evolutionary pressure is not equivalent on all residues of a protein. For example, buried residues, residues in a secondary structure, at an active site or at a binding site are generally more conserved than residues in loops. When you compare two sequences, you do not take into account these differences in conservation that can be very informative. However, when you have a set of similar sequences you can compare them to each other and identify which regions are variable and which regions are not. This is what PSI-BLAST does. It identifies regions of importance (not variable) and it gives them more weight in subsequent comparisons.

        So, PSI-BLAST is a kind of hybrid program in between BLAST and HMMs (explained in the next section): it starts by looking for sequences similar to yours. Once it finds some, it asks which sequences you want to keep for the next search iteration. You have to very carefully select those sequences that you think are relevant. Then you start a new iteration. The sequences you selected are used to define a sort of motif (with some statistics), which will help to detect previously not detected sequences and also discard previously ambiguous sequence. In brief, it will increase the specificity and sensitivity of the search.

        So . let's try!
        1/ Go to the NCBI Blast web page,
        2/ In the "Proteína" sub-division, click on "Position-specific iterated and pattern-hit initiated BLAST" (agora you understand what it means)
        3/ Paste in the Vps36 1-289 region in the sequence box and select the same parameters as for the previous EXPLOSÃO
        4/ Click on BLAST! botão.
        5/ You will have to press the formato button to see the results. When they are ready, they will appear in another browser window. Keep pressing on Formato periodically until the first iteration appears.
        6/ At the first iteration, there are a lot of sequences. The top sets matches the query sequence (the one you submitted) closely throughout the entire range of the sequence (the vermelho e roxa hits). However, these are all closely related. They are all Vps36 genes from other fungi



        Select the red, purple and green hits for the next iteration. Clique no Run Psi-Blast Iteration 2 botão.


        Again, you will have to click on the Formato button in the original window periodically to get the results.


        The list from the second iteration shows the same top entries as in the first iteration, but some new sequences have appeared in azul that show similarity to the query sequence at both ends, but not in a region in the middle. There are many "hypothetical" and "unnamed" sequences among them. There are also some proteins that contain protease related (calpain link) domains. These might be important, but be conservative at first. For the next iteration choose only those proteins with an annotated function of "vacuolar protein sorting". This annotation could be wrong, but it is useful for a start. Uncheck all other sequences.


        At the third iteration, a clear pattern has begun to emerge




        There is now a large group of sequences related to Vps36 that show no similarity in the region from about 100-200. These seem to be the metazoan Vps36 genes. Don't bother doing it now, but by choosing only the top sequences and these metazoan sequences with a split region of similarity and iterating further, at iteration 5, this pattern is very distinct. Below you can see the results from iteratin 8.


        Note, the genes can have lots of synonyms in various organisms. For example, for Vs36, you will see EAP45, and the locus CGI-145.



        The psi-blast exercise has helped get a clearer picture of the organization of this N-terminal region of Vps36. There seems to a yeast-specific insertion consisting of about 150 residues. When you will look at the multiple alignment (section below), you will actually get a hint about what this insert consists of.

        There is another type of tool capable of detecting even more distant relationships. These are the so-called "meta" servers. Blind tests have established that several of these perform quite well for predicting the folds of domains.


        Meta servers take your sequence and send it out to various other servers and score the output from the various servers to give you a ranked list of likely possible structural templates. One successful meta server is 3D-Jury. We won't cover this server here, but keep it in mind. It can take up to a few hours to get results back from 3D-Jury, but it can be worth the wait.

        One of the servers employed by 3D-Jury is the FFAS03 (Fold and Function Assignment System). This server extends the basic idea of profile searchers. It starts by making an iterative Psi-Blast search with your sequence. This develops a "profile" (position specific scoring matrix) of your sequence that is based on alignments of many homologues. However, instead of using this profile to search a database of sequences (i.e., a profile-sequence search as you would do for another iteration of Psi-Blast), it makes a profile-profile search through pre-computed profiles for families of proteins from various databases such as the PDB database of protein structures. This method is able to detect very distant relationships to arrive at plausible structural templates.

        Our Psi-Blast analysis suggested that there is a yeast-specific insertion in the N-terminal region. The FFAS03 server was quite helpful to understand the Vps36 N-terminal region. Don't try to run FFAS03 right now, because it can take some time, but the following results illustrate what the server was able to do for our example.

        Below is the result of running FFAS03 on a sequence that was formed by removing the yeast-specific insert from the Vps36 N-terminal region. The sequence was simply copied and pasted in the sequence window. FFAS03 can take up to a few hours (don't try it now) then it displays the results in a publicly accessible queue.


        By clicking on the PDB1105 link, the results of the profile-profile search are shown:


        Hits 2-8 of the top 10 are all PH domains or folds indistinguishable from PH domains. The top hit is not real and is due to an anomaly of the PDB that I can explain if you are interested.

        Ling Teo crystallized the spliced Vps36 construct and found that the domain is indeed a PH domain that is very closely related to the top hits found by FFAS03. This is an impressive achievement for FFAS03. If you have a difficult case, give it a try. You will use Ling's model for the estrutural part of this workshop.

        Get Homologous Sequences Using Homologene

        Homologene is a service from the NCBI web site that allows to retrieve homologous genes:
        1/ Select homologene in the NCBI menu list as shown below or simply click on this homologene link ,




        2/ Enter vps36[gene name] in the search field,
        3/ Genes conserved in Eukaryotes appear
        4/ Click on download on the right
        5/ In the new window you can select the sequences you want, we keep them all. So you can click on the download button.
        This downloads a fasta file with all the selected sequences.

        Get Orthologous Sequences Using InParanoid

        Homologene is not very stringent in its definition of homology. InParanoid is more stringent and uses the most commonly accepted definition for orthology. ou seja,, it considers two genes UMA e B from two organisms Org1 e Org2 to be orthologous only if of all genes from Org1, UMA is the closest sequence to B e vice verca (if of all genes from Org2, B is the closest sequence to UMA).

        To get orthologous genes,
        1/ go to the database
        2/ InParanoid works with EnSembl/Uniprot identifiers, which are those used at EBI. Since we work with NCBI here we don't have those identifiers. So we will use the "Blast search" option on which you can then click!
        3/ Paste you sequence, (the full one), let all the default options and Blast!
        4/ It found our sequence! --> click on it

        Make a Multiple Alignment Of Your Sequences Using JALVIEW

        JALVIEW is a software that allows you to perform and edit multiple alignments.
        1/ If it is not installed, go to the JALVIEW web-site and download it,
        2/ Launch it,
        3/ Get a FASTA list for the N-terminal regions of Vps36 by clicking here. This contains the PSI-Blast result. Use the " save page as " option under " File" in Firefox to save save the FASTA file in your dowload folder.
        4/ In Jalview, click on " File " (top left) --> then "I nput Alignment " --> then " from File "
        5/ This loads your sequences, but they are not aligned.
        6/ Select all of the sequences (Apple+a), under the " Web Service " menu, choose--> "Alignment" --> "Muscle Multiple Protein Seq.
        Alignment". Note that in general, Muscle gives better results than Clustal.
        7/ Now you can do plenty of things:


        Assista o vídeo: PSI BLAST (Agosto 2022).