Em formação

7.0: Prelúdio de Mutações - Biologia

7.0: Prelúdio de Mutações - Biologia



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

A alteração da sequência no DNA genômico é o combustível que impulsiona o curso da evolução. Sem essas mutações, nenhuma mudança ocorreria nas populações de espécies para permitir que se adaptassem às mudanças no ambiente. As mutações no DNA das células germinativas se enquadram em três categorias com relação ao seu impacto na evolução. A maioria não tem efeito sobre o fenótipo; estes incluem mudanças de sequência na grande parte do genoma que não codifica para a proteína, ou está envolvida na regulação do gene ou qualquer outro processo. Alguns desses neutro mutações se tornarão prevalentes em uma população de organismos (ou fixo) durante longos períodos de tempo por processos estocásticos. Outras mutações têm um fenótipo, que é vantajoso para os indivíduos que o carregam. Essas mutações são fixadas em populações rapidamente (ou seja, estão sujeitas a seleção positiva) Outras mutações têm um fenótipo prejudicial e são eliminadas da população rapidamente. Eles estão sujeitos a negativo ou seleção purificadora.

Uma tulipa vermelha de Darwin híbrida "Apeldoorn" com uma mutação que resultou na metade de uma pétala sendo amarela. (CC BY-SA 3.0; LepoRello).

Se uma mutação é neutra, desvantajosa ou útil é determinado por onde ela está no genoma, qual é o tipo de mudança e pelos detalhes das forças ambientais que operam no locus. Para nossos propósitos, é importante perceber que as mudanças na sequência são uma parte natural do metabolismo do DNA. No entanto, a quantidade e os tipos de mutações que se acumulam em um genoma são determinados pelos tipos e concentrações de mutagênicos aos quais uma célula ou organismo é exposto, a eficiência dos processos de reparo relevantes e o efeito sobre o fenótipo no organismo.


Variante Alfa SARS-CoV-2

Variante alfa, também conhecido como linhagem B.1.1.7, [a] é uma variante do SARS-CoV-2, o vírus que causa o COVID-19. Uma das várias variantes que se acredita ser de particular importância, é estimado em 40% -80% (com a maioria das estimativas ocupando a extremidade média a superior desta faixa) [b] mais transmissível do que o SARS-CoV-2 de tipo selvagem e foi detectado em novembro de 2020 a partir de uma amostra coletada em setembro, durante a pandemia de COVID-19 no Reino Unido, começou a se espalhar rapidamente em meados de dezembro e está correlacionado a um aumento significativo nas infecções por SARS-CoV-2 no país . Acredita-se que esse aumento seja pelo menos parcialmente devido a uma ou mais mutações na proteína spike do vírus. A variante também é notável por ter mais mutações do que normalmente visto. [2]

Em janeiro de 2021, mais da metade de todo o sequenciamento genômico do SARS-CoV-2 foi realizado no Reino Unido. [3] Isso deu origem a questões sobre quantas outras variantes importantes podem estar circulando ao redor do mundo sem serem detectadas. [4] [5]

Em 2 de fevereiro de 2021, a Public Health England relatou ter detectado "[a] um número limitado de genomas B.1.1.7 VOC-202012/01 com mutações E484K", [6] que eles apelidaram de Variant of Concern 202102/02 (VOC -202102/02). [7] Uma das mutações (N501Y) também está presente na variante Beta e na variante Gama.

Em 31 de maio de 2021, a Organização Mundial da Saúde anunciou que a Variant of Concern será rotulada Alfa para uso em comunicações públicas. [8] [9]


Mutação são as mudanças hereditárias repentinas que ocorrem no conteúdo de DNA de um organismo. A mutação pode ser de três tipos: benéfica, prejudicial e neutra. Mutações neutras são as mutações que resultam nas mudanças no DNA. No entanto, essas mudanças não são determinadas porque as mudanças não serão prejudiciais nem benéficas para os organismos. Os alelos mutados neutros são passados ​​para as progênies durante a reprodução, mas serão substituídos ou perdidos por outros alelos. Esses genes não são selecionados pela seleção natural, pois não podem ajudar um organismo a sobreviver e se adaptar às diversas condições.

Introdução: Mutação são as mudanças hereditárias repentinas que ocorrem no conteúdo de DNA de um organismo. A mutação pode ser de três tipos: benéfica, prejudicial e neutra. Mutações neutras são as mutações que resultam nas mudanças no DNA. No entanto, essas mudanças não são determinadas porque as mudanças não serão prejudiciais nem benéficas para os organismos. Os alelos mutados neutros são passados ​​para as progênies durante a reprodução, mas serão substituídos ou perdidos por outros alelos. Esses genes não são selecionados pela seleção natural, pois não podem ajudar um organismo a sobreviver e se adaptar às diversas condições.


D'Herelle e a Natureza Particulada dos Bacteriófagos

Em 1917, Félix d'Herelle relatou a existência de placas (áreas de lise) em bactérias coletadas de pacientes com disenteria (d'Herelle, 1917). D'Herelle rapidamente interpretou a existência de placas e de propagação em série como evidência de que ele havia observado um micróbio discreto. Na época, d'Herelle tinha dois métodos para observar a lise das bactérias: a eliminação das suspensões bacterianas após a inoculação e a formação de placas nos gramados bacterianos das placas. D'Herelle raciocinou que havia encontrado algum micróbio particulado.

Em uma análise posterior, ele desenvolveu o conceito de unidades formadoras de placa por volume, contando o número de placas encontradas por volume de agente lítico adicionado. D'Herelle fez diluições em série do agente e em diluições nas quais esperava uma média de 0,5 unidades formadoras de placa por volume adicionado, ele inoculou uma série de 10 culturas de caldo de bactérias. Algumas das culturas sofreram lise, mas, o mais importante, algumas não. D'Herelle propôs que isso não poderia acontecer se o agente lítico fosse uma substância fluida, como uma enzima. Assim, ele raciocinou, a lise bacteriana era devida a um "roupão ultramicro", que ele chamou de "bacteriófago".

A lógica desse experimento de lise em caldo expressa por d'Herelle representa o que Summers (1999) se refere como uma compreensão “intuitiva” da probabilidade, que é expressa formalmente como a distribuição de Poisson.


Frequências de mutação Ras

Perfil de tumor em larga escala

A análise inicial do status mutacional da isoforma Ras no câncer revelou incidências variadas de mutações Ras em diferentes tipos de tumor e associação específica de isoformas Ras individuais com cânceres específicos (4). Apesar de tamanhos de amostra relativamente baixos, fortes tendências foram identificadas, por exemplo, que K-Ras é a isoforma mutada com mais frequência na maioria dos cânceres, com o exemplo extremo de câncer de pâncreas, onde 90% dos tumores abrigavam mutações K-Ras. Em contraste, as mutações N-Ras foram mais fortemente associadas a tumores hematopoiéticos. O advento de perfis de tumor em larga escala e bancos de dados de sequenciamento de dados agora permite uma análise mais profunda dos espectros de mutação Ras, o que não era possível com a amostragem limitada associada a estudos anteriores. O catálogo de mutações somáticas no câncer (COSMIC) representa o banco de dados mais abrangente sobre mutações em tumores humanos atualmente disponível (5).

O conjunto de dados COSMIC confirma que K-Ras é a isoforma mutada mais frequentemente presente em 22% de todos os tumores analisados ​​em comparação com 8% para N-Ras e 3% para H-Ras (Tabela 1). Esses valores de título indicam uma taxa de mutação composta frequentemente citada de 30%, no entanto, isso é distorcido pelo viés de triagem evidente no conjunto de dados, particularmente para K-Ras, onde o câncer colorretal domina os totais de dados. Quando todos os cânceres em que pelo menos 20 tumores foram contados recebem peso igual, a incidência média da mutação pan-Ras é de 16%.

Tabela 1

A maioria dos tipos de câncer favorece a mutação de uma única isoforma, normalmente K-Ras. + é o número de tumores observados com este Ras mutante, n é o número de amostras únicas rastreadas. Dados coletados da versão COSMIC v52.

HRASKRASNRASPan-Ras
Tecido primário+n%+n%+n%%
glândula adrenal1135& # x0003c1%1210& # x0003c1%71704%5%
gânglios autônomos0630%2633%71027%10%
trato biliar01510%460147131%32131%33%
osso31472%21651%01430%3%
seio5542& # x0003c1%205444%73302%7%
sistema nervoso central09420%81032& # x0003c1%8995& # x0003c1%2%
colo do útero232649%466377%21322%17%
endométrio32911%298210814%1279& # x0003c1%16%
hematopoiético / linfóide83074& # x0003c1%27757575%877854010%15%
rim1273& # x0003c1%4617& # x0003c1%2435& # x0003c1%1%
intestino grosso2617& # x0003c1%96712918333%2610563%36%
fígado02700%214505%83103%7%
pulmão91957& # x0003c1%25331463217%2626781%19%
esôfago21611%133594%01610%5%
ovário0940%406293414%51115%18%
pâncreas02210%3127516961%52482%63%
próstata295006%8210248%85302%15%
Glândula salivar2416115%51703%0450%18%
pele12019406%3814053%858474218%27%
intestino delgado050%6231620%050%20%
estômago143844%16325716%52152%12%
testículo51304%174324%82833%11%
timo1462%41862%0460%4%
tireoide11736013%13746283%31241268%14%
trato aerodigestivo superior10110839%5215353%248073%16%
trato urinário138124211%295915%93982%18%
Total606182943%174787818922%2208271008%16%

Com exceção da glândula salivar, a triagem já foi focada nos locais e isoformas com o acoplamento mais forte. Notavelmente, no entanto, a taxa de mutação do pâncreas é de 60%, em vez dos 90% geralmente citados. Na maioria dos casos, uma isoforma domina o número de mutações marcadas para um determinado câncer. A tireóide, no entanto, é uma exceção onde um grande número de mutantes de todas as três isoformas foi contado. Embora essas observações confirmem tendências conhecidas, a comparação das mutações de códons entre as isoformas Ras revela alguns padrões mais profundos intrigantes.

Especificidade de códon de mutações da isoforma Ras

Análogo ao viés da isoforma que podemos ver em cânceres específicos, a análise das frequências de mutação do códon revela que cada isoforma tem uma assinatura de mutação do códon distinta (Figura 2). K-Ras e N-Ras representam dois extremos desse fenômeno. 80% das mutações K-Ras ocorrem no códon 12, enquanto muito poucas mutações são observadas no códon 61. Em contraste, quase 60% dos tumores N-Ras abrigam mutações no códon 61 versus 35% no códon 12. H-Ras exibe um intermediário comportamento com uma divisão aproximada de 50%: 40% entre mutações nos códons 12 e 61, respectivamente. Esses dados representam médias de porcentagens para cada câncer em que pelo menos 20 tumores foram pontuados. É importante ressaltar que um exame mais detalhado das tendências em diferentes cânceres confirma a individualidade de cada isoforma, mesmo em circunstâncias em que, presumivelmente, as isoformas terão sido expostas a fatores mutagênicos comuns (Figura 2B).

A. K-Ras é tipicamente mutado no códon 12 enquanto N-Ras favorece o códon 61. H-Ras exibe um comportamento intermediário. Os dados são médias de porcentagens coletadas de todos os cânceres com pelo menos 20 tumores avaliados. B. A análise de tipos de câncer individuais revela padrões específicos de isoforma de mutação de códon, mesmo dentro do mesmo tecido. Cores do gráfico de pizza - preto: códon 12 cinza: códon 13 branco: códon 61.

Essas diferenças na especificidade do códon são surpreendentes porque todas as três mutações oncogênicas estão em regiões de aminoácidos que são idênticas entre as três isoformas e presumivelmente geram efeitos equivalentes na atividade da proteína. Notavelmente, mesmo no nível do DNA, K-Ras e N-Ras compartilham sequências idênticas que codificam Gly12 e Gln61. Além disso, as substituições individuais de uma única base resultam na mesma substituição de aminoácidos para todas as isoformas. Apesar disso, o exame das substituições de base única preferidas coletadas de todos os tumores com mutação Ras no banco de dados COSMIC revela o nível final de diferença entre as isoformas (Tabela 2).

Mesa 2

Os dados que representam o número total de tumores com cada mutação pontual são coletados da versão COSMIC v52. São indicadas mutações de base única que geram cada substituição de aminoácido. As mutações mais frequentes para cada isoforma para cada tipo de câncer são destacadas em sombreado cinza. H / L: tecidos hematopoiéticos / linfóides.

HRAS códon 12: GGCcódon 13: GGTcódon 61: CAG
-C-T---UMA-C--UMA---T--C-T---UMA-C--UMA---T-G----C / TUMA---T--C--G-
Tecido primárioCâncer12A12C12D12R12S12V13A13C13D13R13S13V61E61H61K61L61P61RTotal
próstataadenocarcinoma000011000300030180329
Glândula salivaradenocarcinoma00141800030000000623
pelenevo melanocítico benigno0001000001000112001135
carcinoma022002400100003030035
melanoma maligno00000200100001230211
estômagoadenocarcinoma000001400000000000014
tireoideadenoma-nódulo-bócio0000019000000014011641
carcinoma22212190236000210112376
trato urináriocarcinoma de bexiga0490690030203006609138
aerodigestivo superiorboca0532241401341403030976
Total2131783419106819170142354279478
KRAS códon 12: GGT códon 13: GGC códon 61: CAA
-C- T-- -UMA- C-- UMA-- -T- -C- T-- -UMA- C-- UMA-- -T- G-- --C / T UMA-- -T- -C- -G-
Tecido primário Câncer 12A 12C 12D 12R 12S 12V 13A 13C 13D 13R 13S 13V 61E 61H 61K 61L 61P 61R Total
trato biliarcarcinoma do ducto biliar1429107630490512010020000255
vesícula biliarcarcinoma05609121000110000000098
cólon colorretaladenocarcinoma107184635181333640103386330514011812
adenocarcinoma retal37451784331240688403050302532
endométriocarcinoma3926121312682426011030000306
H / Lneoplasia hematopoiética8438210120025000041200106
neoplasia linfóide19743410100048010030030148
pulmãoadenocarcinoma10654522227592791433111101115021335
bronquíolo-alveolaradenocarcinoma642383433020000000000128
carcinoma de células não pequenas34283113143011202320111164115650
carcinoma de células escamosas32526561000101030101284
ováriocarcinoma25201711231504417003010000410
pâncreascarcinoma ductal577913123126781201130200600002661
PanIN0310101200000000000026
metaplasia acinar-ductal00600700000000000013
adenoma63441311600100100000085
pancreatite autoimune001000000000000000010
tumor limítrofe021120600100000000022
pancreatite crônica0642852100000000000082
displasia-neoplasia in situ10241641700100003000066
hiperplasia07321841601000003000081
próstataadenocarcinoma09131235001506000200184
pelecarcinoma02101500000001010011
melanoma maligno00321800100001030120
intestino delgadoadenocarcinoma4825041000200101000055
estômagoadenocarcinoma20863182203200111001102161
tireoidecarcinoma51835415811222100001034129
trato urináriocarcinoma de bexiga44424300310011000027
aerodigestivo superiorboca13316000001000000116
Total496136733904884642219810368616391555612208219413
NRAS códon 12: GGT códon 13: GGT códon 61: CAA
-C- T-- -UMA- C-- UMA-- -T- -C- T-- -UMA- C-- UMA-- -T- G-- --C / T UMA-- -T- -C- -G-
Tecido primário Câncer 12A 12C 12D 12R 12S 12V 13A 13C 13D 13R 13S 13V 61E 61H 61K 61L 61P 61R Total
H / Lneoplasia hematopoiética223218585631121493293292282420629623
neoplasia linfóide7116001711145471612137201127296
pelenevo melanocítico benigno0240000001100055103599
carcinoma00500000100103000010
melanoma maligno2228582101412016124273642301755
tireoideadenoma-nódulo-bócio0100020100001112104463
carcinoma072000111000053290182240
aerodigestivo superiorlaringe000020000000000000020
Total31552841310146152016349552582433115196182106

Os códons 12, 13 e 61 de Ras podem ser convertidos cada um em seis outros aminoácidos por meio de substituições de base única. Apesar disso, & # x0003e60% das mutações totais para cada isoforma são contabilizadas por apenas três das 18 mutações potenciais entre os códons (Tabela 2). Os padrões de mutação K-Ras são dominados pelos 43% que são transições G & # x02192A na segunda base dos códons 12 ou 13, resultando em mutações G12D ou G13D. As transversões de G & # x02192T na segunda base constituem a maior parte do restante para produzir G12V, embora exista um caso especial em câncer de pulmão em que predomina a transversão de G & # x02192T da primeira base do códon 12 para produzir G12C. N-Ras favorece tipos semelhantes de mutações nos códons 12 e 13, embora em taxas muito mais baixas do que K-Ras. Em contraste, H-Ras favorece G12V em todos os cânceres com mutações no códon 12 e mais geralmente exibe uma proporção 3 vezes maior de mutações de transversão para transição em comparação com K-Ras e N-Ras. Mutações no códon 61 recapitulam a heterogeneidade evidente entre as isoformas no códon 12.

Estes dados revelam que as isoformas de Ras exibem acoplamento diferencial e preferencial a cânceres, códons e substituições específicos que geram mutações oncogênicas. Os padrões de mutação distintos exibidos pelas isoformas Ras levantam questões fundamentais sobre sua etiologia. Por exemplo, os padrões de mutação refletem diferenças genéticas ou epigenéticas entre as isoformas Ras que podem levar ao direcionamento diferencial de mutagênicos ou processos de reparo? Além disso, como isso é influenciado pelos efeitos do nível de proteína, como abundância relativa da isoforma Ras em tecidos, células e compartimentos subcelulares ou possivelmente diferenças específicas das isoformas nos efeitos de mutações individuais na atividade que se combinam para modular a saída de sinalização e, portanto, oncogenicidade relativa?

Etiologia da mutação Ras

Muitos agentes genotóxicos têm sido implicados em causar mutações Ras. Foram identificados motivos de sequência que se correlacionam com mutagênese altamente reprodutível. Por exemplo, estudos clássicos de carcinogênese química mostraram que a metilnitrosoureia (MNU) tem como alvo a segunda base do códon 12 de H-Ras e K-Ras em uma variedade de tipos de câncer para gerar mutações G12D (6, 7). Em contraste, a radiação UV tem como alvo dímeros de pirimidina, resultando em uma alta tendência para gerar mutações Ras Q61 (8). As tendências gerais no conjunto de dados indicam dano induzido por aduto predominantemente volumoso para mutações K-Ras no códon 12 e dano induzido por radiação UV ou química para mutações Q61 em N-Ras.

É claro que parte da heterogeneidade mutacional observada é devida à exposição específica do tecido a diferentes coquetéis de mutagênicos. Este é particularmente o caso ao comparar os padrões de mutação em uma única isoforma. Por exemplo, o câncer de pulmão mostra um acoplamento altamente distinto às mutações G12C (Tabela 2). As transversões G.C & # x02192T.A que geram a mutação G12C foram associadas em em vitro estudos com formação de aduto de DNA volumoso por produtos da fumaça do tabaco (9). Essa mutação específica é mais comum em fumantes atuais, com incidência diminuindo progressivamente até zero em ex-fumantes e nunca fumantes (10). Embora o G12C pareça ser uma mutação diagnóstica da exposição aos mutagênicos da fumaça do tabaco, é muito menos abundante nos cânceres pancreáticos e colorretais que também estão fortemente ligados ao tabagismo, indicando diferenças específicas do tecido na exposição a mutagênicos individuais do tabaco (11-13).

Outros exemplos de potencial exposição a mutagênicos específicos de tecido são câncer colorretal (CRC) e cânceres hematopoiéticos / linfoides onde K-Ras e N-Ras exibem preponderâncias anormalmente altas de mutações no códon 13. Curiosamente, em CRC avançado, as mutações G13D têm significado prognóstico com terapia baseada em cetuximabe anti-receptor de EGF (14). Este medicamento não é administrado a pacientes com mutações K-Ras porque aqueles com mutações G12 não respondem. No entanto, os pacientes com tumores com mutação G13 mostraram melhorias significativas na sobrevida, indicando a importância de discriminar entre os tipos de mutação do códon Ras na concepção de ensaios clínicos e programas de tratamento.

Influências genéticas e epigenéticas

Parte do viés mutacional implica exposição diferencial a mutagênicos. Embora isso possa ser responsável por mutações distintas de K-Ras encontradas em diferentes tipos de câncer, não explica por que há uma diferença entre as isoformas dentro do mesmo câncer. O melhor exemplo disso é o carcinoma da tireóide, onde um número significativo de mutações de todas as isoformas foi identificado. Esse tipo de câncer tem sido particularmente associado à exposição à radiação ionizante, bem como a vários carcinógenos químicos (15). A comparação dos padrões de mutação entre as isoformas Ras revela um viés claro com 95% das mutações N-Ras ocorrendo no códon 61, enquanto 66% das mutações K-Ras ocorrem no códon 12. Análogo às tendências de título vistas em todos os cânceres, o H-Ras tem um perfil intermediário com uma divisão de 40%: 50% entre o códon 12 e o códon 61, respectivamente. Dentro dos códons, os padrões de mutação também são distintos, por exemplo, no códon 12 K-Ras é predominantemente G12D mutado, enquanto H-Ras favorece G12V.

Até o momento, tem havido pouca análise experimental das razões potenciais para essas diferenças. Podemos, no entanto, usar os dados empíricos disponíveis e tirar algumas inferências de um maior número de estudos realizados com o gene TP53. Podemos então especular que a heterogeneidade pode ser devida a variáveis ​​como a sequência primária do DNA, efeitos estruturais quaternários secundários e a posição dos genes Ras dentro do genoma e do núcleo.Juntos, esses efeitos podem melhorar ou limitar o acesso de diferentes agentes mutagênicos ou enzimas de reparo.

É importante ressaltar que as diferenças específicas da isoforma Ras nas taxas de dano e reparo do DNA foram identificadas. Tang e colegas mediram a formação de aduto e o subsequente reparo das isoformas Ras após a exposição a vários carcinógenos volumosos, incluindo o epóxido de benzo [a] pireno diol (BPDE) (16). Eles mostraram que o códon 12 era o local de ligação preferido para BPDE em K-Ras, mas que os níveis de aduto foram reduzidos neste local em N-Ras e H-Ras. Outros carcinógenos, incluindo N-acetoxi-2-acetilaminofluoreno (NAAAF), que possuem diferentes modos de ligação à guanina alvo, recapitulam esse padrão. Significativamente, enquanto o DNA genômico reteve este códon 12 de K-Ras, especificidade de direcionamento para adutos de DNA, os produtos de PCR das sequências alvo primárias não o fizeram (17). Isso reflete uma discrepância entre os locais de aduto de BPDE observáveis ​​em TP53 humano, que ocorrem em pontos de mutação comuns relacionados ao fumo no câncer de pulmão (18), e a distribuição de mutação induzida por BPDE do ensaio funcional de levedura p53 (19). O ensaio de levedura compreende uma construção de cDNA TP53 mais curta em vez de toda a sequência do gene, o que significa que a estrutura terciária do DNA que envolve os pontos críticos de mutação será diferente daquela do DNA genômico. Estas observações sugerem que o potencial de ligação de um carcinógeno a um nucleotídeo alvo em ambos K-Ras e TP53 não depende apenas do contexto da sequência local, mas também da sequência distal e maior organização ou modificação do DNA.

O contexto da sequência circundante em grande escala pode ser um determinante importante na formação do padrão de mutações do gene Ras. Enquanto a sequência de aminoácidos codificada por cada isoforma é quase idêntica em muitas espécies, a sequência de DNA tem uma variação considerável. A variação da sequência do exon 1 entre as isoformas pode levar à formação diferencial de estruturas secundárias, como loops em gancho durante a transcrição. Exemplos disso são vistos em pontos quentes de mutação TP53 comuns correlacionados com uma série de estruturas de haste-alça previstas que sugerem que as bases hipermutáveis ​​freqüentemente se encontram dentro do DNA de fita simples em estreita proximidade com as hastes (20). Na leucemia mieloide aguda (LMA), K-Ras e N-Ras apresentam uma distribuição semelhante de mutações G.C & # x02192A.T e G.C & # x02192T.A nos códons 12. No entanto, a análise do banco de dados COSMIC revela que o a taxa observável de mutações é quase seis vezes maior para N-Ras em comparação com K-Ras. O nível de expressão de N-Ras mostrou ser elevado em relação ao K-Ras na AML (21). Assumindo uma etiologia semelhante para essas mutações em qualquer isoforma, é possível que as estruturas secundárias formadas durante o aumento da transcrição levem à maior taxa de mutação observada para N-Ras em tumores de LMA. Além disso, a interação entre a especificidade do alvo de um mutagênico particular e a estrutura secundária local associada à transcrição poderia explicar os altos níveis de mutações no códon 12 em relação ao códon 61 em N-Ras, que raramente é visto em outros tumores. Surpreendentemente, uma análise direta de estruturas secundárias não foi realizada para os códons 12, 13 e 61 em qualquer isoforma Ras até o momento.

Diferenças na sequência de DNA entre as isoformas Ras também podem influenciar a eficiência de reparo de adutos carcinógenos. A evidência para isso vem de Tang e colegas de trabalho que descobriram que o reparo dos adutos do BPDE no códon 12 de K-Ras era mais lento e, portanto, ineficiente em comparação com H-Ras e N-Ras (16). Em TP53, foi descoberto que os adutos do BPDE nas principais posições do ponto de acesso de mutação também são regiões de reparo lento em relação a outros locais do aduto (22). Além disso, vários desses locais de aduto BPDE estão associados a baixa curvatura do DNA, que é dependente da sequência (23). Assim, as diferenças de contexto de sequência local e mais distal em isoformas Ras podem resultar em diferenças na estrutura terciária que influenciam significativamente as eficiências de reparo.

Os dados coletivos fornecem evidências de que o aumento do direcionamento do aduto e o reparo relativamente pobre tornam o códon 12 de K-Ras muito mais provável de acabar mutado e fornece uma explicação plausível para as taxas de mutação de K-Ras mais altas observadas em cânceres. As razões propostas para essas diferenças de direcionamento e reparo permanecem especulativas. No entanto, é claro que os três genes Ras representam um excelente sistema de modelo comparativo para investigação futura dos mecanismos genéticos ou epigenéticos subjacentes que levam a espectros mutacionais e pontos críticos.


Revisão da literatura sobre algoritmos

Uma revisão da literatura foi realizada para classificar os recursos usados ​​por cada um dos 33 algoritmos. Nós agrupamos seus recursos originais em seis categorias principais. Recursos como frequência de mudança de base, composição de base e anotação de gene foram considerados como "contexto de sequência". Recursos relacionados a proteínas, como conformações secundárias e 3D e propriedades bioquímicas, foram rotulados como "recurso de proteína". A homologia de sequência ou conservação evolutiva foi agrupada em "conservação". Recursos derivados de anotações regulatórias e dados de epigenômica foram agrupados em "informações epigenômicas". Algoritmos que usaram pontuações de preditores funcionais existentes foram atribuídos a "pontuação de conjunto". Por último, se um algoritmo foi treinado usando conjuntos de dados específicos do câncer ou foi projetado para identificar os causadores do câncer, consideramos isso "específico do câncer".

Análise de inter-correlação entre algoritmos

Para medir inter-correlações entre algoritmos, obtivemos pontuações de predição para

710.000 mutações somáticas processadas e compiladas pelo grupo de trabalho TCGA MC3 e grupo de trabalho do driver [12, 35]. A lista de mutações foi baixada em https://gdc.cancer.gov/about-data/publications/pancan-driver. As pontuações de predição da maioria dos algoritmos foram extraídas de dbNSFP V4.0 [15] que incluiu FATHMM-MKL [16], FATHMM-XF [44], MutationAssessor [23], Polyphen2-HDIV [27], Polyphen2_HVAR [27], VEST4 [ 34], CADD [6], DANN [10], Eigen [32], Eigen-PC [32], Integrated_fitCons [18], GenoCanyon [17], DEOGEN2 [11], M-CAP [20], MetaLR [36 ], MetaSVM [36], MPC [22], MutPred [25], MVP [26], PrimateAI [28], REVEL [30], doença FATHMM [13], SIFT [21], SIFT4G [31], LRT [19], MutationTaster2 [24] e PROVEAN [29]. As pontuações do CHASM [8] foram recuperadas do servidor da web CRAVAT (v5.2.4) [45]. As pontuações de CanDrA [7] foram obtidas em http://bioinformatics.mdanderson.org/main/CanDrA, usando as pontuações de “câncer em geral” com a versão plus. As pontuações TransFIC [33] foram obtidas em http://bbglab.irbbarcelona.org/transfic/home. As pontuações do FATHMM-cancer [14] foram obtidas em http://fathmm.biocompute.org.uk/cancer.html. Os escores de câncer de CTAT e os escores de população de CTAT foram calculados por meio da análise de componentes principais em R, conforme descrito no artigo original [12]. A doença FATHMM e o câncer FATHMM estavam usando o mesmo modelo, mas foram treinados em conjuntos de dados diferentes. A doença FATHMM é para mutações de doenças hereditárias, enquanto o câncer FATHMM é para mutações de câncer. Em seguida, convertemos as pontuações se uma pontuação original mais baixa fosse mais prejudicial / funcional e, em seguida, calculamos as correlações de Spearman entre os algoritmos usando a função R “cor”. Os valores ausentes foram omitidos. O agrupamento hierárquico foi usado para agrupar algoritmos e visualizar sua relatividade.

Ensaios de viabilidade celular in vitro

Para realizar uma avaliação mais objetiva, selecionamos

200 mutações para realizar ensaios de viabilidade celular, como relatamos recentemente [42]. Duas linhas celulares dependentes do fator de crescimento, Ba / F3 e MCF10A, foram usadas. Na ausência de fatores de crescimento, as mutações condutoras conferirão vantagens de sobrevivência e proliferação às células, enquanto as células com não condutoras terão taxas de sobrevivência e proliferação reduzidas. Em cada triagem, cinco controles experimentais (2 negativos e 3 positivos) e clones de tipo selvagem correspondentes foram incluídos para medir a viabilidade celular. Chamadas funcionais, incluindo ativação, inativação, inibição, não inibição e neutra, foram determinadas por comparação com o tipo selvagem.

Construção de conjuntos de benchmark

Comparativo de cluster 3D

Quatro algoritmos, HotMAPS, HotSpot3D, 3DHotSpots.org e e-Driver3D, foram usados ​​para identificar hotspots estruturais 3D [12]. Para cada mutação, definimos o número dos quatro algoritmos que detectaram a mutação em um ponto de acesso de estrutura 3D como "pontuação de consenso". Se uma mutação estava localizada dentro das regiões codificantes de um gene de câncer CGC conhecido e tinha uma pontuação de consenso ≥ 2, consideramos como um caso positivo. Se uma mutação estava em um gene não canceroso e tinha uma pontuação de consenso de 0, considerávamos como um caso negativo. Como havia muito mais negativos do que positivos, selecionamos aleatoriamente um subconjunto de negativos para corresponder ao número de casos positivos para construir o conjunto de referência final. Geramos outro conjunto de casos negativos selecionando aleatoriamente o mesmo número de mutações CGC com uma pontuação de consenso de 0. Os resultados com base nos dois conjuntos negativos diferentes foram altamente consistentes.

Referência de anotação OncoKB

As anotações OncoKB foram baixadas de OncoKB (https://www.oncokb.org). Esta versão continha 816 mutações oncogênicas, 1384 prováveis ​​mutações oncogênicas e 421 prováveis ​​mutações neutras. Excluímos 271 mutações anotadas como inconclusivas deste estudo. Consideramos "provavelmente neutro" como caso negativo, usamos mutações "oncogênicas" apenas como o primeiro conjunto positivo e usamos mutações "oncogênicas" e "provavelmente oncogênicas" como o segundo conjunto positivo. Encontramos pontuações AUC altamente correlacionadas em ambos os conjuntos de casos positivos.

Referência de mutação TP53

Mutações somáticas missense foram recuperadas do banco de dados IARC TP53. Incluímos 1421 mutações com alterações genômicas bem documentadas de nucleotídeos e alterações de aminoácidos para análises. Obtivemos a atividade transcricional específica do promotor medida em ensaios funcionais de levedura do banco de dados IARC. No total, 679 mutações com um nível de transativação mediano ≤ 50% foram usadas como casos positivos, e 742 outras mutações foram usadas como casos negativos.

Referência de ensaio de transformação tumoral in vivo

Obtivemos 71 mutações somáticas, juntamente com suas anotações de oncogenicidade no estudo de Kim et al. [41]. Na análise, 45 mutações que foram capazes de formar um tumor maior que 500 mm 3 in vivo por 130 dias foram rotuladas como "funcionais" e, portanto, usadas como casos positivos e 26 outras mutações foram usadas como casos negativos.

Referência de ensaio de viabilidade celular in vitro

Usamos os dados de viabilidade celular de 797 mutações missense de nosso estudo recente, bem como os dados funcionais recém-gerados de 164 mutações. Mutações sem efeitos foram consideradas casos negativos. Mutações anotadas como ativadoras, inativadoras, inibitórias ou não inibitórias foram consideradas casos positivos. Obtivemos uma chamada funcional de consenso integrando os dados de viabilidade das células Ba / F3 e MCF10A sob uma lógica de “porta OR”. Mais especificamente, quaisquer mutações não neurais pelo modelo Ba / F3 ou MCF10A seriam anotadas como não neutras na chamada de consenso, enquanto mutações anotadas como neutras por ambos os modelos Ba / F3 e MCF10A seriam anotadas como neutras em a chamada de consenso. Nós construímos 3 conjuntos de benchmarks a partir das mutações publicadas, mutações recém-geradas e as mutações combinadas das duas. Para a avaliação final dos 33 algoritmos, focamos no conjunto combinado.

Construção da curva ROC e cálculo da pontuação AUC

Para cada conjunto de benchmark, as curvas ROC foram construídas usando a função R roc fornecida no pacote pROC.

Cálculo de cinco métricas de avaliação com base em previsões categóricas

Para a primeira análise de benchmark, selecionamos aleatoriamente 1000 positivos e 1000 negativos. Para cada um dos 33 algoritmos, usamos a pontuação mediana como ponto de corte para fazer previsões binárias. Comparamos as previsões binárias com a verdade do “padrão ouro” para calcular a sensibilidade, especificidade, precisão, PPV e NPV usando a função reportROC no pacote reportROC [46]. O processo foi repetido 100 vezes para calcular os desvios padrão para cada valor métrico. Calculamos o mesmo conjunto de métricas para os outros quatro benchmarks seguindo os mesmos procedimentos. Usamos 400, 500, 20 e 400 positivos (e também negativos), respectivamente. Dos 33 algoritmos incluídos neste estudo, 17 têm previsões categóricas ou valores de corte de pontuação explícitos em suas publicações originais (arquivo adicional 1). Comparamos as previsões categóricas com a anotação de “padrão ouro” das mutações, conforme descrito acima. Calculamos as cinco métricas usando a função reportROC e os desvios padrão estimados para cada valor de métrica a partir de uma amostragem aleatória de 100 vezes, para cada conjunto de dados de referência. Para a terceira análise de benchmark, CanDrA e doença FATHMM foram excluídos porque previram drivers para todas as mutações T53.


Métodos

Algoritmo de genotipagem SV

A entrada para o algoritmo de genotipagem SV é um gráfico de variação indexado no formato xg junto com um alinhamento de leitura (amostra única) no formato GAM. Se o gráfico foi construído a partir de um VCF, como foi o caso dos gráficos do genoma humano discutidos neste artigo, esse VCF também pode ser inserido para o chamador. A primeira etapa é calcular um índice de cobertura compactado do alinhamento usando este comando, vg pack & ltgraph.xg & gt & ltalignment.gam & gt -Q 5 -o graph.pack. Este índice armazena o número de leituras com qualidade de mapeamento de pelo menos 5 mapeadas para cada borda e cada base de cada nó no gráfico. O cálculo da cobertura pode ser feito em uma única varredura através das leituras e, na prática, tende a ser uma ordem de magnitude mais rápido do que classificar as leituras.

Os gráficos de variação, representados em vg, são bidirecionados. Em um gráfico bidirecional, cada nó pode ser considerado como tendo dois lados. Veja, por exemplo, os lados esquerdo e direito de cada retângulo na Fig. 1a. Se x é o lado de um determinado nó UMA, então usamos a notação x ’ para denotar o outro lado de UMA. Um rosnado é definido por um par de lados, x e y, que satisfaçam os seguintes critérios:

Removendo todas as bordas incidentes a x ’ e y ’ desconecta o gráfico, criando um componente conectado X Isso contém x e y.

Não tem lado z no X de tal modo que satisfaz os critérios acima. Da mesma forma para y.

Snarls podem ser calculados em tempo linear usando uma decomposição de gráfico de cacto [24]. Eles podem ser calculados uma vez para um determinado gráfico usando vg snarls ou em tempo real com vg call.

Uma vez que os snarls foram identificados, o algoritmo de genotipagem SV procede da seguinte forma. Para cada emaranhado no gráfico para o qual ambos os nós finais estão em um caminho de referência (como um cromossomo) e que não está contido em outro emaranhado, as seguintes etapas são executadas.

Todas as variantes de VCF, v1, v2, ..., vk que estão contidos no snarl são pesquisados ​​usando informações incorporadas durante a construção do gráfico. Deixar | vi | seja o número de alelos no euvariante VCF. Então há | v1 |x| v2 |… X| vk | possíveis haplótipos através do rosnado. Se esse número for muito alto (& gt 500.000), os alelos com suporte médio inferior a 1 serão filtrados.

Para cada haplótipo possível, um caminho bidrected correspondente através do emaranhado (de x para y) é calculado.

Para cada caminho de haplótipo, seu suporte médio (sobre bases e bordas) é calculado usando o índice de cobertura compactado e os dois caminhos mais suportados são selecionados (os laços são quebrados arbitrariamente).

Se o caminho com mais suporte exceder o limite mínimo de suporte (padrão 1) e tiver mais de B (padrão 6) vezes o suporte do próximo caminho mais compatível, o site é chamado de homozigoto para o alelo associado ao caminho mais compatível.

Caso contrário, se o segundo caminho com mais suporte exceder o limite mínimo de suporte (padrão 1), o site será considerado heterozigoto com um alelo de cada um dos dois caminhos principais.

Dado o genótipo calculado acima, é trivial mapear de volta os caminhos escolhidos para os alelos VCF a fim de produzir a saída final.

O comando para fazer o acima é vg call & ltgraph.xg & gt -k & ltgraph.pack & gt -v variantes.vcf.gz. Se o gráfico não foi construído a partir de um VCF, então um algoritmo semelhante é usado, exceto os percursos são calculados heuristicamente pesquisando através do gráfico. Isso é habilitado ao não usar a opção -v no comando acima.

Labuta-vg

toil-vg é um conjunto de scripts Python para simplificar tarefas vg, como construção de gráfico, mapeamento de leitura e genotipagem SV. Grande parte da análise neste relatório foi feita usando toil-vg, com os comandos exatos disponíveis em github.com/vgteam/sv-genotyping-paper. O toil-vg usa o mecanismo de fluxo de trabalho Toil [36] para executar pipelines localmente, em clusters ou na nuvem de forma integrada. A indexação e o mapeamento de gráficos, em particular, são computacionalmente caros (embora haja um trabalho em andamento para resolver isso) e bem adequados para distribuição na nuvem. Os principais comandos toil-vg usados ​​são descritos abaixo.

Construir toil-vg

A construção de toil-vg automatiza a construção e indexação de gráficos seguindo as melhores práticas apresentadas pela comunidade vg. A construção do gráfico é paralelizada em diferentes sequências do FASTA de referência, e diferentes índices de genoma inteiro são criados lado a lado quando possível. O gráfico é automaticamente anotado com caminhos correspondentes aos diferentes alelos no VCF de entrada. Os índices criados são os seguintes:

Índice xg: Esta é uma versão compactada do gráfico que permite pesquisas rápidas de nós, bordas e caminhos

índice gcsa2: este é um índice de substring usado apenas para mapeamento de leitura

índice gbwt: Este é um índice de todos os haplótipos no VCF conforme implícito nas informações de faseamento. Quando disponível, é usado para ajudar a garantir que as informações do haplótipo sejam preservadas ao construir o índice gcsa2

índice de snarls: os snarls representam locais de variação no gráfico e são usados ​​para genotipagem e chamada de variantes.

Mapa de toil-vg

O mapa de toil-vg divide as leituras de entrada em lotes, mapeia cada lote em paralelo e, em seguida, mescla o resultado.

Chamada de labuta-vg

toil-vg call divide o gráfico de entrada por cromossomo e chama cada um individualmente. A chamada vg foi atualizada recentemente para que essa subdivisão seja amplamente desnecessária: o gráfico inteiro pode ser facilmente chamado de uma vez. Ainda assim, o toil-vg pode ser usado para alocar essa tarefa em um único nó da nuvem, se desejado.

Labuta-vg sveval

toil-vg sveval avalia as chamadas SV relativas a um conjunto verdade. A correspondência de chamadas SV não é trivial porque dois conjuntos de chamadas SV geralmente diferem ligeiramente em torno dos pontos de interrupção. Mesmo para um experimento de genotipagem, os mesmos SVs de entrada podem ter representações equivalentes, mas diferentes. Além disso, os catálogos de SV geralmente contêm SVs muito semelhantes que podem ser duplicatas da mesma variante verdadeira. Para garantir que os SVs sejam correspondidos corretamente ao comparar os SVs genotipados e o conjunto verdade, usamos uma abordagem que sobrepõe as variantes e alinha as sequências alélicas, se necessário. Ele foi implementado no pacote sveval R (https://github.com/jmonlong/sveval). Arquivo adicional 1: A Figura S17 mostra uma visão geral da abordagem de avaliação de VS, descrita abaixo.Digno de nota, as variantes são primeiro normalizadas com a norma bcftools (1.9) para garantir uma representação consistente entre as variantes chamadas e as variantes da linha de base [37].

Para exclusões e inversões, começamos calculando as sobreposições entre os SVs no conjunto de chamadas e o conjunto verdade. Para cada variante, calculamos a proporção de sua região que é coberta por uma variante no outro conjunto, considerando apenas as variantes sobrepostas com pelo menos 10% de sobreposição recíproca. Se esta proporção de cobertura for superior a 50%, consideramos a variante abordado. Os verdadeiros positivos (TPs) são variantes cobertas do conjunto de chamadas (ao calcular a precisão) ou do conjunto verdade (ao calcular a rechamada). Variantes do conjunto de chamadas são consideradas falsos positivos (FPs) se não forem cobertas pelo conjunto verdade. Por outro lado, as variantes do conjunto verdade são consideradas falsos negativos (FNs) se não forem cobertas pelo conjunto de chamadas.

Para inserções, selecionamos pares de inserções que estão localizados a não mais de 20 bp uma da outra. Em seguida, alinhamos as sequências inseridas usando um alinhamento Smith-Waterman. Para cada inserção, calculamos a proporção de sua sequência inserida que alinha uma variante correspondente no outro conjunto. Se essa proporção for de pelo menos 50%, as inserções são consideradas cobertas. Os relacionamentos de cobertura são usados ​​para definir TPs, FPs e FNs da mesma maneira que para exclusões e inversões.

Os resultados mostrados neste estudo usaram um mínimo de 50% de cobertura para corresponder às variantes, mas também replicamos os resultados usando 90% de cobertura mínima e observamos resultados semelhantes (consulte o arquivo adicional 1: Figura S18).

As estatísticas de cobertura são calculadas usando qualquer variante maior que 1 bp, mas um tamanho mínimo é necessário para que uma variante seja contada como TP, FP ou FN. Neste trabalho, usamos o tamanho mínimo padrão de SV de 50 bp.

sveval aceita arquivos VCF com representação simbólica ou explícita dos SVs. Se a representação explícita for usada, as variantes multialélicas são divididas e suas sequências aparadas à direita. Ao usar a representação explícita e quando as sequências REF e ALT são maiores que 10 bp, o complemento reverso da sequência ALT é alinhado à sequência REF para identificar potenciais inversões. Se mais de 80% da sequência estiver alinhada, é classificado como uma inversão.

Avaliamos a capacidade de prever a presença de uma VS e o genótipo completo. Para o presença avaliação, ambos heterozigotos e homozigotos SVs alternativos são comparados em conjunto usando a abordagem descrita acima. Para calcular métricas em nível de genótipo, os SVs heterozigotos e homozigotos são comparados separadamente. Antes de dividir as variantes por genótipo, pares de variantes heterozigotas com sobreposição recíproca de pelo menos 80% são fundidos em uma variante ALT homozigótica. Para lidar com variantes fragmentadas, variantes heterozigotas consecutivas localizadas a menos de 20 bp umas das outras são primeiro fundidas em variantes heterozigotas maiores.

As curvas de recall de precisão são produzidas filtrando sucessivamente as variantes de baixa qualidade. Por padrão, o QUAL O campo no arquivo VCF é usado como informação de qualidade. Se QUAL está faltando (ou contém apenas 0 s), a qualidade do genótipo no GQ campo é usado.

A avaliação é realizada usando todas as variantes ou apenas variantes em regiões de alta confiança. Na maioria das análises, as regiões de alta confiança são construídas excluindo duplicações segmentais e repetições em tandem (usando as respectivas trilhas do navegador do genoma UCSC). Para a análise do GIAB, usamos as regiões de alta confiança Tier 1 fornecidas pelo consórcio GIAB na versão 0.6.

A sequência inserida / excluída também foi anotada usando RepeatMasker [38]. Os SVs eram separados por família de repetição se o elemento de repetição anotado cobrisse mais de 80% da sequência. Recalculamos a precisão e o recall nas famílias de repetição mais frequentes.

O número médio de variantes genotipadas por variante no conjunto verdade (Arquivo adicional 1: Figura S5) foi calculado dividindo o número de TPs da chamada definida pelo número de TPs do conjunto verdade, ou seja, a proporção de variantes correspondentes entre os dois conjuntos variantes.

Outros genotipadores SV

BayesTyper (v1.5 beta 62888d6)

Onde não for especificado de outra forma, o BayesTyper foi executado da seguinte maneira. Leituras brutas foram mapeadas para o genoma de referência usando bwa mem [26] (0.7.17). GATK haplotypecaller [39] (3.8) e Platypus [40] (0.8.1.1) com assembly habilitado foram executados nas leituras mapeadas para chamar SNVs e indels curtos (& lt 50 bp) necessários ao BayesTyper para a genotipagem correta. Os VCFs com essas variantes foram então normalizados usando bcftools norm (1.9) e combinados com os SVs em amostras usando bayesTyperTools para produzir o conjunto candidato de entrada. k-mers nas leituras brutas foram contados usando kmc [41] (3.1.1) com um tamanho k-mer de 55. Um filtro Bloom foi construído a partir desses k-mers usando bayesTyperTools makeBloom. Finalmente, as variantes foram agrupadas e genotipadas usando o cluster bayestyper e o genótipo bayestyper, respectivamente, com parâmetros padrão exceto --min-genotype-posterior 0. Variantes não PASS e não SVs (origem GATK e Platypus) foram filtradas antes da avaliação usando bcftools filter e filterAlleleCallsetOrigin, respectivamente.

Delly (v0.7.9)

O comando delly call foi executado nas leituras mapeadas por bwa mem [26], o arquivo FASTA do genoma de referência e o VCF contendo os SVs para o genótipo (convertido para suas representações explícitas).

SVTyper (v0.7.0)

O VCF contendo exclusões foi convertido para representação simbólica e passado para svtyper com as leituras mapeadas por bwa mem [26]. O VCF de saída foi convertido de volta para representação explícita usando bayesTyperTools convertAllele para facilitar a normalização de variantes antes da avaliação.

Parágrafo (v2.3)

O parágrafo foi executado usando parâmetros padrão usando o script multigrmpy.py, tomando a entrada VCF e as leituras mapeadas por bwa mem [26] como entradas. Usamos as estimativas de genótipo no arquivo de saída genotypes.vcf.gz. Para que o parágrafo seja executado, adicionamos a sequência de preenchimento às variantes problemáticas nos VCFs de entrada dos catálogos GIAB e SVPOP.

SMRT-SV v2 Genotyper (v2.0.0, 21 de fevereiro de 2019, commit adb13f2)

SMRT-SV v2 Genotyper foi executado com o modelo “30x-4” e corte de profundidade mínima de 8 chamadas. Ele foi executado apenas em VCFs criados por SMRT-SV, para os quais os BAMs contig necessários estavam disponíveis. Os BAMs da Illumina usados ​​foram os mesmos que os outros métodos descritos acima. O VCF de saída foi convertido de volta para representação explícita para facilitar a normalização de variantes posteriormente.

Tempo de execução e uso de memória

Os tempos de execução e uso de memória para as diferentes ferramentas são mostrados no arquivo adicional 1: Tabela S7. o Tempo decorrido (relógio de parede) e a Tamanho máximo do conjunto residente foram extraídos da saída de / usr / bin / time -v. Mostramos os resultados da criação de perfil ao genotipar o catálogo HGSVC SV na amostra HG00514.

Experimento de simulação

Simulamos um genoma sintético com 1000 inserções, deleções e inversões. Separamos cada variante da próxima por um buffer de pelo menos 500 bp. Os tamanhos de exclusões e inserções seguiram a distribuição dos tamanhos de SV do catálogo HGSVC. Usamos a mesma distribuição de tamanho como exclusões para inversões. Um arquivo VCF foi produzido para três amostras simuladas com genótipos escolhidos uniformemente entre referência homozigótica, heterozigótica e alternativa homozigótica.

Criamos outro arquivo VCF contendo erros nas localizações dos pontos de interrupção do SV. Mudamos um ou ambos os pontos de interrupção de deleções e inversões por distâncias entre 1 e 10 bp. As localizações e sequências das inserções também foram modificadas, deslocando as variantes ou encurtando-as nos flancos, novamente em até 10 bp.

As leituras emparelhadas foram simuladas usando vg sim no gráfico que continha os verdadeiros SVs. Foram testadas diferentes profundidades de leitura: 1 ×, 3 ×, 7 ×, 10 ×, 13 ×, 20 ×. As qualidades básicas e os erros de sequenciamento foram treinados para se parecerem com as leituras Illumina reais do NA12878 fornecidas pelo Genome in a Bottle Consortium.

Os genótipos chamados em cada experimento (método de genotipagem / VCF com ou sem erros / profundidade de sequenciamento) foram comparados com os genótipos SV verdadeiros para calcular a precisão, recuperação e pontuação F1 (ver toil-vg sveval).

Ajuste fino de ponto de interrupção usando aumento de gráfico

vg pode chamar variantes após aumentar o gráfico com os alinhamentos de leitura para descobrir novas variantes (consulte a chamada de toil-vg). Testamos se essa abordagem poderia ajustar a localização do ponto de interrupção de SVs no gráfico. Começamos com o gráfico que continha SVs aproximados (erros de 1–10 bp na localização do ponto de interrupção) e leituras simuladas 20 × do experimento de simulação (consulte “Experimento de simulação”). As variantes chamadas após o aumento do gráfico foram comparadas com os verdadeiros SVs. Consideramos o ajuste fino correto se os pontos de interrupção correspondessem exatamente.

Análise HGSVC

Primeiro, obtivemos VCFs faseados para as três amostras do Consórcio de Variação Estrutural do Genoma Humano (HGSVC) de Chaisson et al. [22] e combinou-os com bcftools merge. Um gráfico de variação foi criado e indexado usando o VCF combinado e a referência HS38D1 com loci alt excluídos. A informação de faseamento foi usada para construir um índice GBWT [42], a partir do qual as duas sequências haplóides do HG00514 foram extraídas como um gráfico. Os pares de leitura Illumina com cobertura de 30 × foram simulados a partir dessas sequências usando vg sim, com um modelo de erro aprendido a partir de leituras reais da mesma amostra. Essas leituras simuladas refletem uma situação idealizada em que os pontos de interrupção dos SVs sendo genotipados são exatamente conhecidos a priori. As leituras foram mapeadas para o gráfico e os mapeamentos usados ​​para genotipar os SVs no gráfico. Finalmente, as chamadas SV foram comparadas aos genótipos HG00514 do VCF HGSVC. Repetimos o processo com as mesmas leituras na referência linear, usando bwa mem [26] para mapeamento e Delly Genotyper, SVTyper, Paragraph e BayesTyper para genotipagem de SV.

Baixamos as leituras emparelhadas Illumina HiSeq 2500 do site FTP ENA da EBI para as três amostras, usando Run Accessions ERR903030, ERR895347 e ERR894724 para HG00514, HG00733 e NA19240, respectivamente. Executamos o gráfico, o mapeamento linear e os pipelines de genotipagem exatamente como na simulação e agregamos os resultados da comparação nas três amostras. Usamos BayesTyper para genotipar conjuntamente as três amostras.

Análise GIAB

Obtivemos a versão 0.5 do Genome in a Bottle (GIAB) SV VCF para o filho Ashkenazim (HG002) e seus pais do site FTP do NCBI. Obtivemos leituras Illumina conforme descrito em Garrison et al. [15] e reduziu a resolução para uma cobertura de 50 ×. Usamos essas leituras como entrada para a chamada vg e os outros pipelines de genotipagem SV descritos acima (embora com GRCh37 em vez de GRCh38). Para BayesTyper, criamos a variante de entrada definida combinando os GIAB SVs com SNV e indels do mesmo estudo. Variantes com alelo de referência ou sem um determinado genótipo para HG002 no conjunto de chamadas GIAB (10.569 de 30.224) foram consideradas “falsos positivos” como uma medida proxy para precisão. Essas variantes correspondem a artefatos técnicos putativos e chamadas dos pais não presentes no HG002. Para a avaliação em regiões de alta confiança, usamos as regiões de alta confiança Tier 1 fornecidas pelo consórcio GIAB na versão 0.6.

Comparação SMRT-SV v2 (CHMPD e SVPOP)

O genotipador SMRT-SV v2 só pode ser usado para genotipar SVs com sequência resolvida presentes em contigs com pontos de interrupção de SV conhecidos, como aqueles criados por SMRT-SV v2 e, portanto, não pode ser executado nos conjuntos de chamadas simulados, HGSVC ou GIAB . Os autores compartilharam seu treinamento e conjunto de avaliação: uma amostra pseudodiplóide construída a partir da combinação das amostras haplóides CHM1 e CHM13 (CHMPD) e um controle negativo (NA19240). A alta qualidade dos conjuntos CHM torna este conjunto uma alternativa atraente para o uso de leituras simuladas. Usamos este VCF pseudodiplóide de duas amostras junto com o conjunto de leitura 30 × para construir, mapear e genotipar com vg, e também executamos o Genotipador SMRT-SV v2 com o modelo "30x-4" e corte de profundidade mínima 8, e comparou os dois com o VCF original.

Em um esforço para estender esta comparação dos dados de treinamento para uma configuração mais realista, reexaminamos as três amostras de HGSVC contra o SMRT-SV v2 discovery VCF (SVPOP, que contém 12 amostras adicionais além das três do HGSVC) publicadas pela Audano et al. [5] usando vg e SMRT-SV v2 Genotyper. A descoberta VCF não contém genótipos. Em conseqüência, não fomos capazes de distinguir entre genótipos heterozigotos e homozigotos e, em vez disso, consideramos apenas a presença ou ausência de um alelo não-referência para cada variante.

SMRT-SV v2 Genotyper produz explícito nenhuma chamada previsões quando a cobertura de leitura é muito baixa para produzir genótipos precisos. Essas chamadas não são consideradas referência homozigótica na avaliação de precisão principal. Também exploramos o desempenho do genotipador vg e SMRT-SV v2 em diferentes conjuntos de regiões (Arquivo adicional 1: Figura S12 e Arquivo adicional 1: Tabela S5):

Regiões não repetidas, ou seja, excluindo duplicações segmentais e repetições em tandem (usando as respectivas faixas do navegador do genoma UCSC).

Repita regiões definidas como duplicações segmentares e repetições tandem.

Regiões onde o genotipador SMRT-SV v2 pode chamar variantes.

Regiões onde SMRT-SV v2 Genotyper não produziu chamadas.

Análise de gráfico de levedura

Para a análise de gráficos de assemblies de novo, utilizamos assemblies derivados de PacBio disponíveis publicamente e conjuntos de dados de sequenciamento de leitura curta da Illumina para 12 cepas de levedura de dois clados relacionados (Arquivo adicional 1: Tabela 1) [28]. Construímos gráficos a partir de dois conjuntos de deformações diferentes: Para o conjunto de cinco cepas, selecionamos cinco tensões para a construção do gráfico (S.c. SK1, S.c. YPS128, S.p. CBS432, S.p. UFRJ50816 e S.c. S288C) Selecionamos aleatoriamente duas cepas de diferentes subclados de cada clado, bem como a cepa de referência S.c. S288C. Para o conjunto all-strain em contraste, utilizamos todas as 12 cepas para a construção do gráfico. Nós construímos dois tipos diferentes de gráficos de genoma a partir dos conjuntos derivados de PacBio das cinco ou 12 (dependendo do conjunto de cepas) cepas selecionadas. Nesta seção, descrevemos as etapas para a construção de ambos os gráficos e a genotipagem das variantes. Mais detalhes e os comandos precisos usados ​​em nossas análises podem ser encontrados em github.com/vgteam/sv-genotyping-paper.

Construção do Gráfico VCF

Construímos o primeiro gráfico (chamado de Gráfico VCF ao longo do artigo) adicionando variantes a uma referência linear. Este método requer um conjunto para servir como um genoma de referência. Os outros assemblies devem ser convertidos em chamadas de variantes relativas a esta referência. A montagem da PacBio do S.c. A cepa S288C foi escolhida como o genoma de referência porque esta cepa foi usada para o S. cerevisiae conjunto de referência do genoma. Para obter variantes para os outros assemblies, combinamos três métodos para detecção de SV de assemblies de genoma: Assemblytics [29] (commit df5361f), AsmVar (commit 5abd91a) [30] e paftools (versão 2.14-r883) [31]. Construímos um conjunto de união de SVs detectado pelos três métodos (usando ferramentas de cama [43]) e variantes combinadas com uma sobreposição recíproca de pelo menos 50% para evitar a duplicação no conjunto de união. Nós mesclamos esses conjuntos de união de variantes para cada uma das outras cepas (não de referência) no conjunto de cepas e, em seguida, aplicamos outra etapa de desduplicação para combinar as variantes com uma sobreposição recíproca de pelo menos 90%. Em seguida, usamos a construção vg para construir o Gráfico VCF com o conjunto total de variantes e o genoma de referência linear.

Construção do gráfico de cacto

O segundo gráfico (chamado de gráfico de cacto ao longo do artigo) foi construída a partir de um alinhamento do genoma inteiro entre os conjuntos. Primeiro, os conjuntos de PacBio mascarados com repetição das cepas no conjunto de cepas foram alinhados com nossa ferramenta Cactus [27]. Cactus requer uma árvore filogenética das linhagens que foi estimada usando Mash (versão 2.1) [44] e PHYLIP (versão 3.695) [45]. Posteriormente, convertemos o arquivo de saída do formato HAL em um gráfico de variação com hal2vg (https://github.com/ComparativeGenomicsToolkit/hal2vg).

Genotipagem de SVs

Antes da genotipagem, mapeamos as leituras curtas da Illumina de todas as 12 cepas de levedura para ambos os gráficos usando o mapa vg. Medimos as frações de leituras mapeadas com propriedades específicas usando vg view e o processador JSON jq. Em seguida, aplicamos a chamada de toil-vg (commit be8b6da) às variantes do genótipo, obtendo um conjunto de genótipos separado para cada uma das 11 cepas não de referência em ambos os gráficos e para cada um dos dois conjuntos de cepas (no total 11 × 2 × 2 = 44 conjuntos de genótipos). Dos conjuntos de genótipos, removemos variantes menores que 50 bp e variantes com genótipos de referência ausentes ou homozigotos. Para avaliar os conjuntos de genótipos filtrados, geramos um gráfico de amostra (ou seja, uma representação gráfica do conjunto de genótipos) para cada conjunto de genótipos usando construção vg e mod vg no conjunto de referência S.c. S288C e o conjunto de genótipos. Posteriormente, mapeamos leituras curtas das respectivas cepas para cada gráfico de amostra usando o mapa vg. Mapeamos as leituras curtas também para um gráfico de amostra vazio que foi gerado usando a construção vg como uma representação gráfica do genoma de referência linear. Em um esforço para restringir nossa análise às regiões SV, removemos as leituras mapeadas igualmente bem (ou seja, com qualidade de mapeamento idêntica e identidade percentual) para todos os três gráficos (os dois gráficos de amostra e o gráfico de amostra vazio) da análise. Essas leituras filtradas provavelmente derivam de porções dos genomas das cepas que são idênticas à cepa de referência S.c. S288C. Analisamos os alinhamentos restantes de leituras de regiões SV com visualização vg e jq.


Apresentamos a versão mais recente do software Molecular Evolutionary Genetics Analysis (M ega), que contém muitos métodos e ferramentas sofisticadas para filogenômica e filomedicina. Nesta grande atualização, o M ega foi otimizado para uso em sistemas de computação de 64 bits para análise de conjuntos de dados maiores. Os pesquisadores agora podem explorar e analisar dezenas de milhares de sequências no M ega. A nova versão também fornece um assistente avançado para construir tabelas de horários e inclui uma nova funcionalidade para prever automaticamente eventos de duplicação de genes em árvores genealógicas de genes. O M ega de 64 bits está disponível em duas interfaces: gráfica e linha de comando. A interface gráfica do usuário (GUI) é um aplicativo nativo do Microsoft Windows que também pode ser usado no Mac OS X. A linha de comando M ega está disponível como aplicativos nativos para Windows, Linux e Mac OS X. Eles são destinados ao uso em alta - throughput e análise com script. Ambas as versões estão disponíveis gratuitamente em www.megasoftware.net.

O software Molecular Evolutionary Genetics Analysis (M ega) está agora sendo aplicado a conjuntos de dados cada vez maiores (Kumar et al. 1994 Tamura et al. 2013). Este avanço tecnológico necessário do núcleo de computação e da interface do usuário do M ega. Os pesquisadores também precisam realizar análises de alto rendimento e com script no sistema operacional de sua escolha, o que requer que o M ega esteja disponível em implementação nativa de plataforma cruzada.Avançamos o pacote de software M ega para atender a essas necessidades dos pesquisadores que realizam análises comparativas de sequências de DNA e proteínas de conjuntos de dados cada vez maiores.

Atendendo à necessidade de analisar conjuntos de dados maiores

Os computadores pessoais e as estações de trabalho contemporâneos possuem muito mais poder de computação e memória de sistema do que nunca. Agora é comum ter muitos gigabytes de memória com uma arquitetura de 64 bits e um sistema operacional compatível. Para aproveitar esse poder nas análises evolutivas, avançamos no código-fonte do M ega para utilizar totalmente os recursos de computação de 64 bits e a memória no manuseio de dados, processamento de arquivos e análises evolutivas. As estruturas de dados internas da M ega foram atualizadas e o código-fonte refatorado foi testado extensivamente usando equipamentos de teste automatizados.

Comparamos o desempenho do M ega7 de 64 bits usando alinhamentos de sequência de RNA ribossômico 16S obtidos do projeto de banco de dados de rRNA SILVA (Quast et al. 2013 Yilmaz et al. 2014) com milhares de sites e número cada vez maior de sequências (até 10.000). A Figura 1 mostra que sua análise computacional requer grandes quantidades de memória e poder de computação. Para o método Neighbor-Joining (NJ) (Saitou e Nei 1987), o uso da memória aumentou em uma taxa polinomial conforme o número de sequências aumentava. O pico de uso da memória foi de 1,7 GB para o conjunto de dados completo de 10.000 sequências de rRNA (fig. 1 B). Para as análises de Máxima Verossimilhança (ML), o uso de memória aumentou linearmente e o pico de uso de memória foi de 18,6 GB (fig. 1 D). O tempo para completar o cálculo (fig. 1 A e C) mostrou uma tendência polinomial para NJ e uma tendência linear para ML. ML exigia uma ordem de magnitude maior de tempo e memória. Também avaliamos o M ega7 para conjuntos de dados com número crescente de sites. O tempo computacional e o pico de memória mostraram uma tendência linear. Além disso, comparamos as necessidades de memória e tempo para as versões de 32 e 64 bits (M ega6 e M ega7, respectivamente) e não encontramos nenhuma diferença significativa para as análises NJ e ML. Isso ocorre principalmente porque o M ega 6 e o ​​M ega 7 usam tipos de dados de ponto flutuante de 8 bytes. No entanto, o M ega 6 de 32 bits só pode realizar a análise de ML para menos de 3.000 sequências do mesmo comprimento. Portanto, o M ega 7 é uma atualização significativa que não incorre em nenhuma penalidade computacional ou de recursos discernível.

Requisitos de tempo e memória para análises filogenéticas usando o método NJ ( UMA , B ) e a análise de ML ( C , D ) Para a análise de NJ, usamos o modelo de Tamura-Nei (1993), taxas uniformes de evolução entre os locais e opção de exclusão em pares para lidar com os dados ausentes. O uso do tempo aumenta polinomialmente com o número de sequências (polinômio de terceiro grau, R 2 = 1), assim como a memória de pico usada ( R 2 = 1) ( UMA , B ) O mesmo modelo e parâmetros foram usados ​​para inferência da árvore ML, onde o tempo gasto e as necessidades de memória aumentaram linearmente com o número de sequências. Para a análise de ML, a heurística SPR (Subtree – Pruning – Regrafting) foi usada para pesquisa de árvore e todos os 5.287 locais no alinhamento de sequência foram incluídos. Todas as análises foram realizadas em um computador Dell Optiplex 9010 com processador Intel Core-i7-3770 de 3,4 GHz, 20 GB de RAM, placa de vídeo NVidia GeForce GT 640 e sistema operacional Windows 7 Enterprise de 64 bits.

Requisitos de tempo e memória para análises filogenéticas usando o método NJ ( UMA , B ) e a análise de ML ( C , D ) Para a análise de NJ, usamos o modelo de Tamura-Nei (1993), taxas uniformes de evolução entre os locais e opção de exclusão em pares para lidar com os dados ausentes. O uso do tempo aumenta polinomialmente com o número de sequências (polinômio de terceiro grau, R 2 = 1), assim como a memória de pico usada ( R 2 = 1) ( UMA , B ) O mesmo modelo e parâmetros foram usados ​​para inferência da árvore ML, onde o tempo gasto e as necessidades de memória aumentaram linearmente com o número de sequências. Para a análise de ML, a heurística SPR (Subtree – Pruning – Regrafting) foi usada para pesquisa de árvore e todos os 5.287 locais no alinhamento de sequência foram incluídos. Todas as análises foram realizadas em um computador Dell Optiplex 9010 com processador Intel Core-i7-3770 de 3,4 GHz, 20 GB de RAM, placa de vídeo NVidia GeForce GT 640 e sistema operacional Windows 7 Enterprise de 64 bits.

Atualizando o Tree Explorer

A capacidade de construir uma árvore filogenética de & gt10.000 sequências exigiu uma grande atualização do Explorador de árvores também, porque precisava exibir árvores muito grandes. Isso foi conseguido substituindo a caixa de rolagem nativa do Windows por um personalizado virtual caixa de rolagem, que aumentou o número de táxons que podem ser exibidos no Explorador de árvores janela de ∼4.000 em M ega6 a mais de 100.000 sequências em M ega7. Isso é possível devido à nossa nova abordagem adaptativa para renderizar a árvore para garantir a melhor qualidade de exibição e desempenho de exploração. Para exibir uma árvore, primeiro avaliamos se a árvore pode ser renderizada como um bitmap dependente de dispositivo (DDB), que depende do poder da unidade de processamento gráfico disponível. Se for bem-sucedido, a imagem da árvore é armazenada na memória de vídeo, o que melhora o desempenho. Por exemplo, em um computador equipado com placa de vídeo GeForce GT 640, Explorador de árvores árvores renderizadas com sucesso com mais de 100.000 sequências e responderam rapidamente às mudanças de rolagem e exibição do usuário. Quando um DDB não é possível gerar, então Explorador de árvores renderiza a árvore como um bitmap independente de dispositivo. Devido aos extensos requisitos de memória do sistema, escolhemos automaticamente um formato de pixel que maximiza o número de sequências exibidas. Basicamente, o formato do pixel determina o número de cores usadas: 24 (2 24 cores), 18, 8, 4 ou 1 bit (monocromático) por pixel. A memória precisa de escala proporcional ao número de bits usados ​​por pixel.

M ega -CC de plataforma cruzada para análises de alto rendimento e com script

Agora refatoramos o núcleo de computação do M ega (CC, Kumar et al. 2012) para que possa ser compilado nativamente para sistemas Linux, Windows e Mac OS X, a fim de evitar a necessidade de emulação ou virtualização. Isso exigiu a portabilidade do código-fonte do núcleo de computação para uma linguagem de programação de plataforma cruzada e a substituição de todas as chamadas de API do sistema Microsoft Windows. Por exemplo, o App Linker O sistema, que integra o aplicativo de alinhamento de sequência MUSCLE (Edgar 2004) com o M ega, dependia muito da API do Windows para comunicação entre processos e foi amplamente refeito.

Para configurar as análises no M ega 7-CC, optamos por continuar exigindo um arquivo de opções de análise (chamado arquivo .mao) que especifica todos os parâmetros de entrada para o aplicativo M ega-CC baseado na linha de comando, consulte a figura 1 em Kumar et al. (2012). Para gerar esse arquivo de controle, fornecemos aplicativos de prototipador nativo (M ega -P roto) para Windows, Linux e Mac OS X. M ega -P roto elimina a necessidade de aprender um grande número de comandos e, assim, evita um curva de aprendizado íngreme e erros potenciais para opções interdependentes. Também nos permite oferecer exatamente a mesma experiência e opções para aqueles que usarão as versões GUI e CC do M ega7.

Marcando eventos de duplicação de genes em árvores genealógicas

Adicionamos uma nova funcionalidade no M ega para marcar nós de árvore onde as duplicações de genes estão previstas para ocorrer. Este sistema funciona com ou sem uma árvore de espécies. Se uma árvore de espécies é fornecida, então marcamos duplicações de genes seguindo o algoritmo de Zmasek e Eddy (2001). Este algoritmo postula o menor número de duplicações de genes na árvore, de forma que o número mínimo de genes não observados, devido a perdas ou amostragem parcial, seja invocado. Quando nenhuma árvore de espécies é fornecida, todos os nós internos na árvore que contêm uma ou mais espécies comuns nos dois clados descendentes são marcados como eventos de duplicação de genes. Este algoritmo fornece um número mínimo de eventos de duplicação, porque muitos nós de duplicação permanecerão não detectados quando a amostragem do gene estiver incompleta. No entanto, é útil para os casos em que as espécies de árvores não estão bem estabelecidas.

Percebendo que a raiz da árvore genealógica do gene nem sempre é óbvia, M ega executa a análise acima enraizando automaticamente a árvore em cada ramo e selecionando uma raiz de modo que o número de duplicações de genes inferidas seja minimizado. Isso é feito apenas quando o usuário não especifica uma raiz explicitamente. UMA Assistente de duplicação de genes (fig. 2) orienta o usuário por todas as etapas necessárias para esta análise. Os resultados são exibidos no Explorador de árvores (fig. 3) que marca duplicações de genes com diamantes sólidos azuis. Quando uma árvore de espécies é fornecida, os eventos de especiação são marcados com diamantes vermelhos abertos. Os resultados também podem ser exportados para arquivos de texto no formato Newick, onde duplicações de genes e eventos de especiação são rotulados com comentários entre colchetes. No futuro, planejamos estender este sistema com a capacidade de recuperar automaticamente a árvore de espécies de bancos de dados externos, incluindo a Taxonomia NCBI (http://www.ncbi.nlm.nih.gov/guide/taxonomy/) e o cronograma de vida (Hedges et al. 2015).

o Assistente de duplicação de genes ( UMA ) para orientar os usuários através do processo de pesquisa de eventos de duplicação de genes em uma árvore genealógica de genes. Na primeira etapa, o usuário carrega uma árvore genética de um arquivo de texto formatado por Newick. Em segundo lugar, as espécies associadas às sequências são especificadas por meio de uma interface gráfica. Na terceira etapa, o usuário tem a opção de carregar uma árvore de espécies confiáveis, caso em que será possível identificar todos os eventos de duplicação na árvore gênica, a partir de um arquivo Newick. Quarto, o usuário tem a opção de especificar a raiz da árvore gênica em uma interface gráfica. Se o usuário fornecer uma árvore de espécies confiáveis, ele deverá designar a raiz dessa árvore. Finalmente, o usuário inicia a análise e os resultados são exibidos no Explorador de árvores janela (ver fig. 3).

o Assistente de duplicação de genes ( UMA ) para orientar os usuários através do processo de pesquisa de eventos de duplicação de genes em uma árvore genealógica de genes. Na primeira etapa, o usuário carrega uma árvore genética de um arquivo de texto formatado por Newick. Em segundo lugar, as espécies associadas às sequências são especificadas por meio de uma interface gráfica. Na terceira etapa, o usuário tem a opção de carregar uma árvore de espécies confiáveis, caso em que será possível identificar todos os eventos de duplicação na árvore gênica, a partir de um arquivo Newick. Quarto, o usuário tem a opção de especificar a raiz da árvore gênica em uma interface gráfica. Se o usuário fornecer uma árvore de espécies confiáveis, ele deverá designar a raiz dessa árvore. Finalmente, o usuário inicia a análise e os resultados são exibidos no Explorador de árvores janela (ver fig. 3).

Explorador de árvores janela com duplicações gênicas marcadas com diamantes azuis fechados e eventos de especiação, se uma árvore de espécie confiável for fornecida, são identificados por diamantes vermelhos abertos (veja a legenda da fig. 2 para mais informações).

Explorador de árvores janela com duplicações gênicas marcadas com diamantes azuis fechados e eventos de especiação, se uma árvore de espécie confiável for fornecida, são identificados por diamantes vermelhos abertos (veja a legenda da fig. 2 para mais informações).

Atualizações do sistema de cronograma

Nós agora atualizamos o Assistente de cronograma (semelhante ao assistente mostrado na fig. 2), que orienta os pesquisadores por um processo de várias etapas de construção de uma filogenia molecular dimensionada no tempo usando um alinhamento de sequência e uma topologia de árvore filogenética. Este assistente aceita arquivos de árvore formatados por Newick, auxilia os usuários na definição do (s) grupo (s) externo (s) em que a árvore será enraizada e permite aos usuários definir restrições de calibração de tempo de divergência. Definir restrições de tempo a fim de calibrar o cronograma final é opcional no método RelTime (Tamura et al. 2012), então M ega7 não exige que restrições de calibração estejam disponíveis e não assume um relógio molecular. Se nenhuma calibração for usada, M ega7 produzirá tempos de divergência relativos para nós, que são úteis para determinar a ordem e espaçamento de eventos de divergência em espécies e árvores genealógicas de genes. No entanto, os usuários podem obter estimativas de tempo de divergência absoluta para cada nó, fornecendo calibrações com restrições mínimas e / ou máximas (Tamura et al. 2013). É importante notar que o M ega 7 não usa calibrações que estão presentes no clado contendo o (s) grupo (s) externo (s), porque isso exigiria uma suposição de taxas iguais de evolução entre as sequências do grupo interno e externo, que não podem ser testadas. Por este motivo, as tabelas de horários exibidas no Explorador de árvores tenha o cluster do grupo externo compactado e esmaecido por padrão para promover uma análise e interpretação científicas corretas.

Exibição de cobertura de dados por nó

No Explorador de árvores , os usuários serão capazes de exibir outro conjunto de números nos nós da árvore interna que correspondem à proporção de posições no alinhamento onde há pelo menos uma sequência com um nucleotídeo ou aminoácido inequívoco em ambas as linhagens descendentes, ver figura 5 em Filipski et al. (2014). Essa métrica é conhecida como cobertura mínima de dados e é útil para expor nós na árvore que não possuem dados suficientes para fazer inferências filogenéticas confiáveis. Por exemplo, quando a cobertura de dados mínima é zero para um nó, então o tempo decorrido no ramo que conecta este nó com seu nó descendente será sempre zero, porque zero substituições serão mapeadas para aquele ramo (Filipski et al. 2014) . Isso significa que os tempos de divergência para tais nós seriam subestimados. Esses ramos também terão uma confiança estatística muito baixa ao inferir a árvore filogenética. Portanto, é sempre bom examinar essa métrica para todos os nós da árvore.


Assista o vídeo: Mutação e Reparo do DNA (Agosto 2022).