Em formação

Número de íntrons em um genoma

Número de íntrons em um genoma



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Os humanos têm aproximadamente 21.000 genes, mas provavelmente produzem mais proteínas do que isso. Isso foi explicado por muitos mecanismos, como o splicing alternativo de RNA.

Minha pergunta é - se o que chamamos de "íntrons" e "exons" variam tanto, como é determinado o número de íntrons presentes em um genoma?


Sim, o número individual de exons / íntrons irá variar em uma transcrição, mas o que você pode fazer é apenas contar todos os exons possíveis de um gene. Por exemplo, digamos que você tenha um exon alternativo nessas duas isoformas. Os XX são exões

XX --- XX --- XX --- XX

XX -------- XX --- XX

Diríamos que esse gene tem 4 exons e 3 introns, embora uma isoforma tenha apenas 3 exons. É a transcrição que varia em número de exões, o gene permanece constante.

Aqui está um exemplo um pouco mais complexo. Exons mutuamente exclusivos

XX --- XX -------- XX

XX -------- XX --- XX

Ainda diríamos que tem quatro exões. Finja que cada exon de cada isoforma está incluído e é assim que você obtém o número de exons no gene. Então, para o exemplo acima, apenas finja que ambos os exons mutuamente exclusivos estão incluídos

XX --- XX --- XX --- XX

De acordo com este antigo artigo, existem 8,8 exões por gene (7,8 intrões). A contagem do número do gene é alta porque é mais velha, mas eles estimam que haja 207.344 íntrons no genoma humano.


Intron Homing

M.A. Gilson, M. Belfort, em Encyclopedia of Genetics, 2001

História

Os íntrons móveis são comuns. Eles foram identificados em bactérias e bacteriófagos, arqueobactérias e eucariotos. O RNA da maioria desses íntrons se dobra em uma série de hastes e loops. Existem dois padrões básicos de dobramento diferentes, correspondentes aos íntrons do grupo I e do grupo II. Além de diferentes estruturas de RNA, os íntrons nos dois grupos também têm mecanismos de splicing autocatalítico distintos. A mobilidade foi demonstrada para íntrons do grupo I e do grupo II e para um íntron arqueobacteriano não catalítico, mas não para íntrons spliceossômicos nucleares.

O primeiro íntron que mostrou ser móvel, no início dos anos 1970, foi o íntron da subunidade ribossômica grande (LSU) do grupo I, anteriormente chamado de íntron ω, da levedura Saccharomyces cerevisiae. O processo de homing baseado em DNA foi elucidado por experimentos que mostram a polaridade de recombinação em cruzamentos entre os alelos intron-plus e intron-minus. O íntron foi mobilizado para que mais de 90% da progênie fosse portadora do alelo contendo o íntron.

O primeiro intron do grupo II mostrado a exibir homing foi o intron aI1, também de S. cerevisiae. Os artigos originais referem-se a isso como transposição, mas na verdade é um homing conforme definido acima. O homing do intron do grupo II se distingue do homing dos introns do grupo I pelo envolvimento do RNA do intron tanto na modelagem quanto na mediação do evento de mobilidade.

A transposição não foi demonstrada para íntrons do grupo I, mas um íntron bacteriano do grupo II é capaz de transposição para sítios ectópicos, além de homing. A transposição também requer um intermediário de RNA.


Intron Discovery

Os íntrons foram descobertos em 1977 com a introdução do sequenciamento de DNA. Embora se soubesse que as moléculas de mRNA eucarióticas maduras eram mais curtas do que os transcritos iniciais, acreditava-se que os transcritos eram simplesmente aparados nas extremidades. Quando os dois tipos de moléculas foram sequenciados, foi revelado que esse não era o caso, muito do transcrito removido veio de regiões internas, e não das extremidades. Isso levou a uma extensa pesquisa sobre como os íntrons eram removidos das transcrições e qual poderia ser sua função.


O que há em um genoma? O enigma do valor C e a evolução do conteúdo do genoma eucariótico

Deixando de lado algumas exceções notáveis, os genomas eucarióticos são diferenciados daqueles de Bacteria e Archaea de várias maneiras, incluindo estrutura e número de cromossomos, conteúdo repetitivo de DNA e a presença de íntrons em regiões codificadoras de proteínas. Uma das diferenças mais notáveis ​​entre os genomas eucarióticos e procarióticos está no tamanho. Ao contrário de suas contrapartes procarióticas, os eucariotos exibem enorme (mais de 60.000 vezes) variabilidade no tamanho do genoma, que não é explicada por diferenças no número do gene. O tamanho do genoma é conhecido por se correlacionar com o tamanho da célula e a taxa de divisão e, por extensão, com várias características do nível do organismo, como metabolismo, taxa de desenvolvimento ou tamanho do corpo. Menos bem descritas são as relações entre o tamanho do genoma e outras propriedades do genoma, como o conteúdo do gene, o conteúdo do elemento transponível, a composição do par de bases e recursos relacionados. A rápida expansão de projetos de sequenciamento de genoma 'completo' tornou, pela primeira vez, possível examinar essas relações em uma ampla gama de eucariotos, a fim de lançar uma nova luz sobre as causas e correlatos da diversidade de tamanho do genoma. Este estudo apresenta os resultados de comparações filogeneticamente informadas de dados do genoma para mais de 500 espécies de eucariotos. Diversas relações são descritas entre o tamanho do genoma e outros parâmetros genômicos, e algumas recomendações são apresentadas sobre como esses insights podem ser estendidos ainda mais amplamente no futuro.

Palavras-chave: Genoma de valor C sequenciando elementos transponíveis de íntrons de tamanho de genoma.

Figuras

Comparação de estimativas de tamanho do genoma ...

Comparação de estimativas de tamanho do genoma com base em sequenciamento ou métodos citogenéticos tradicionais. (…

Relações entre o tamanho do genoma e ...

Relações entre o tamanho do genoma e ( uma ) número do gene, ( b )…

Relações entre o tamanho do genoma e ...

Relações entre o tamanho do genoma e ( uma ) a proporção do genoma ...

Tamanho do genoma e par de base ...

Tamanho do genoma e composição do par de bases (dado como% GC). (Versão online em ...


Resultados

Dados genômicos de duas espécies de plantas contrastantes, a monocotiledônea rica em GC O. sativa e o eudicot pobre em GC A. thaliana, foram usados ​​para um estudo comparativo do efeito do número do íntron no conteúdo do gene GC. Genes sem íntron localizado em UTRs representam mais de 75% dos genes em ambas as espécies e foram usados ​​para descrever padrões de variação ligados à presença de intron dentro de CDS. Também estudamos dois outros subconjuntos de genes, compostos de genes com qualquer número de íntrons dentro do CDS e um único íntron adicional presente no 5 & # x02032- ou no 3 & # x02032-UTR. Esses subconjuntos foram usados ​​para investigar as consequências da presença de íntrons fora das regiões de codificação no conteúdo de GC de ambos os íntrons e regiões de codificação. Concentramos nossas análises em partes de codificação de exon (consulte Materiais e Métodos) e para evitar confusão de terminologia, descartamos o termo & # x0201cexons & # x0201d e usamos o termo & # x0201cCDS parts & # x0201d para regiões de codificação.

O conteúdo do CDS GC varia com o número do íntron em ambas as espécies

Arabidopsis thaliana o genoma é pobre em GC, exibindo uma distribuição unimodal e homogênea no conteúdo de GC da região codificadora (modo a 45% e desvio padrão [SD] = 3,2% fig. 2 UMA e C) O genoma do arroz é rico em GC e altamente heterogêneo exibindo uma distribuição bimodal de conteúdo de GC de CDS com dois modos a 49% e 69% (SD = 9,4% fig. 2 B e D) Apesar das grandes diferenças no conteúdo de GC entre os dois genomas estudados, as mesmas tendências foram observadas na escala CDS: 1) O conteúdo de GC de CDS diminui em direção a um limite inferior no conteúdo de GC com o aumento no número de íntrons e 2) a diminuição em CDS O conteúdo de GC está associado a uma diminuição na variação do conteúdo de GC de CDS dentro das classes de número de íntron. No arroz, as mudanças no conteúdo de GC com número de íntron são tão grandes que respondem por grande parte da bimodalidade observada. Porque as variações no conteúdo de GC de acordo com o número do intron eram muito grandes para serem negligenciadas mesmo em A. thaliana, os genes foram classificados em classes de acordo com o número do íntron e os padrões de variação do conteúdo de GC foram estudados dentro das classes em todas as análises subsequentes.

Distribuição do conteúdo do CDS GC de acordo com o número do intron em A. thaliana (UMA, C) e arroz (B, D). (UMA, B) Contagens de genes de acordo com o conteúdo de GC. A contribuição das classes de números intrões para cada uma das barras é indicada pela proporção da barra da cor relevante (legenda no painel UMA) Em ambos os painéis, o contorno da distribuição para as outras espécies é mostrado em cinza. (UMA) Arabidopsis thaliana a distribuição é unimodal e pobre em GC. (B) Oryza sativa regiões de codificação são globalmente mais ricas em conteúdo de GC em comparação com A. thaliana e apresentam distribuição bimodal. Em ambas as espécies, as barras ricas em GC são compostas principalmente de genes com baixo número de íntrons, enquanto os genes com alto número de íntrons estão concentrados principalmente nas classes pobres em GC. (C, D) Contornos de densidade para cada classe de número de íntron (legenda colorida no painel UMA) Em ambas as espécies, o conteúdo de GC varia com o número do íntron, na localização e na dispersão. O enriquecimento no conteúdo de GC observado no arroz afeta todas as classes de número de íntron, mas é muito maior em genes de número de íntron baixo do que em genes com número de íntron alto. Uma grande parte da bimodalidade no conteúdo de GC desta espécie parece estar ligada à variação com o número do íntron.

Os íntrons estão associados a gradientes de etapas na região de codificação do conteúdo de GC no nível de nucleotídeo

Investigamos primeiro as mudanças no conteúdo de GC nas junções entre os íntrons e as regiões codificantes e observamos transições nítidas geralmente maiores que 10% entre os íntrons e as regiões codificantes, sendo os íntrons pobres em GC em comparação com as regiões codificantes (observado para todos os genes intrônicos, ver figs suplementares. S1 e S2, Material Suplementar online). Portanto, em relação ao conteúdo de nt GC, os íntrons aparecem como buracos ou vales em comparação com as regiões de codificação e pode-se perguntar se o CDS é homogêneo, independentemente da presença do íntron ou se a presença do íntron está associada a mudanças na composição de nucleotídeos. No primeiro caso, os gradientes de conteúdo de GC devem ser contínuos, enquanto no segundo caso, diferenças entre as partes do CDS são esperadas (fig. 3 UMA e B) Para responder a esta pergunta, removemos as sequências de íntrons, concatenamos partes CDS de cada gene mantendo o controle das classificações de partes CDS e calculamos o conteúdo de GC por posição nt de acordo com a distância do início da tradução do gene. O conteúdo de GC por posições nt ao longo dos genes foi comparado pela soma de todos os genes independentemente da classificação de parte de CDS ou por subconjunto de posições nt de acordo com a classificação de parte de CDS. Mudanças discretas no conteúdo de GC podem ser observadas pelo menos entre a primeira e a segunda parte do CDS (fig. 3 C e D para genes com dois intrões). Os gradientes contínuos observados ao negligenciar a arquitetura do gene (curvas pretas na fig. 3 C e D) que foram relatados anteriormente em vários estudos (Wong et al. 2002 Tatarinova et al. 2010) são artefatos causados ​​pela transição de uma série de sequências de uma determinada classificação de parte do CDS para a próxima e não por uma mudança progressiva no conteúdo de GC de acordo com a posição do códon. Como resultado, em ambas as espécies, 5 & # x02032 & # x020133 & # x02032 gradientes de conteúdo de GC estão fortemente associados aos íntrons, sugerindo que íntrons e partes de CDS são a escala de observação relevante para estudar e comparar gradientes de conteúdo de GC na escala do gene. Em contraste, como mostrado na figura 4, os gradientes de conteúdo de GC em genes sem íntron de ambas as espécies são fracos em comparação com os gradientes observados em genes intrônicos, sugerindo ainda que os íntrons podem estar envolvidos em gradientes. Também investigamos os padrões de variação de acordo com a posição do códon nas regiões de codificação. Em ambas as espécies, são observadas grandes diferenças no conteúdo de GC entre as posições dos códons. Em genes intrônicos de ambas as espécies, gradientes em etapas são observados para todas as posições de códon, pelo menos, nas regiões do gene 5 & # x02032 (dados não mostrados, ver fig. 5 para padrões em níveis de parte de CDS).

Gradiente de nucleotídeo GC ao longo de genes com dois íntrons. (UMA) Variações no comprimento da parte CDS entre os genes levam a uma grande sobreposição entre as partes CDS com diferentes classificações. Em uma determinada posição nt, o conteúdo de GC é uma mistura da parte CDS com diferentes classificações quando as localizações do íntron são desprezadas. (B) Se o conteúdo nt GC for puramente devido à posição nt ao longo dos genes, o conteúdo GC entre as partes CDS contíguas deve ser contínuo, mesmo quando o conteúdo nt GC é calculado por subconjunto na classificação da parte CDS. Em contraste, se a presença de intron estiver associada a mudanças no conteúdo de GC entre partes contíguas de CDS, um gradiente de degraus deve surgir. Observe que, em ambos os casos, um gradiente contínuo é esperado quando a arquitetura do gene é negligenciada. No entanto, embora no primeiro caso ambos os gradientes sejam confundidos, no segundo, diferenças claras devem surgir nas regiões de sobreposição. (C, D) nt gradientes de GC ao longo de genes com dois íntrons quando as partes do CDS são individualizadas (primeira parte do CDS: azul, segundo: laranja, terceiro: verde) e sem levar em consideração a classificação da parte do CDS (todos: preto) em genes com dois íntrons. (C) Arabidopsis thaliana. (D) Oryza sativa. Em ambas as espécies, as diferenças entre as partes do CDS são maiores do que as oscilações dentro das partes do CDS e o conteúdo do GC calculado sem levar em consideração a classificação da parte do CDS é diferente do conteúdo do GC da parte do CDS em regiões de sobreposição. Para maior clareza, apenas nt posições representadas por pelo menos 400 sequências de genes diferentes foram plotadas.

Gradientes de conteúdo de GC em genes sem íntron. O conteúdo de GC para cada posição nt da metionina inicial é indicado em azul (GC1), laranja (GC2) e verde (GC3), o conteúdo do códon GC resultante (média das três posições do códon) sendo plotado em preto (G + C) e exibido na segunda posição. Em ambas as espécies, grandes diferenças são observadas entre as posições dos códons. No entanto, em comparação com os genes intrônicos (por exemplo, figs. & # X200B figs.3 3 e & # x200B e 5), 5), os gradientes são pequenos. (UMA) Arabidopsis thaliana. (B) Oryza sativa.

Parte CDS e gradientes GC do íntron de acordo com a classificação ao longo dos genes dentro das classes de número do íntron. Em todos os painéis, o número do íntron do gene é indicado pelas cores (legenda mostrada no painel B3). Barras em pontos representam o erro padrão das médias. Arabidopsis thaliana: UMA1. Gradiente médio da parte GC do CDS. UMA2. Gradientes médios de Intron GC. UMA3. Parte média do CDS GC1 (grupos de linhas superiores) e GC2 gradientes (grupo de linhas inferior). UMA4. Parte média do CDS GC3 gradientes. Oryza sativa: B1. Gradientes GC médios da parte CDS (grupo superior de linhas) e intron (grupo inferior de linhas). B2. Parte média do CDS GC1 (grupos de linhas superiores) e GC2 gradientes (grupo de linhas inferior). B3. Parte média do CDS GC3 gradientes. A linha tracejada superior no B1 painel é colocado no mesmo nível que a linha tracejada no painel UMA1. Da mesma forma, a linha tracejada inferior no painel B1 é colocado no mesmo nível que o do painel UMA2, indicando que os íntrons internos de ambas as espécies tendem a atingir conteúdo GC semelhante à medida que o número do íntron aumenta.

Os gradientes de conteúdo de GC são afetados pelo número de intron e explicam parcialmente a variação do genoma no conteúdo de GC de CDS completo

Para comparar gradientes ao longo dos genes para diferentes números de íntrons dentro das espécies, calculamos o conteúdo de GC para cada parte do CDS ao longo dos genes e calculamos a média da classificação ao longo dos genes dentro das classes de números do íntron. Gradientes de conteúdo de GC estruturados modulados pelo número de introns são observados em ambas as espécies (fig. 5). Eles variam em formas e amplitudes de acordo com as espécies e as posições dos códons.

Em ambas as espécies, todos os gradientes de parte do CDS são em forma de U e assimétricos, exceto o GC1 gradiente em A. thaliana que tendem a ser em forma de sino. Os gradientes surgem progressivamente conforme o número de íntrons aumenta, aparecendo truncados em genes com menos de dois ou três íntrons. Os níveis de conteúdo de GC mais altos e mais baixos são observados para GC3 gradientes em ambas as espécies, média GC3 da primeira parte do CDS atingindo até 48% em Arabidopsis e 85% no conteúdo de GC no arroz, respectivamente, e diminuindo dentro de algumas etapas até 37% em ambas as espécies para genes com alto número de íntrons. Em ambas as espécies, os gradientes aumentam novamente em direção à extremidade 3 & # x02032 do CDS e estabilizam no intermediário G + C níveis em torno de 44 & # x0201345% em A. thaliana e 55% em arroz nas últimas partes do CDS. Comparado com GC3 gradientes (fig. 5 UMA4 e # x02013B3), GC1 e GC2 gradientes são reduzidos, barulhentos e menos distintos, enquanto os gradientes de conteúdo de GC resultantes são distintos e regulares, embora menos profundos do que GC3 gradientes.

Finalmente, a direção e a amplitude dos gradientes estão correlacionadas com a direção e a importância das mudanças observadas no conteúdo de GC na escala CDS completa em ambas as espécies (tabelas suplementares S3 e S4 e figs. S3 & # x02013S5, Material Suplementar online , para obter informações adicionais). Na verdade, as regressões beta de CDS completo contra o número do íntron do gene e as regressões beta dentro das classes de íntron da classificação do conteúdo GC da parte CDS ao longo do gene indicam que, em ambos os casos, a estrutura do gene explica uma grande parte da variação entre os genes ou partes de CDS no arroz e um parte significativa, embora modesta, em A. thaliana ( tabela 1 ).

Tabela 1

ModeloDf M (N)LogLik M (N)ChisqP valorPseudo-R 2
Os: M1240 (121)69,186 (51,223)35,925 & lt 10 -6 0.52
Os: M230 (16)17,748 (13,998)7,500 & lt 10 -6 0.38
Em: M1240 (121)104,044 (101,653)4,781 & lt 10 -6 0.09
Em: M230 (16)27,917 (27,360)1,114 & lt 10 -6 0.06

Nota. & # X02014 Dois modelos foram instalados em Arabidopsis thaliana (At) e Oryza sativa (Os): Um modelo M1 para a regressão do conteúdo GC da parte CDS como uma função da classificação ao longo do gene dentro das classes de número do íntron, e um modelo M2 para a regressão do conteúdo GC CDS como uma função do número do íntron. df, grau de liberdade LogLik, LogLikelihood Chisq, coeficiente de verossimilhança estatística Qui-quadrado. Os primeiros números são valores correspondentes para modelos ajustados (M), números entre colchetes para modelos NULL (N). Pseudo-R 2 fornece uma estimativa da qualidade do ajuste do modelo (correlação quadrada do preditor linear e resposta transformada do link).

Os íntrons são pobres em GC em comparação com as partes CDS (fig. 5 UMA2 e # x02013B1) e gradientes presentes nas duas espécies estudadas. No A. thaliana, para classes de baixo número de íntron, o conteúdo médio de intron GC é principalmente determinado pelo número de intron, primeiro aumentando com o número de intron para classes de genes com poucos introns antes de estabilizar no conteúdo de GC em torno de 32 & # x0201333% para classes de genes com mais de cinco introns. No arroz, são observados gradientes em forma de U modulados pelo número de intrões. Como para gradientes de parte de CDS, eles são truncados para baixo número de íntrons e, de outra forma, altamente regulares, embora as amplitudes dos gradientes sejam pequenas em comparação com os gradientes de parte de CDS de arroz. Nesta espécie, os conteúdos de GC do primeiro íntron mostram um aumento distinto com o número do íntron, enquanto os últimos íntrons estabilizam em 36% de G + C, Teor de GC na parte inferior do U estabilizando acima de 33%.

A presença de intron em 5 & # x02032- ou 3 & # x02032-UTR modifica os gradientes de conteúdo de GC

Em ambas as espécies, a presença de íntron em 5 & # x02032-UTR está associada a uma diminuição no conteúdo de GC da parte CDS externa 5 & # x02032 (fig. 6 UMA e B para genes com sete íntrons, fig. S6, Material Suplementar online, para todos os números de íntrons estudados). No arroz, uma diminuição sistemática no conteúdo de GC também é observada quando um íntron está presente em 3 & # x02032-UTR, enquanto em A. thaliana, embora as diminuições sejam geralmente observadas, nem sempre são significativas. Padrões semelhantes são observados para cada posição de códon tomada separadamente (figuras suplementares S7 & # x02013S9 e tabelas S5 & # x02013S12, Material Suplementar online). Observe que a outra extremidade do gradiente permanece inalterada na maioria dos casos.

Comparação entre genes que possuem um íntron adicional presente em uma UTR com genes que não possuem íntron inserido em UTRs. Em cada caso, a comparação é feita entre genes com o mesmo número de íntrons dentro das regiões codificantes e diferindo apenas pela presença ou ausência de um íntron em suas UTRs. N significa nenhum íntron presente em UTRs (pontos e curvas pretos), 5 significa íntron adicional presente em 5 & # x02032-UTR (triângulos superiores e curvas azuis), 3 significa íntron adicional presente em 3 & # x02032-UTR (laranja inferior triângulos e curvas). Para gradientes de íntron (painéis C e D), as linhas sólidas conectam classificações de íntrons para íntrons localizados dentro do CDS, enquanto os íntrons adicionais são conectados por linhas pontilhadas (I5 representa os íntrons adicionais presentes no 5 & # x02032-UTR, I3 para os íntrons adicionais presentes no 3 & # x02032-UTR ) Barras em pontos representam o erro padrão das médias. (UMA) Gradientes médios de parte GC de CDS em genes com sete íntrons inseridos dentro de CDS em A. thaliana. (B) Gradientes médios de parte GC de CDS de genes com sete íntrons inseridos dentro de CDS em O. sativa. (C) Gradientes médios de GC de íntron de genes com dois íntrons inseridos dentro de CDS em A. thaliana. A presença de intron em 5 & # x02032- e 3 & # x02032-UTR leva a um aumento semelhante no conteúdo de GC. (D) Gradientes GC de íntron médios de genes com sete íntrons inseridos dentro de CDS em O. sativa.

Com relação aos gradientes de íntrons, os íntrons adicionais são integrados aos gradientes de íntrons que parecem normais em ambas as espécies (fig. 6 C e D para genes com dois introns inseridos com o CDS em A. thaliana e genes com oito íntrons inseridos em CDS em arroz, fig suplementar. S6, material suplementar online, para todos os números de íntron). No A. thaliana, a presença de um íntron adicional em 5 & # x02032- ou em 3 & # x02032-UTR está associada a um aumento geral no conteúdo de GC de todos os íntrons. No arroz, o intron UTR & # x02019s é adicionado ao gradiente na extremidade relevante enquanto o próximo intron (o segundo quando o intron é inserido no 5 & # x02032-UTR ou o penúltimo quando o intron está localizado no 3 & # x02032- UTR) apresenta uma diminuição significativa no conteúdo de GC que o leva a um G + C nível semelhante a um segundo ou último íntron de genes sem nenhum íntron presente em suas UTRs. Novamente, esse padrão é consistente para todas as classes de números de íntrons com números de íntrons baixos.

Resultados semelhantes foram obtidos em cada espécie com um subconjunto de pares de genes parálogos diferindo pela presença / ausência de um íntron no 5 & # x02032- ou 3 & # x02032-UTR de um membro de cada par, ambos os membros dos pares tendo o mesmo número de íntrons inseridos nas regiões de codificação. Quando os testes de postos sinalizados de Wilcoxon emparelhados indicaram a existência de diferenças significativas, eles estavam na mesma direção que aqueles descritos acima nas duas espécies, confirmando a hipótese de que mudanças na estrutura do íntron estão implicadas nas mudanças no conteúdo de GC (ver tabelas suplementares S13 e S14, Material Suplementar online).

Esses resultados sugerem que a presença do íntron está associada a alguns processos que impedem o aumento no conteúdo de GC observado nas regiões externas do gene para progredir para as regiões internas dos genes.

Os íntrons têm um impacto específico na composição das regiões codificantes

Para testar se as mudanças descritas acima são puramente devido à adição de um determinado número de nts que retira regiões de codificação dos locais de início da transcrição (TSS) ou se há um efeito específico de íntron, realizamos dois tipos diferentes de comparações. Em primeiro lugar, comparamos o conteúdo GC da primeira parte do CDS entre genes sem íntron inserido em seus 5 & # x02032-UTRs e genes com um íntron inserido em seus 5 & # x02032-UTRs e distâncias semelhantes entre o TSS e o códon de início. Classificamos cada grupo de genes em seis caixas de acordo com a distância entre a primeira parte do CDS e o TSS (quando nenhum íntron é inserido dentro de 5 & # x02032-UTR, essa distância é igual ao comprimento de 5 & # x02032-UTR, enquanto quando um íntron é inserido, é igual à soma dos dois comprimentos de parte 5 & # x02032-UTR mais o comprimento do íntron) e procurou uma diferença entre os dois grupos de genes dentro de caixas de tamanho. De fato, uma diminuição significativa no conteúdo de GC da primeira parte do CDS é observada em ambas as espécies quando um íntron está presente dentro de 5 & # x02032-UTR em comparação com 5 & # x02032-UTR puro de comprimento comparável, sugerindo que os íntrons têm um impacto maior do que 5 & # Sequências x02032-UTR (fig. 7 UMA e B) Em segundo lugar, na subamostra de genes sem íntron inserido nas UTRs, classificamos os genes em duas classes de acordo com o comprimento de seus primeiros íntrons (menor ou maior que 150 nt em A. thaliana e 250 nt no arroz, ver figos suplementares. S10 e S11, Material Suplementar online, para informações adicionais) e conteúdo GC comparado da segunda parte do CDS em genes com uma distância semelhante entre o TSS e o início da segunda parte do CDS (esta distância é igual à soma dos 5 & # x02032-UTR, primeira parte CDS e comprimentos do primeiro íntron). Novamente, um efeito específico do íntron é detectado em ambas as espécies (fig. 7 C e D) No arroz, o efeito do comprimento do primeiro íntron no conteúdo GC da segunda parte CDS assume a forma de uma enorme diminuição no conteúdo GC da segunda parte CDS que parece depender de uma forma limite do comprimento do primeiro íntron e pode até afetar todos partes CDS a jusante ou íntrons em genes com poucos íntrons (veja a figura suplementar S11, Material Suplementar online). No A. thaliana, um aumento fraco, embora significativo, do conteúdo de GC da segunda parte do CDS é observado entre os íntrons curtos e longos (fig. 7 C) Todos esses resultados sugerem que em ambas as espécies, a presença de intron tem um impacto específico no conteúdo de GC da região codificadora que difere de outros tipos de regiões (5 & # x02032-UTR ou regiões codificantes).

Efeito específico do íntron. (UMA, B) Comparação entre genes que diferem pela presença / ausência de um íntron no 5 & # x02032-UTR. Seis bins de distância entre o local de início da transcrição e os locais de início da tradução foram formados para genes sem íntron em UTRs (branco) e genes com um único íntron no 5 & # x02032-UTR (cinza). Para cada caixa, os boxplots mostram o conteúdo de GC da primeira parte do CDS e em ambas as espécies uma diminuição é observada entre UTR sozinho e UTR mais íntron. (UMA) Arabidopsis thaliana: Os testes de sinalização dentro das caixas foram todos significativos (P & # x0003c 0,05, na maioria dos casos P & # x0003c 0,001) exceto para os dois últimos compartimentos. (B) Oryza sativa: Os testes de sinalização dentro das caixas foram todos significativos (P & # x0003c 0,0001 exceto para o último compartimento P & # x0003c 0.01). (C, D) Efeito do limite do comprimento do íntron. Genes sem íntron inserido na UTR foram classificados em dois grupos de acordo com o comprimento de seu primeiro íntron (abaixo de 150 nt: branco acima de 150 nt: cinza) para A. thaliana e (abaixo de 250 nt: branco acima de 250 nt: cinza) para O. sativa. Para cada caixa, os boxplots mostram o conteúdo GC da segunda parte do CDS. (C) Arabidopsis thaliana: Um aumento é observado em genes com íntrons longos, testes de classificação de sinais dentro de caixas sendo todos significativos (P & # x0003c 0,005). (B) Oryza sativa: Uma diminuição é observada em genes com íntrons longos, testes de classificação de sinais dentro de caixas sendo todos significativos (P & # x0003c 0,0001 exceto para o último compartimento P & # x0003c 0,05).

A variação do conteúdo de GC é restrita nas regiões genéticas internas

Apesar de uma grande diferença em seu conteúdo geral de GC, A. thaliana e o arroz exibe tendências comuns. Dentro de cada genoma, íntrons internos ou partes de CDS em genes com alto número de íntrons têm conteúdo de GC semelhante, enquanto as regiões de genes externos são mais ricas em GC do que as regiões internas (fig. 8 UMA e B) De fato, gradientes medianos de conteúdo de GC são quase planos nas regiões internas de genes com muitos íntrons e não diferem entre as duas espécies (fig. 8 UMA para genes com 11 intrões). Da mesma forma, um padrão semelhante é observado para cada posição de códon (fig. 8 B) Em contraste, grandes diferenças entre partes externas de CDS ou íntrons e entre espécies são observadas. Portanto, os íntrons parecem delimitar o espaço do gene em três regiões, uma região interna caracterizada por uma conservação dos níveis de conteúdo de GC entre os genes de um genoma, mas também entre as espécies e duas regiões externas submetidas a outros fatores específicos da espécie. Como todas as posições dos códons formam gradientes ao longo dos genes, pode-se esperar também observar variação nas frequências de códons e aminoácidos ligadas ao número do íntron e classificação ao longo dos genes. Na verdade, existem algumas diferenças entre A. thaliana e arroz em regiões internas de genes para ambas as frequências de códon e aminoácidos, enquanto uma forte diferença para ambos é evidenciada em ambas as extremidades dos genes (fig. 8 C e D) As variações de códons e aminoácidos nas frequências são consistentes com os padrões de variação do conteúdo de GC e variam de acordo com a classificação da parte CDS ao longo do gene de uma maneira dependente do genoma nas regiões gênicas externas, enquanto as regiões gênicas internas tendem a ser semelhantes mesmo entre as espécies.

Comparações de padrões de variação do conteúdo de GC ao longo dos genes dentro e entre os genomas. (UMA) Gradientes no conteúdo médio de GC para a parte CDS (preto) e conteúdo de GC do íntron (cinza) de acordo com a classificação ao longo dos genes em A. thaliana (triângulo e linhas tracejadas) e O. sativa (pontos e linhas simples) em genes com 11 íntrons. (B) GC1 (primeira posição dentro do códon, azul), GC2 (segunda posição dentro do códon, laranja), GCGradientes medianos 3 (terceira posição dentro do códon, verde). Todos os gradientes diferem em amplitude e forma para cada posição dentro dos códons, bem como para todas as posições nt dentro dos códons e introns. As regiões centrais dos gradientes são notavelmente próximas entre as classificações ao longo dos genes e entre as espécies, enquanto as regiões externas diferem notavelmente, especialmente nas regiões 5 & # x02032. (C) Comparações de frequência de códon entre A. thaliana e O. sativa. Cada ponto representa a frequência de um códon para uma determinada parte do CDS e o número do íntron do gene em A. thaliana no x-eixo e O. sativa no y-eixo. (D) Comparações de frequência de aminoácidos entre A. thaliana e O. sativa. Cada ponto representa a frequência de um aminoácido para uma determinada parte do CDS e o número do íntron do gene em A. thaliana no x-eixo e O. sativa no y-eixo. As primeiras partes do CDS são plotadas em preto, a segunda e a última partes do CDS em vermelho e todas as outras partes do CDS são plotadas em cinza.

Para estudar mais as diferentes propriedades das regiões externas e internas, analisamos a variância no conteúdo de GC e as correlações entre as classificações das partes de CDS ao longo dos genes. Observamos uma menor variação no conteúdo de GC para partes CDS internas (fig. 9) e que a variação do conteúdo de GC da parte CDS é menor do que o esperado pelas variações das posições dos três códons assumidas como independentes (ver fig suplementar. S12, Material Suplementar online), sugerindo restrição ao conteúdo do GC. Para estudar as correlações dentro das partes do CDS, calculamos os coeficientes de correlação de Pearson entre o conteúdo do GC em sites sinônimos e não-sinônimos (consulte a definição precisa em Materiais e Métodos). No A. thaliana, as correlações são desprezíveis em genes com baixo número de íntrons, mas tornam-se cada vez mais negativas nas partes internas do CDS à medida que o número de íntrons do gene aumenta (fig. 9 UMA) No arroz, eles variam de amplamente positivos na primeira e segunda partes do CDS a amplamente negativos nas regiões internas de genes com alto número de íntrons (fig. 9 B) A decomposição da variância de CDS indica que essas mudanças no sinal e no valor das correlações ao longo dos genes contribuem para cerca de uma diminuição de um terço nas variações de conteúdo de GC de CDS entre genes com baixo e genes com alto número de íntron em ambas as espécies (ver tabelas suplementares S15 e S16, material suplementar online). Embora correlações positivas entre as posições já tenham sido relatadas (por exemplo, Serres-Giardi et al. 2012), levar adequadamente a estrutura do íntron em consideração revelou um padrão mais complexo ao longo dos genes com correlações negativas nas partes internas do CDS, que não foram documentadas anteriormente, até o momento como sabemos.

SD de conteúdo GC dentro de partes CDS versus correlação entre sites não-sinônimos e sinônimos dentro de classes de números de introns. Os pontos foram substituídos por um número indicando a classificação da parte CDS, as cores indicando o número do íntron do gene (legenda no painel B) Em ambas as espécies, conforme o número do íntron aumenta, os coeficientes de correlação e o SD diminuem para uma determinada classificação. As diminuições no coeficiente de correlação e no SD são mais importantes nas partes internas do CDS. (UMA) Arabidopsis thaliana, todos os coeficientes de correlação são negativos. (B) Oryza sativa, correlation coefficients vary according to intron number and rank from positive (in genes with low intron numbers or in external CDS parts of genes with high intron numbers) to negative (in central regions of genes with high intron numbers).


7,4 Comparative Genomics

The final method for understanding a genome sequence that we will consider is comparative genomics. We have already seen how similarities between homologous genes from different organisms provide one way of assigning a function to an unknown gene (Section 7.2.1). This is an example of how knowledge about the genome of one organism can help in understanding the genome of a second organism. The possibility that a more general comparison with other genomes might be a valuable means of deciphering the human sequence was recognized when the Human Genome Project was planned in the late 1980s, and the Project has actively stimulated the development of genome projects for model organisms such as the mouse and fruit fly. In this section we will explore the extent to which comparisons between different genomes are proving useful.

7.4.1. Comparative genomics as an aid to gene mapping

The basis of comparative genomics is that the genomes of related organisms are similar. The argument is the same one that we considered when looking at homologous genes (Section 7.2.1). Two organisms with a relatively recent common ancestor will have genomes that display species-specific differences built onto the common plan possessed by the ancestral genome. The closer two organisms are on the evolutionary scale, the more related their genomes will be (Nadeau and Sankoff, 1998).

If the two organisms are sufficiently closely related then their genomes might display synteny, the partial or complete conservation of gene order. Then it is possible to use map information from one genome to locate genes in the second genome. At one time it was thought that mapping the genomes of the mouse and other mammals, which are at least partially syntenic with the human genome, might provide valuable information that could be used in construction of the human genome map. The problem with this approach is that all the close relatives of humans have equally large genomes that are just as difficult to study, the only advantage being that a genetic map is easier to construct with an animal which, unlike humans, can be subjected to experimental breeding programs (Section 5.2.4). Despite the limitations of human pedigree analysis, progress has been more rapid in mapping the human genome than in mapping those of any of our close relatives, so in this respect comparative genomics is proving more useful in mapping the animal genomes rather than our own. This in itself is a useful corollary to the Human Genome Project because it is revealing animal homologs of human genes involved in diseases, providing animal models for the study of these diseases.

Mapping is significantly easier with a small genome than with a large one. This means that if one member of a pair of syntenic genomes is substantially smaller than the other, then mapping studies with this small genome are likely to provide a real boost to equivalent work with the larger genome. The pufferfish, Fugu rubripes, has been proposed in this capacity with respect to the human genome. The pufferfish genome is just 400 Mb, less than one-seventh the size of the human genome but containing approximately the same number of genes. The mapping work carried out to date with the pufferfish indicates that there is some similarity with the human gene order, at least over short distances. This means that it should be possible, to a certain extent, to use the pufferfish map to find human homologs of pufferfish genes, and vice versa. This may be useful in locating undiscovered human genes, but holds greatest promise in identifying essential sequences such as promoters and other regulatory signals upstream of human genes. This is because these signals are likely to be similar in the two genomes, and recognizable because they are surrounded by non-coding DNA that has diverged quite considerably by random mutations (Elgar et al., 1996 Hardison, 2000).

One area where comparative genomics has a definite advantage is in the mapping of plant genomes. Wheat provides a good example. Wheat is the most important food plant in the human diet, being responsible for approximately 20% of the human calorific intake, and is therefore one of the crop plants that we most wish to study and possibly manipulate in the quest for improved crops. Unfortunately, the wheat genome is huge at 16 000 Mb, five times larger than even the human genome. A small model genome with a gene order similar to that of wheat would therefore be useful as a means of mapping desirable genes which might then be obtained from their equivalent positions in the wheat genome. Wheat, and other cereals such as rice, are members of the Gramineae, a large and diverse family of grasses. The rice genome is only 430 Mb, substantially smaller than that of wheat, and there are probably other grasses with even smaller genomes. Comparative mapping of the rice and wheat genomes has revealed many similarities, and the possibility therefore exists that genes from the wheat genome might be isolated by first mapping the positions of the equivalent genes in a smaller Gramineae genome (Gura, 2000).

7.4.2. Comparative genomics in the study of human disease genes

One of the main reasons for sequencing the human genome is to gain access to the sequences of genes involved in human disease. The hope is that the sequence of a disease gene will provide an insight into the biochemical basis of the disease and hence indicate a way of preventing or treating the disease. Comparative genomics has an important role to play in the study of disease genes because the discovery of a homolog of a human disease gene in a second organism is often the key to understanding the biochemical function of the human gene. If the homolog has already been characterized then the information needed to understand the biochemical role of the human gene may already be in place if it has not been characterized then the necessary research can be directed at the homolog.

To be useful in the study of disease-causing genes, the second genome does not need to be syntenic with the human genome, nor even particularly closely related. Drosófila holds great promise in this respect, as the phenotypic effects of many Drosófila genes are well known, so the data already exist for inferring the mode of action of human disease genes that have homologs in the Drosófila genome (Guffanti et al., 1997). But the greatest success has been with yeast. Several human disease genes have homologs in the S. cerevisiae genome (Table 7.2). These disease genes include ones involved in cancer, cystic fibrosis, and neurological syndromes, and in several cases the yeast homolog has a known function that provides a clear indication of the biochemical activity of the human gene. In some cases it has even been possible to demonstrate a physiological similarity between the gene activity in humans and yeast. For example, the yeast gene SGS1 is a homolog of a human gene involved in the diseases called Bloom's and Werner's syndromes, which are characterized by growth disorders. Yeasts with a mutant SGS1 gene live for shorter periods than normal yeasts and display accelerated onset-of-aging indicators such as sterility (Sinclair et al., 1997). The yeast gene has been shown to code for one of a pair of related DNA helicases that are required for transcription of rRNA genes and for DNA replication (Lee et al., 1999). The link between SGS1 and the genes for Bloom's and Werner's syndromes, provided by comparative genomics, has therefore indicated the possible biochemical basis of the human diseases.

Table 7.2

Examples of human disease genes that have homologs in Saccharomyces cerevisiae.


Reconhecimentos

We thank all members of the science teams and RV Oceanus crew of BOWLS cruises OC1304A and OC1406B for help at sea. Thanks also to Dr. Michael Reuscher for the identification of ampharetids. AFB was supported by a CNPq PDE grant 200504/2015-0. This work was supported by US National Science Foundation grant no. OCE-1155703 to CRS and no. OCE-1155188 to KMH for the BOWLs project and DEB-1036537 for the WormNet II project. This is Molette Biology Laboratory contribution 62 and Auburn University Marine Biology Program contribution 155.


Materials and Methods

Genomic Data Sources

Data sources and parameters are available in supplementary table S1 , Supplementary Material online.

Genomic scaffolds and annotations for Ciona intestinalis ( Dehal et al. 2002), Branchiostoma floridae ( Putnam et al. 2008), Trichoplax adherens ( Srivastava et al. 2008), Capitella teleta ( Simakov et al. 2013), Lottia gigantea ( Simakov et al. 2013), Helobdella robusta ( Simakov et al. 2013), Saccoglossus kowalevskii ( Simakov et al. 2015), Monosiga brevicollis ( King et al. 2008), Emiliania huxleyi ( Read et al. 2013), and Volvox carteri ( Prochnik et al. 2010) were downloaded from the JGI genome portal.

Genome assemblies and annotations for Sphaeroforma arctica, Capsaspora owczarzaki ( Suga et al. 2013) and Salpingoeca rosetta ( Fairclough et al. 2013) were downloaded from the Broad Institute.

GFF annotations v2.1 ( Fernandez-Valverde et al. 2015) for Amphimedon queenslandica were downloaded from the Amphimedon Genome website (http://amphimedon.qcloud.qcif.edu.au/downloads.html), and v1 annotations ( Srivastava et al. 2010) and assemblies were downloaded from Ensembl.

Para Nematostella vectensis, Nemve1 assembly and annotations ( Putnam et al. 2007) were downloaded from JGI, and the transcriptome for comparative reannotation was downloaded from http://www.cnidariangenomes.org/ ( Moran et al. 2014).

Genome assembly, transcriptome assemblies from Cufflinks and Trinity, and GFF annotations for Mnemiopsis leidyi ( Ryan et al. 2013) were downloaded from the Mnemiopsis Genome Portal (http://research.nhgri.nih.gov/mnemiopsis/). Assembly and annotations for Sycon ciliatum ( Fortunato et al. 2014) were downloaded from COMPAGEN. Assembly and annotation for Botryllus schlosseri ( Voskoboynik et al. 2013) were downloaded from the Botryllus Schlloseri genome project (http://botryllus.stanford.edu/botryllusgenome/). Assembly and annotation for Exaiptasia pallida (anteriormente Aiptasia sp.) ( Baumgarten et al. 2015) were downloaded from http://reefgenomics.org. Assembly and annotation for Oikopleura dioica ( Denoeud et al. 2010) were downloaded from Genoscope (http://www.genoscope.cns.fr/externe/GenomeBrowser/Oikopleura/). Assembly and annotation for Tetrahymena thermophila were downloaded from the Tetrahymena Genome Database (ciliate.org). Assembly and annotation for Symbiodinium kawagutii ( Lin et al. 2015) were downloaded from the Dinoflagellate Resources page (web.malab.cn/symka_new/index.jsp).

Assemblies and annotations for Symbiodinium minutum ( Shoguchi et al. 2013), Pinctada fucata ( Takeuchi et al. 2012), Acropora digitifera ( Shinzato et al. 2011), Lingula anatina ( Luo et al. 2015), Ptychodera flava ( Simakov et al. 2015), and Octopus bimaculoides ( Albertin et al. 2015) were downloaded from the OIST Marine Genomics Browser (http://marinegenomics.oist.jp/gallery/).

Builds of Homo sapiens, Pan troglodytes, Mus musculus, Canis lupus ( Kirkness 2003), Monodelphis domestica ( Mikkelsen et al. 2007), Ornithorhynchus anatinus ( Warren et al. 2008), Xenopus tropicalis ( Hellsten et al. 2010), Struthio camelus ( Zhang et al. 2014), Gallus gallus, Taeniopygia guttata ( Warren et al. 2010), Aptenodytes forsteri ( Zhang et al. 2014), Anas platyrhynchos ( Huang et al. 2013), Melopsittacus undulatus ( Ganapathy et al. 2014), Alligator mississippiensis ( Green et al. 2014), Anolis carolinensis ( Alföldi et al. 2011), Chrysemys picta bellii ( Shaffer et al. 2013), Chelonia mydas ( Wang et al. 2013), Pelodiscus sinensis ( Wang et al. 2013), Python bivittatus ( Koning et al. 2013), Salmo salar, Danio rerio ( Howe et al. 2013), Latimeria chalumnae ( Amemiya et al. 2013), Petromyzon marinus ( Smith et al. 2013), Callorhinchus milii ( Venkatesh et al. 2014), Crassostrea gigas ( Zhang et al. 2012), Dendroctonus ponderosae ( Keeling et al. 2013), Tribolium castaneum ( Richards et al. 2008), Bombyx mori ( Mita et al. 2004), Limulus polyphemus ( Nossa et al. 2014) were downloaded from the NCBI Genome server.

Genome assemblies and annotations of Caenorhabditis elegans ( The C. elegans Sequencing Consortium 1998), Drosophila melanogaster, Strongylocentrotus purpuratus ( Sodergren et al. 2006), Daphnia pulex ( Colbourne et al. 2011), Apis mellifera ( Weinstock et al. 2006), Ixodes scapularis ( Gulia-Nuss et al. 2016), Strigamia maritima ( Chipman et al. 2014) were downloaded from Ensembl.

Calculation of Exonic and Genic Sequence

For all analyses, we used the total number of bases in the downloaded assembly as the total genome size, bearing in mind that this may result in a systematic underestimation of total genome size as repeated regions may be omitted from assemblies. For example, the horseshoe crab L. polyphemus has a scaffold assembly of 1.8 Gb while the reported genome size is 2.7 Gb ( Nossa et al. 2014), a difference of almost a gigabase.

If GFF format files were available for download with a genome project, or on databases (Ensembl or NCBI), those were used preferentially. The analysis procedure is described in figure 1. Total base pairs of exon, intron, intergenic, and gaps were counted from each GFF file and genomic contigs (or scaffolds) with a custom Python script (gtfstats.py, available at bitbucket.org/wrf/sequences). For calculations of exonic or genic bases, the script converts all gene and exon annotations to intervals and ignores the strand. Here, gene (or genic) is defined as transcribed bases that are either exon or intron, regardless of coding potential. All overlapping exon intervals are merged, meaning that alternative splice sites, or exons on the opposite strand, are treated as a single interval for bulk calculations. The same is done for genes or transcripts, whichever is available. Introns are calculated as the difference of the genic set and the exonic set, as introns are typically not defined as separate features in normal GFF files. This means that any sequence that is an exon on one strand and an intron on the other is treated for these calculations as an exon, meaning those base or their reverse complement (hence base pairs) are transcribed and retained following splicing in some case ( fig. 1D and E). Intergenic sequence is defined as the difference between total sequence base pairs and genic base pairs, and gaps are defined as any repeats of ‘N’s longer than one base.

—Schematic of analysis, misannotations and the effects on coding fraction. (UMA) In a normal case, two hypothetical genes on the same strand are identified. The exons and introns are defined, and the total lengths of those features are summed and displayed in the bars below. Because real genome assemblies can often contain gaps, sample gaps are also shown at the edges of the segment. (B) Case of missing exon or gene annotations, where the intron:intergenic decreases. (C) Case of falsely fused genes, where the intron:intergenic ratio would increase. (D) Case of antisense transcription, where base pairs that are intron on the sense strand and exon on the antisense strand are necessarily defined as exon. (E) Any arbitrary, interleaved genes, or any exons inside of introns, must as well be counted as exon.

—Schematic of analysis, misannotations and the effects on coding fraction. (UMA) In a normal case, two hypothetical genes on the same strand are identified. The exons and introns are defined, and the total lengths of those features are summed and displayed in the bars below. Because real genome assemblies can often contain gaps, sample gaps are also shown at the edges of the segment. (B) Case of missing exon or gene annotations, where the intron:intergenic decreases. (C) Case of falsely fused genes, where the intron:intergenic ratio would increase. (D) Case of antisense transcription, where base pairs that are intron on the sense strand and exon on the antisense strand are necessarily defined as exon. (E) Any arbitrary, interleaved genes, or any exons inside of introns, must as well be counted as exon.

If exons are not specified, then coding sequences (CDS) are used instead if they are available, such as for AUGUSTUS predictions. Additional noncoding features such as “microRNA,” “tRNA,” “ncRNA” are included for gene and exon calculations if they were in the standard GFF3 format. Some genomes made use of mapped RNAseq data, which implicitly included all noncoding RNAs as well. Some annotations had to determine the gene ID from the exons. For example, most of the GTF files from the earlier JGI genomes had only exons annotated, without individual features for genes or mRNAs, so the gene was then defined as all of the exons with the same feature ID even though a specific gene feature was undefined.

Exons defined as part of a “pseudogene,” or genes defined as pseudogenes, were also excluded from all counts. We justify this because pseudogenes are subject to problems of definitions and population sampling bias. Pseudogenes are defined as having the appearance or structure of normal protein coding genes, independent of transcriptional potential, but that would be unable to produce a functional protein, perhaps through nonsense mutations. Therefore, a pseudogene that is transcribed and cannot code for a protein should be annotated as a “transcribed pseudogene,” though potentially could be a noncoding RNA. Pseudogene features are not annotated for all species, making it difficult to compare broadly. Additionally, for most nonmodel species, the genomes are generally based upon a single individual rather than a reference for a population based on a large number of individuals. Therefore, if that single individual was homozygous for a nonsense mutation but other individuals in the population were not, that gene should not be a pseudogene.

All downstream correlation calculations and graphs were done in R. Regression was calculated using the “lm()” function, for linear (yx), exponential (log(y) ∼x), or hyperbolic (y ∼1/x) models, and the “predict()” function was used to model curves. The raw data table and the R source code used to generate figures are available at bitbucket.org/wrf/genome-reannotations.

Calculation of Average Exon and Intron Length

The same script (gtfstats.py, available at bitbucket.org/wrf/sequences) also calculated the average exon and intron length, though these were analyzed separately. All nonredundant exons for all splice variants were taken into account for determination of averages. Unlike the total base pair calculations, genes are separated by strand. Identical exons of splice variants were treated as one exon and counted once, however, alternative boundaries were treated as a separate exons. Retained introns are treated as exons, not introns. Exon lengths were counted per nonredundant exon for each gene, summed across all genes and divided by the number of nonredundant exons across all genes. The sum of exon lengths for the average length calculation does include redundant bases from antisense transcripts or splice variants, meaning bases from antisense transcripts and alternative-boundary splice variants can be double-counted. Introns were calculated as the space between exons, calculated by gene.

Reannotation of Select Species

Due to unexpectedly high or low gene content, six genomes were selected for reannotation.

The original Triad1 scaffolds of T. adherens ( Srivastava et al. 2008) were reannotated with AUGUSTUS v3.0.3 ( Stanke et al. 2008) with the following options: -strand = both –genemodel = atleastone –sample = 100 –keep_viterbi = true –alternatives-from-sampling = true –minexonintronprob = 0.2 –minmeanexonintronprob = 0.5 –maxtracks = 2. Species training was generated using the Triad1 ESTs with the webAugustus Training server ( Hoff and Stanke 2013).

The original Monbr1 scaffolds of M. brevicollis ( King et al. 2008) were reannotated with AUGUSTUS as for T. adherens, using the same parameters except trained using the Monbr1 ESTs with the webAugustus Training server ( Hoff and Stanke 2013).

For the hydrozoan H. magnipapillata, the original assembly was downloaded from JGI ( Chapman et al. 2010) and a new scaffold assembly was downloaded from the FTP of Rob Steele at UC Irvine (at https://webfiles.uci.edu/resteele/public). For both cases, the scaffolds were reannotated using TopHat22 v2.0.13 ( Kim et al. 2013) and StringTie v1.0.4 ( Pertea et al. 2015) with default options by mapping the reads from two paired-end RNAseq libraries, NCBI Short Read Archive accessions SRR922615 and SRR1024340, derived from whole adult animals.

For the lancelet B. floridae, the Brafl1 scaffolds ( Putnam et al. 2008) were reannotated using TopHat22 v2.0.13 ( Kim et al. 2013) and StringTie v1.0.4 ( Pertea et al. 2015) with default options by mapping the reads from the paired-end RNAseq library, NCBI SRA accession SRR923751, from the adult body.

For the lamprey P. marinus, we were unable to find any annotation as GFF or GTF, so we generated one using TopHat2 v2.0.13 ( Kim et al. 2013) and StringTie v1.0.4 ( Pertea et al. 2015) based on the Pmarinus-v7 scaffolds from NCBI and the 16 single-end Illumina libraries from NCBI BioProject PRJNA50489.

For the octopus O. bimaculoides, scaffolds were downloaded from the OIST Marine Genomics platform ( Albertin et al. 2015), and were reannotated using TopHat2 v2.0.13 ( Kim et al. 2013) and StringTie v1.0.4 ( Pertea et al. 2015) with default options by mapping 19 paired-end RNAseq libraries from NCBI BioProject PRJNA285380.

All reannotations are available for download as GTF or GFF files (see https://bitbucket.org/wrf/genome-reannotations/downloads).


Diamonds in the rough: DNA60 in Genome Biology

One of the most wonderful things about science, to my mind, is the way its fundamental principles are simultaneously both universal and personal. Quantum physics helps to explain the nature of grandiose concepts such as time and space, but it also applies to the insignificant particles that make up my own cells. Equally, within these very cells, at any moment, biological processes newly reported in the literature are taking place, as are those that have yet to be discovered.

Life's secret
For this reason, when I look at one of the beautiful X-ray diffraction photos taken by Rosalind Franklin and her PhD student Ray Gosling in the early 1950s, from painstaking work performed on calf thymus samples in gloomy basements by the banks of the River Thames, I know that my own DNA could produce just such an image: the stark, spotty diamond patterns that tell the secret of the double helix – and, with it, the secret of life itself.

Today is DNA60, the 60th anniversary of the three seminal Natureza papers that first described DNA's double helical nature. Watson and Crick's paper – the best known of the three – presented the double helix model of DNA’s structure, astounding in its simplicity and elegance. Most of all, the paper was shocking because the structure itself revealed the mode of genetic replication, and in doing so proved beyond doubt that DNA was the stuff of genes, the chemical of genetic inheritance. Nature is rarely so kind in its revelations, and seldom so memorable.

Rosalind Franklin, Ray Gosling and the King's version of the double helix story
Also remarkable in Watson and Crick's paper was the total absence of experimental data instead, they had used X-ray diffraction data generated by Franklin and Gosling as the basis for their model. These data were published in an accompanying paper, and so acquired parity of sorts in the literature, but Watson and Crick had very much won the race to the double helix.

It's often said that, well – to the victor the spoils! And so it was with DNA: Watson wrote a book that became the best known account of the double helix's discovery. Many years later, however, a different perspective, by Rosalind Franklin's biographer, attracted some attention and, as a result, more emphasis is now placed on the role of Franklin and her colleagues at King's College London.

On this, the 60th anniversary, Biologia Genômica publishes yet another account of the story, that of Ray Gosling, Franklin's PhD student. Gosling describes how he was the first person to crystallize DNA, before Franklin was even involved in the project. What had been fuzzy patterns were suddenly dazzling diamonds, and it's an image that leaves Gosling in awe to this day.

Over at Biome, you can listen to an audio excerpt of our interview with Gosling, in which he describes – with some amusement – a trip made by the King's DNA team to Cambridge, where they viewed Watson and Crick's lesser known first model. As Franklin was very quick to point out, this beginner's attempt contained a number of major errors.

DNA: past, present and future
As a further celebration of DNA60, we canvassed our Editorial Board members for their most memorable moments in the field of genome biology since the double helix. The clear emergence of introns as a favorite discovery will no doubt be pleasing to those nostalgic for the pre-omics days of classical biology, and you can read a free excerpt of this section of the article at Biome.

Outside of introns, selections included the human and mouse genome projects and sequencing technologies. Recent improvements in the sensitivity of the latter of these has of course brought about the era of the data deluge and a high demand for bioinformaticians. So how better to round off our honoring of DNA Day than with a 5-step DNA60IFX Bioinformatics Challenge?

Atualizar: The winners of our DNA60IFX Bioinformatics Challenge were announced at 8 pm Eagle Time, DNA Day. Although the challenge has now concluded, we've left the puzzles open for anyone who would like to try them out for fun. For more info, please see the Challenge homepage.

Veja também: We reviewed the Wellcome Trust's special DNA60 conference, 'Genomic Disorders 2013: From 60 years of DNA to human genomes in the clinic', here.


Number of introns in a genome - Biology

We have already examined the great diversity in genome sizes across the living world (see Table in the vignette on “How big are genomes?”). As a first step in refining our understanding of the information content of these genomes, we need a sense of the number of genes that they harbor. When we refer to genes we will be thinking of protein-coding genes excluding the ever-expanding collection of RNA coding regions in genomes.

Figure 1: Number of genes as a function of genome size. The figure shows data for a variety of bacteria and archaea, with the slope of the data line confirming the simple rule of thumb relating genome size and gene number. (Adapted from M. Lynch, The Origins of Genome Architecture.)

Over the whole tree of life, though genome sizes differ by as much as 8 orders of magnitude (from <2 kb for Hepatitis D virus (BNID 105570) to >100 Gbp for the Marbled lungfish (BNID 100597) and certain Fritillaria flowers (BNID 102726)), the range in the number of genes varies by less than 5 orders of magnitude (from viruses like MS2 and QB bacteriophages having only 4 genes to about one hundred thousand in wheat). Many bacteria have several thousand genes. This gene content is proportional to the genome size and protein size as shown below. Interestingly, eukaryotic genomes, which are often a thousand times or more larger than those in prokaryotes, contain only an order of magnitude more genes than their prokaryotic counterparts. The inability to successfully estimate the number of genes in eukaryotes based on knowledge of the gene content of prokaryotes was one of the unexpected twists of modern biology.

Table 1: A comparison between the number of genes in an organism and a naïve estimate based on the genome size divided by a constant factor of 1000bp/gene, i.e. predicted number of genes = genome size/1000. One finds that this crude rule of thumb works surprisingly well for many bacteria and archaea but fails miserably for multicellular organisms.

The simplest estimate of the number of genes in a genome unfolds by assuming that the entirety of the genome codes for genes of interest. To make further progress with the estimate, we need to have a measure of the number of amino acids in a typical protein which we will take to be roughly 300, cognizant however of the fact that like genomes, proteins come in a wide variety of sizes themselves as is revealed in the vignette on that topic, ”what are the sizes of proteins?”. On the basis of this meager assumption, we see that the number of bases needed to code for our typical protein is roughly 1000 (3 base pairs per amino acid). Hence, within this mindset, the number of genes contained in a genome is estimated to be the genome size/1000. For bacterial genomes, this strategy works surprisingly well as can be seen in table 1 and Figure 1. For example, when applied to the E. coli K-12, genome of 4.6 x 10 6 bp, this rule of thumb leads to an estimate of 4600 genes, which can be compared to the current best knowledge of this quantity which is 4225. In going through a dozen representative bacteria and archeal genomes in the table a similarly striking predictive power to within about 10% is observed. On the other hand, this strategy fails spectacularly when we apply it to eukaryotic genomes, resulting for example in the estimate that the number of genes in the human genome should be 3,000,000, a gross overestimate. The unreliability of this estimate helps explain the existence of the Genesweep betting pool which as recently as the early 2000s had people betting on the number of genes in the human genome, with people’s estimates varying by more than a factor of ten.

Figure 2: The different sequence components making up the human genome. About 1.5% of the genome consists of the ≈20,000 protein-coding sequences which are interspersed by the non coding introns, making up about 26%. Transposable elements are the largest fraction (40-50%) including for example long interspersed nuclear elements (LINEs), and short interspersed nuclear elements (SINEs). Most transposable elements are genomic remnants, which are currently defunct. (BNID 110283, Adapted from T. R. Gregory Nat Rev Genet. 9:699-708, 2005 based on International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409:860 2001.)

What explains this spectacular failure of the most naïve estimate and what does it teach us about the information organized in genomes? Eukaryotic genomes, especially those associated with multicellular organisms, are characterized by a host of intriguing features that disrupt the simple coding picture exploited in the naïve estimate. These differences in genome usage are depicted pictorially in Figure 2 which shows the percentage of the genome used for other purposes than protein coding. As evident in Figure 1, prokaryotes can efficiently compact their protein coding sequences such that they are almost continuous and result in less than 10% of their genomes being assigned to non coding DNA (12% in E. coli, BNID 105750) whereas in humans over 98% (BNID 103748) is non protein coding.

The discovery of these other uses of the genome constitute some of the most important insights into DNA, and biology more generally, from the last 60 years. One of these alternative uses for genomic real estate is the regulatory genome, namely, the way in which large chunks of the genome are used as targets for the binding of regulatory proteins that give rise to the combinatorial control so typical of genomes in multicellular organisms. Another of the key features of eukaryotic genomes is the organization of their genes into introns and exons, with the expressed exons being much smaller than the intervening and spliced out introns. Beyond these features, there are endogenous retroviruses, fossil relics of former viral infections and strikingly, over 50% of the genome is taken up by the existence of repeating elements and transposons, various forms of which can perhaps be interpreted as selfish genes that have mechanisms to proliferate in a host genome. Some of these repeating elements and transposons are still active today whereas others have remained a relic after losing the ability to further proliferate in the genome.

In conclusion, genomes can be partitioned into two main classes: compact and expansive. The former are gene dense, with only about 10% of non-coding region and strict proportionality between genome size and genome number. This group extends to genomes of size up to about 10 Mbp, covering viruses, bacteria, archaea and some unicellular eukaryotes. The latter class shows no clear correlation between genome size and gene number, is composed mostly of non-coding elements and covers all multi-cellular organisms.


Assista o vídeo: TEDxRosario - Claudio Fernandez - Las 3 P: Pasión, Paciencia y Perseverancia (Agosto 2022).