Em formação

Milhares de repórteres integrados em códigos de barras paralelos (TRIP)

Milhares de repórteres integrados em códigos de barras paralelos (TRIP)



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Alguém já trabalhou com a construção de códigos de barras para TRIP? Como funciona a construção de códigos de barras em geral? Não consigo entender o básico da construção desses códigos de barras.


A partir do papel e do manual do usuário, parece que os códigos de barras são sequências aleatórias de comprimento predefinido de 16-20pb ± 1pb. Na etapa de análise de dados, eles são combinados e todos os códigos de barras 2 distância de Hamming (significa que duas palavras têm diferença em uma letra uma da outra) serão descartados da lista de códigos de barras genuínos.


Superpoderes de multiplexação da Octant

A plataforma de triagem de drogas da Octant (nós a chamamos de 'a plataforma') é o núcleo da Octant. Nós não usamos a plataforma apenas para rastrear ligantes químicos para descoberta de drogas, mas também como um desenvolvimento contínuo e infraestrutura de teste para construir nosso próximo conjunto de tecnologias. Esta postagem do blog oferece uma visão geral de alto nível da Plataforma, como tudo começou e como a usamos para racionalizar a descoberta de medicamentos.

Na Octant, criamos biologia para racionalizar a descoberta de medicamentos. Para fazer isso, estamos mapeando milhares de produtos químicos em centenas de receptores celulares e vias de sinalização para criar "perfis químicos" que podem ser usados ​​para tratar doenças complexas (Figura 1). É por isso que inventamos a plataforma de triagem de drogas da Octant, que testa muitos receptores celulares em um único ensaio para sua resposta a uma droga ou outra molécula - em contraste com os ensaios tradicionais que testam cada receptor individualmente em um único poço. Isso nos permite usar uma única condição de droga para informar sobre a atividade de muitos receptores simultaneamente, uma tecnologia que chamamos de "multiplexação". Para colocar isso em perspectiva, digamos que você queira testar 100 receptores celulares contra 100 diferentes condições de drogas em triplicado. 100 receptores x 100 condições x 3 repetições exigiriam 30.000 ensaios de poço único, ou

80 placas de 384 poços. Na Octant, realizamos o mesmo ensaio usando uma única placa de 384 poços.

Figura 1. Fazendo um "perfil químico". Os GPCRs são expressos na superfície celular, com cada célula expressando vários tipos de GPCRs (receptores de exemplo mostrados em rosa, roxo e verde). Cada GPCR sinaliza por meio de uma, e às vezes mais, vias de sinalização downstream para eliciar uma resposta celular (vias de sinalização mostradas como Gi, Gs e Gq). O perfil químico (gráficos à direita) mostra como cada GPCR responde ao ligante (mostrado em círculos azuis) através de cada via de sinalização.


Fundo

Compreender a função do genoma não codificante representa um dos desafios mais significativos e pendentes após a conclusão do projeto do genoma humano [1]. Uma função crítica que está principalmente associada a regiões não codificantes é regular a transcrição de genes próximos pela interação com fatores de transcrição e outras proteínas e por meio do recrutamento do complexo de RNA polimerase [2, 3]. Duas das principais classes de regiões regulatórias consistem em promotores (que são proximais ao local de início da transcrição do respectivo gene) e intensificadores (elementos distais), ambos demonstrando abrigar muitas mutações relacionadas à doença [4, 5]. O delineamento dessas regiões críticas em uma escala ampla do genoma tem tradicionalmente baseado em características associadas à cromatina que são indicativas de atividade regulatória, como acetilação ou metilação de certos resíduos ao longo das caudas de histonas [1]. No entanto, esta abordagem não fornece evidência direta para a atividade reguladora, nem a dependência desta atividade putativa no contexto celular ou na presença de mutações.

Avanços recentes em ensaios repórter abordam esta questão em um conjunto de procedimentos apelidados de ensaios repórter massivamente paralelos (MPRAs) [6, 7]. Nestes ensaios, uma construção de DNA sintético que contém uma unidade de transcrição mínima é introduzida nas células. Cada uma dessas construções é geralmente composta por uma sequência reguladora candidata de interesse, um promotor mínimo e um "código de barras" de DNA único que pode ser transcrito. As sequências candidatas são consideradas capazes de regular a transcrição da sequência de código de barras de forma semelhante a como uma sequência nativa pode regular a transcrição de seu gene alvo. As células, então, passam por sequenciamento de RNA e DNA para medir tanto as contagens de transcritos de RNA quanto as contagens de construções de DNA, e a proporção de RNA para DNA é usada para estimar a taxa de transcrição de cada código de barras. Contar com repórteres baseados em sequência aproveita o vasto espaço combinatório de sequências únicas (em vez de um conjunto limitado de repórteres fluorescentes [8]) e utiliza o sequenciamento de próxima geração para medir a atividade de milhares de sequências regulatórias putativas em um único experimento. Para garantir robustez, cada sequência regulatória candidata é geralmente associada a vários códigos de barras (& lt10 a mais de 100, dependendo do estudo).

Os MPRAs podem ser usados ​​para abordar várias questões importantes. Em estudos de classificação, os MPRAs são usados ​​para identificar quais regiões regulatórias putativas estão de fato induzindo a transcrição (embora em um contexto sintético) [9, 10]. Em estudos de comparação alélica, os MPRAs são usados ​​para quantificar o efeito que variações na sequência de regiões regulatórias podem ter sobre sua capacidade de regular a transcrição. Esta abordagem é utilizada principalmente para estudar o efeito de polimorfismos genéticos que são observados em humanos [11-13], mas também para explorar questões científicas mais básicas, como o efeito de perturbar o conteúdo da sequência, espaçamento ou número de sítios de ligação do fator de transcrição [13-15]. Em estudos comparativos, os MPRAs são utilizados para quantificar a dependência entre a atividade regulatória de cada sequência e o contexto celular, comparando tecidos [16], linhagens celulares [11] ou outras condições de interesse [17]. Uma combinação de dois ou mais tipos de estudo também é possível por meio de projetos experimentais mais complexos, por exemplo, medindo a interação entre alelos e condições [12].

Apesar da crescente popularidade dos MPRAs, a maioria dos estudos até agora contam com abordagens de análise que descontam o ruído inerente nos dados (por exemplo, tomando uma proporção média em todos os códigos de barras) ou projetadas para outras modalidades de dados (como DESeq2 [18], normalmente usado para dados de RNA-seq, cujas suposições subjacentes podem não ser verdadeiras para MPRA). Outros métodos de análise MPRA abordam apenas alguns dos tipos de questões que os MPRAs podem abordar, como QuASAR-MPRA [19] e mpralm [20] que apenas realizam análises comparativas e dependem de estatísticas de resumo baseadas em razão que limitam o poder estatístico fornecido em esses experimentos. Para resolver isso, desenvolvemos o MPRAnalyze - uma estrutura estatística que aproveita as informações de vários códigos de barras para garantir uma análise robusta dos dados do MPRA. A seguir, demonstramos o uso de MPRAnalyze para as três tarefas de análise primárias listadas acima e comparamos seu desempenho com as abordagens existentes usando uma coleção de conjuntos de dados publicados. MPRAnalyze está disponível como um pacote R através do Bioconductor [21].


Resultados

Fundamentos metodológicos de CHiCAGO

Um modelo de fundo de convolução para dados Hi-C

Os níveis de fundo em CHi-C diminuem conforme a distância genômica entre a isca e a outra extremidade aumenta (Fig. 3), como em outros métodos 3C / Hi-C-like [6–10, 12, 13, 16, 17]. É geralmente aceito que este efeito reflete a redução na frequência de colisões aleatórias entre fragmentos genômicos devido ao movimento browniano restrito da cromatina, de uma maneira consistente com simulações de dinâmica molecular [18]. Modelamos as contagens de leitura decorrentes dessas “colisões brownianas” como uma variável aleatória binomial negativa cujos níveis esperados são uma função da distância genômica, com ajuste adicional para viés resultante das propriedades de fragmentos individuais.

Leia as distribuições de contagem em experimentos CHi-C típicos e ajuste ao modelo de fundo CHiCAGO. Histogramas mostrando distribuições de contagem de leitura para pares de fragmentos abrangendo diferentes intervalos de distância (± 20 kb) em uma réplica biológica de GM12878 (deixou) e mESC (direito) Dados CHi-C. Linhas sólidas indicar distribuições de contagem esperadas de acordo com o modelo de fundo CHiCAGO. A distribuição esperada foi derivada tomando amostras do modelo nulo e, em seguida, suavizando o kernel do histograma resultante para formar uma curva para fins de visualização

Além das colisões brownianas, o fundo em CHi-C é gerado por artefatos de ensaio, como erros de sequenciação. Modelamos esse componente de “ruído técnico” como uma variável aleatória de Poisson, cuja média depende das propriedades dos fragmentos em interação, mas é independente da distância genômica entre eles.

Além disso, assumimos que essas duas fontes de contagens de fundo são independentes. Portanto, a distribuição de fundo combinada pode ser obtida como uma convolução de distribuições binomial negativa (colisões brownianas) e Poisson (ruído técnico) que é conhecida como distribuição Delaporte.

Primeiro, construímos essa distribuição nula a partir dos dados de maneira robusta, com base em todos os pares de fragmentos possíveis (incluindo aqueles que têm contagem de leitura zero observada). Em seguida, encontramos os pares com contagens que excedem em muito o nível de fundo esperado (Fig. 2, conforme descrito na próxima seção). A especificação matemática completa do algoritmo é fornecida no arquivo adicional 1.

Estimativa de fundo em matrizes de interação assimétricas

Uma vantagem prática do modelo de plano de fundo de dois componentes é que os fatores brownianos e de normalização técnica podem ser estimados em subconjuntos separados de dados, cada um dos quais representando predominantemente apenas um componente de plano de fundo.

A dependência dos níveis de fundo na distância entre os fragmentos é particularmente aparente em distâncias genômicas relativamente curtas (até

1–2 Mb), onde as contagens de leitura excedem consideravelmente aquelas observadas em intervalos mais longos e para trans-interações cromossômicas. Assim, dentro desta faixa, as contagens decorrentes de colisões brownianas predominam sobre o ruído técnico e, portanto, o componente browniano pode ser estimado ignorando-se o ruído técnico. Ao emprestar informações em todas as interações neste intervalo de distância, podemos inferir os parâmetros do componente browniano com precisão (Fig. 4 Arquivo adicional 2: Figura S1). Seguimos Imakaev et al. [8] ao assumir que vieses de nível de fragmento têm um efeito multiplicativo nas contagens de leitura esperadas para cada par de fragmentos. No entanto, estimamos fatores de polarização “específicos da isca” e “específicos da outra extremidade” de forma diferente, explicando a assimetria das matrizes de interação CHi-C.

Fontes de contagens de fundo e enviesamentos explicados pelo modelo CHiCAGO, ilustrado com dados GM12878. umac Diferentes fatores que o componente de fundo browniano modela: uma polarização específica de isca multiplicativa (são mostrados três perfis de distância representativos para três valores diferentes do fator de polarização específico de isca) b dependência da distância, plotada em uma escala log-log c tendência multiplicativa de outra extremidade (cada barra representa um conjunto de outras extremidades definidas por um intervalo de trans- pares de leitura cromossômica acumulados entre si nas interações de isca a isca são agrupados separadamente). d O ruído técnico é estimado separadamente para cada combinação de isca e pools de outras extremidades, com associação de pool definida pelo número de acumulados trans- pares de leitura cromossômica. Aqui, mostramos as estimativas de nível de ruído técnico para cada combinação de piscina de isca-outra extremidade, agrupadas por piscina de isca

Os fatores específicos da isca refletem os preconceitos técnicos de ambos Hi-C e captura de sequência, bem como efeitos locais, como acessibilidade à cromatina. Estimamos esses fatores de forma robusta à presença de uma pequena fração de interações nos dados. A Figura 4a fornece exemplos de três iscas com fatores de polarização muito diversos, ilustrando que o enriquecimento de leitura local se correlaciona com o fator de polarização.

Estimar outros fatores de polarização específicos do fim representa um desafio, já que a maioria das interações é removida no estágio de captura que enriquece apenas um pequeno subconjunto de interações com iscas. Assumimos que a contagem geral de leitura no nível do fragmento correspondente a trans-pares cromossômicos refletem principalmente o "ruído" geral de um fragmento (uma abordagem semelhante foi feita de forma independente em Dryden et al. [6]). Embora não excluamos a presença de indivíduos trans- sinais de interação cromossômica, nosso raciocínio de que os níveis gerais por fragmento de trans-pares cromossômicos são dominados por ruído é apoiado por evidências de Hi-C e dados de controle de ligadura aleatórios (arquivo adicional 2: Figura S2). Portanto, agrupamos os fragmentos de acordo com esta propriedade e estimamos os fatores de polarização para cada agrupamento. Como esperado, os fatores de polarização são maiores para fragmentos associados a um maior número de trans- pares de leitura cromossômica (Fig. 4c). Da mesma forma, as iscas detectadas nas "outras extremidades" dos pares isca a isca tinham níveis de fundo mais elevados do que as não iscas, como esperado, dada a recuperação preferencial de produtos de ligação "dupla isca" na fase de captura.

Em paralelo, calculamos a dependência entre o componente de fundo browniano e a distância cromossômica linear (representada na Fig. 4b para dados GM12878 CHi-C). Percebe-se que essa dependência segue aproximadamente uma lei de potência por partes, consistente com estudos anteriores sobre o assunto, tanto teóricos quanto experimentais [18, 19]. Mostramos ainda por validação cruzada que a estimativa desta dependência é estável (Arquivo adicional 2: Figura S3) e, portanto, improvável de ser influenciada por sinais específicos de isca ou de interação.

Para estimar a magnitude do ruído técnico, usamos novamente o total por fragmento trans- pares de leitura cromossômica (consulte “Métodos”). Ao fazer isso, assumimos que a contribuição de sinais verdadeiros de trans- interações cromossômicas de looping, bem como de colisões brownianas entre cromossomos para o total trans-contagens cromossômicas, é insignificante pelas razões descritas acima (arquivo adicional 2: Figura S2). De fato, como vemos na Fig. 4d, o nível esperado de ruído técnico é tipicamente uma pequena fração de uma contagem.

Os parâmetros estimados de ambos os componentes de fundo são então combinados na distribuição Delaporte. No arquivo adicional 2: Figura S4, mostramos evidências de que os procedimentos de estimativa de parâmetros de CHiCAGO são robustos na presença de subamostragem. As implicações da subamostragem nos dados de CHi-C são examinadas posteriormente na "Discussão". Após a normalização apropriada e correção de viés, detectamos pares de fragmentos mostrando cobertura de leitura maior do que o esperado sob as suposições de Delaporte com um teste de hipótese unilateral.

Correção de teste múltiplo ponderado para Capture Hi-C

Para um genoma típico de mamífero, testamos bilhões de hipóteses - uma para cada possível par de isca e outra extremidade. Como resultado, o p os valores devem ser corrigidos para levar em conta vários testes. Os procedimentos de teste múltiplo padrão presumem que as interações são igualmente prováveis ​​em todas as distâncias. Em dados CHi-C, no entanto, realizamos muito mais testes para verificar a significância das interações em grandes distâncias, onde esperaríamos consideravelmente menos eventos de interação verdadeiros. Consistente com isso, o uso de um único p limite de valor leva a resultados que consistem principalmente de distal e errôneo trans- contagens cromossômicas (Fig. 5b, c).

Esquema de abordagem de teste múltiplo CHiCAGO. uma Probabilidade empírica de interação reproduzível (usada para gerar perfis de peso) em função da distância de interação, gerada em duas réplicas de células GM12878, avaliadas para as 100.000 interações de pontuação máxima. bd Os efeitos da aplicação p ponderação de valor para os dados GM12878. o seta no eixo x indica o número de interações significativas chamadas nos dados ponderados. Ao aplicar a ponderação, vemos uma diminuição na distância de interação entre cis-interações (b). P a ponderação de valor aumenta a contagem média de leitura de interações chamadas (c) e diminui a prevalência de trans- interações cromossômicas (d)

Para resolver esse problema, o longo prazo e trans-Os testes de interação cromossômica precisam ser mais rigorosos do que os de curto alcance. Conseguimos isso com uma abordagem baseada em p ponderação de valor [15, 20]. Este procedimento permite uma mudança suave de comportamento com a distância, evitando assim a necessidade de escolher um limite de distância rígida. Resumidamente, atribuímos a cada par de fragmentos um peso, estimando quão provável é que os fragmentos interajam. Os pesos são então usados ​​para ajustar o p valores (consulte o arquivo adicional 1 para especificações completas). P a ponderação de valores pode ser vista como uma versão simplificada do tratamento bayesiano empírico, com pesos relacionados a probabilidades anteriores. Uma vantagem prática desse método para nossa estrutura é que ele evita a necessidade de fazer suposições específicas sobre a distribuição de contagem de leitura de interações verdadeiras, que seriam necessárias para calcular fatores de Bayes.

A escolha ideal de pesos depende da abundância relativa de verdadeiros positivos em cada distância isca-outra extremidade. Estimamos essa abundância avaliando a reprodutibilidade entre as amostras e ajustando uma curva logística limitada aos níveis de reprodutibilidade observados em diferentes distâncias. Geralmente perfis de peso semelhantes foram obtidos em células GM12878 e mESCs, e trocá-los entre esses dois conjuntos de dados rendeu perfis de pontuação altamente correlacionados (Fig. 5a Arquivo adicional 2: Figura S5). Isso é consistente com nossa expectativa de que os pesos são amplamente independentes do tipo específico de célula e organismo, dados tamanhos de genoma comparáveis, visto que refletem predominantemente a distribuição geral de distâncias de interações verdadeiras. Os conjuntos de dados CHi-C multirreplicados emergentes irão refinar ainda mais nossas estimativas de peso e permitir uma avaliação mais abrangente de sua dependência das particularidades do sistema de modelo.

Ilustramos o impacto do procedimento de ponderação nos dados GM12878 e mESC CHi-C comparando as propriedades das 100.000 interações de pontuação máxima, chamadas com ou sem ponderação. A reprodutibilidade das chamadas de interação diminui com a distância isca-outra extremidade (Fig. 5a Arquivo adicional 2: Figura S5a).Como resultado, as interações significativas “ponderadas” geralmente abrangem um intervalo muito mais curto do que as não ponderadas (Fig. 5b Arquivo adicional 2: Figura S5b). Isso é consistente com a expectativa biológica de que as regiões que interagem com o promotor, como os intensificadores, são enriquecidas na vizinhança relativa de seus alvos. Outra consequência do procedimento de ponderação é que a contagem média de leitura é muito maior nas chamadas ponderadas (Fig. 5c Arquivo adicional 2: Figura S5c). Surpreendentemente, muitas das chamadas não ponderadas são baseadas em apenas um par de leitura por interação. Como a grande maioria dos pares de fragmentos não atrai nenhuma leitura, baixa p valores para interações de par de leitura único são esperados. No entanto, devido ao grande número de pares de fragmentos possíveis (aproximadamente 18,5 bilhões nos dados GM12878 e mESC), ainda esperamos que milhares de chamadas de contagem de leitura única sejam geradas por ruído técnico. Essas chamadas espúrias, a maioria das quais corresponde a transOs pares cromossômicos (Fig. 5d Arquivo adicional 2: Figura S5d) são geralmente não reproduzíveis e, portanto, excluídos pelo procedimento de ponderação.

Em conclusão, o p O procedimento de ponderação de valor implementado em CHiCAGO fornece um tratamento de teste múltiplo que é responsável pelas diferenças nas taxas positivas verdadeiras em diferentes distâncias de isca-outra extremidade, melhorando assim a reprodutibilidade das chamadas de interação.

Interações do promotor detectadas por CHiCAGO: validação e propriedades-chave

Nós validamos CHiCAGO avaliando as propriedades funcionais de interações significativas detectadas com ele em células GM12878 humanas [3] e mESCs [4] sob configurações padrão e um limite de pontuação de 5. A Tabela 1 exibe estatísticas resumidas para cada amostra, mostrando os números geralmente semelhantes de interações significativas detectadas, tanto globais como por isca, apesar das diferenças no organismo e tipo de célula entre eles.

Enriquecimento para recursos regulatórios

Avaliamos primeiro o enriquecimento de fragmentos que interagem com o promotor para marcas de histonas associadas com cromatina ativa (H3K4me1, H3K4me3, H3K27ac) e reprimida (H3K27me3, H3K9me3), bem como para os sítios de ligação de CTCF, uma proteína com um papel bem estabelecido na formação da arquitetura nuclear [21]. Para este fim, comparamos os números observados e esperados de fragmentos que interagem com o promotor que se sobrepõem a essas características. Para estimar o grau de sobreposição esperado, desenhamos várias permutações do promotor-outros pares de extremidades não detectados como interagindo, de modo que a distribuição geral de suas distâncias abrangidas correspondesse à distribuição das interações verdadeiras.

A Figura 6 mostra os números observados e esperados de outras extremidades CHiCAGO (barras amarelas e azuis, respectivamente) que se sobrepõem às características regulatórias em GM12878 e mESCs (painéis aeb, respectivamente). Enriquecimentos consistentes sobre os valores esperados foram encontrados para marcas de histonas ativas (H3K4me1, H3K4me3, H3K27ac) em ambos os tipos de células, em linha com a expectativa de que as interações em loop liguem preferencialmente promotores e regiões regulatórias remotas, como potencializadores. Também descobrimos que os fragmentos que interagem com o promotor foram fortemente enriquecidos para sítios de ligação de CTCF, como relatado anteriormente [9, 21]. Curiosamente, os fragmentos que interagem com o promotor também foram enriquecidos para marcas de cromatina reprimidas, em particular para H3K27me3 em mESCs, apoiando o papel de Polycomb em moldar a arquitetura nuclear neste tipo de célula [5].

Características da cromatina de fragmentos que interagem com o promotor detectados usando CHiCAGO. Barras amarelas indicar sobreposições com cis-interagindo fragmentos dentro de 1 Mb de iscas promotoras barras azuis indicam valores de sobreposição esperados com base em 100 subconjuntos aleatórios de Hinfragmentos dIII. Esses subconjuntos foram selecionados para ter uma distribuição semelhante de distâncias de promotores de genes como os fragmentos de interação. uma Dados GM12878 CHi-C. As características da cromatina são obtidas no projeto ENCODE [61]. b Dados mESC CHi-C. As características da cromatina são obtidas no projeto ENCODE do mouse [62]. Esses gráficos são gerados automaticamente pelo pipeline CHiCAGO. Barras de erro representam intervalos de confiança de 95%

Avaliar o enriquecimento de fragmentos que interagem com o promotor para características regulatórias conhecidas pode servir como um controle de qualidade útil para amostras de CHi-C. Para este fim, CHiCAGO gera automaticamente gráficos de barra de enriquecimento semelhantes à Fig. 6 para cada amostra, integrando chamadas de interação com anotações genômicas especificadas pelo usuário, como picos de seq de ChIP.

Enriquecimento para SNPs de estudo de associação de todo o genoma

A maioria dos SNPs associados a doenças identificados em estudos de associação do genoma (GWAS) localizam-se em regiões regulatórias não codificantes, longe de promotores anotados, representando um desafio significativo na identificação de seus genes alvo putativos [22]. Perguntamos se as regiões de interação do promotor detectadas por CHiCAGO em células humanas são enriquecidas para GWAS SNPs, o que potencialmente refletiria sua presença em sequências regulatórias de longo alcance e, portanto, sugere um papel funcional putativo na doença.

Avaliamos o enriquecimento das regiões de interação do promotor em células GM12878 para conjuntos de SNPs do catálogo GWAS de Maurano et al. [22]. Esses conjuntos refletem o agrupamento de características GWAS em categorias mais amplas, como doença autoimune (IA), características neurológicas / comportamentais (NB) e doenças renais / hepáticas / pulmonares (KLL). Usamos o pacote de software GoShifter (GAnn enomicaotação Shifter) [23], que infere a importância da sobreposição por anotações genômicas de deslocamento local (em nosso caso, as "outras extremidades" das interações de promotor detectadas por CHiCAGO), reduzindo assim o efeito de vieses genômicos e estrutura de desequilíbrio de ligação. Observamos um enriquecimento significativo de CHiCAGO "outras extremidades" para SNPs associados a doenças autoimunes (GOShifter p = 0,001), mas não com distúrbios renais / hepáticos / pulmonares (p = 0,876) ou traços neurológicos / comportamentais (p = 0,742). Este enriquecimento seletivo para SNPs autoimunes é consistente com GM12878 sendo uma linha celular derivada de linfócitos e replica os achados originais de Mifsud et al. [3].

Confirmamos ainda que o enriquecimento para SNPs associados à doença de AI foi específico para fragmentos que interagem com o promotor. Usamos a mesma abordagem da seção anterior para gerar 100 amostras aleatórias de interações “negativas” (não significativas) com correspondência de distância e testamos as outras extremidades dessas interações para enriquecimento de SNP. O enriquecimento para SNPs associados a AI foi observado seletivamente no conjunto "verdadeiro", mas não no conjunto "negativo" e nenhum dos conjuntos foi enriquecido para os SNPs associados a NB e KLL (Fig. 7).

Enriquecimento significativo para GWAS SNPs em regiões de interação com o promotor detectadas por CHiCAGO em células linfoblastóides humanas. Enriquecimento para SNPs associados a doenças autoimunes (AI) e distúrbios de rim / fígado / pulmão (KLL) e comportamento neurológico (NB) [22] nas interações detectadas por CHiCAGO na linha celular GM12878. O gráfico da barra mostra p valores para o enriquecimento de cada transtorno barras vermelhas indicar p valores calculados em fragmentos de interação barras azuis indicar p valores calculados em 100 subconjuntos aleatórios de HinFragmentos dIII selecionados para terem uma distribuição semelhante de distâncias de promotores de genes como os fragmentos de interação. Esta análise foi realizada usando o pacote de software GoShifter (GAnn enomicaotação Shifter) [23]

Tomados em conjunto, esses resultados demonstram o poder do uso de dados CHi-C para vincular GWAS SNPs com seus genes-alvo putativos em um tipo de célula específico e de alta taxa de transferência. Esperamos que esta seja uma das principais aplicações do CHi-C em estudos clínicos futuros.

Capacidade de conduzir a expressão do transgene in vivo

TRIP (Milhares de Repórteres Integrados em Paralelo) é uma nova técnica experimental para avaliar a influência do contexto da cromatina local na expressão do gene. Na análise TRIP, um repórter transgene com código de barras é integrado aleatoriamente em milhares de locais genômicos em paralelo e a atividade transcricional em cada local é então monitorada. Aqui integramos o conjunto de dados de análise TRIP publicado em mESCs [24] com as chamadas mESC CHiCAGO [4], comparando a atividade transcricional em regiões de interação com o promotor com a atividade em outros lugares, ao longo de uma gama de distâncias genômicas.

Consistente com a observação do estudo TRIP original, descobrimos que a distância do promotor mais próximo foi um forte determinante dos níveis de expressão do transgene (Fig. 8). No entanto, o mapeamento de transgenes para fragmentos que interagem com o promotor mostrou consistentemente níveis de expressão mais elevados em toda a gama de distâncias genômicas, conforme confirmado por regressão linear (tamanho do efeito = 0,825 teste de Wald p & lt 0,001). Este resultado fornece evidência funcional de que fragmentos que interagem com o promotor detectados por CHiCAGO possuem preferencialmente atividade reguladora da transcrição.

Enriquecimento de fragmentos que interagem com o promotor para regiões capazes de conduzir a expressão do transgene em mESCs. TRIP (Milhares de Repórteres Integrados em Paralelo) avalia a influência do contexto da cromatina local na expressão do gene. Isso é conseguido integrando um repórter transgene com código de barras em milhares de locais genômicos em paralelo e monitorando a atividade transcricional em cada local [24]. Contagens de leitura de RNA normalizadas de inserções repórter são separadas de acordo com (i) sua sobreposição com Hinfragmentos dIII engajados ou não em interações (ii) sua distância promotor-outra extremidade. Para não interagir Hinfragmentos dIII, a distância é medida a partir do promotor mais próximo na sequência linear. Azul e plotagens de caixa verde indicam estatísticas de resumo de contagem de leitura para interação e não interação com o promotor Hinfragmentos dIII, respectivamente. Cada linha tracejada mostra a regressão das contagens de leitura log-normalizadas medianas em relação ao bin de distância do promotor-outra extremidade, considerando a interação do promotor (azul) e sem interação (verde) Hinfragmentos dIII separadamente

Redes promotoras-promotoras

As interações em que ambas as extremidades do fragmento são iscadas (referidas como "interações isca a isca") representam contatos entre os promotores do gene. Essas interações são de interesse especial porque podem ajudar a identificar conjuntos de genes co-regulados recrutados para fábricas de transcrição compartilhadas [25] ou redes de repressão, como aquelas mediadas por proteínas Polycomb [5].

Como uma ilustração do potencial de CHiCAGO na identificação de conjuntos de genes co-regulados, mostramos interações isca a isca detectadas por CHiCAGO envolvendo promotores de histona presentes no cromossomo 6 em células GM12878 (Fig. 9). Vemos que os promotores de histonas freqüentemente interagem com outros promotores de histonas, mais do que com promotores de outros genes na mesma região genômica, consistente com observações anteriores [4, 26, 27].

Visão do circlet das interações promotor-promotor para genes de histonas em células GM12878. As interações onde os promotores do gene da histona estão envolvidos em ambas as extremidades do fragmento são mostradas em magenta escuro. As interações onde os promotores do gene da histona estão interagindo com os promotores do gene não histona são mostradas em cinza. O WashU EpiGenome Browser [58, 59] foi usado para criar esta figura

Mapa de interações de promotor de alcance extremamente longo dentro de regiões de contato Hi-C mais amplas

Aproveitamos o conjunto de dados Hi-C de pré-captura em mESCs [4] para comparar as interações detectadas por CHiCAGO no Promotor CHi-C com os sinais de interação em escala mais ampla detectáveis ​​em Hi-C. O conjunto de dados do Promotor CHi-C tem uma cobertura dez vezes maior em promotores em comparação com a respectiva amostra Hi-C [4] e, portanto, esperaríamos um aumento correspondente na sensibilidade de detecção de interações contendo promotor. Consistente com isso, embora algumas interações mais fortes no curto intervalo (& lt1 Mb) possam ser visualmente distinguidas em matrizes de interação Hi-C (Fig. 10a), mais de 80% das interações CHi-C neste intervalo estão localizadas longe de Hi-C regiões de interação detectadas com HOMER [28] em uma resolução de 25 kb (Fig. 10b). Em contraste, descobrimos que mais de 80% de alcance extremamente longo (& gt10 Mb) cis- interações cromossômicas e 45% trans-interações cromossômicas mapeadas dentro das áreas de contato Hi-C mais amplas (1 Mb de largura) (Fig. 10c). No entanto, apenas uma pequena minoria dessas áreas de contato em escala de megabase continham interações CHi-C (

3% de & gt10 Mb cis-cromossômico e

0.5 % trans-cromossômico, conforme ilustrado na Fig. 10d e arquivo adicional 2: Figura S6). Tomados em conjunto, esses resultados são consistentes com uma alta especificidade e resolução de chamadas de interação de longo alcance CHiCAGO. Ao mesmo tempo, eles garantem um exame mais aprofundado da relação entre interações específicas em looping e contatos cromossômicos de ordem superior.

Comparação das interações detectadas nos dados CHi-C e Hi-C. uma Painéis superiores: gráficos mostrando as contagens de leitura de pares de isca-outras extremidades dentro de 750 kb (a montante e a jusante) de três iscas, contendo o Pax6, Foxo4 e Tbx5 promotores (de deixou para direito) As interações significativas detectadas por CHiCAGO (pontuação ≥5) são mostradas em vermelho, e as interações sublimiar (3 ≤ pontuação & lt 5) são mostradas em azul. Painéis inferiores: matrizes Hi-C brutas com resolução bin de 25 kb dentro das regiões de 1,5 Mb correspondentes. o cantos inferiores do linhas vermelhas indicam pares de bin de exemplo, dentro dos quais interações significativas foram detectadas nos dados CHi-C. b Mapeamento de interações CHi-C de curto alcance (& lt1 Mb) em compartimentos de interação de 25 kb detectados nos dados Hi-C. Círculos preenchidos mostram a fração observada de mapeamento de interações CHi-C dentro dos compartimentos de interação Hi-C círculos abertos mostram a fração esperada estimada por uma estratégia de permutação que leva em conta a estrutura genômica (veja “Métodos” para detalhes). Os desvios padrão em 100 permutações não são mostrados porque são menores do que o tamanho do ponto. c Mapeamento de interações CHi-C de longo alcance (& gt1 Mb) em compartimentos de interação de 1 Mb detectados nos dados Hi-C. Círculos preenchidos mostram a fração observada de longo alcance cis- e trans-interações cromossômicas detectadas nos dados CHi-C que mapeiam dentro dos compartimentos de interação Hi-C. Círculos abertos mostram a fração esperada estimada por uma estratégia de permutação que leva em conta a estrutura genômica (veja “Métodos” para detalhes). Barras de erro mostram o desvio padrão em 100 permutações. d A sobreposição de pares de fragmentos de interação de longo alcance (& gt5 Mb) detectados em dados CHi-C (círculos azuis) e pares bin de 1 Mb de interação detectados nos dados Hi-C (quadrados pretos) nos cromossomos 6 (deixou) e 11 (Centro) e para trans-interações entre esses cromossomos (direito) Todos os painéis apresentam dados de pré-captura mESC Hi-C de [4]


Códigos de barras de DNA descontrolados

Uma equipe de pesquisadores do Lunenfeld-Tanenbaum Research Institute (LTRI) do Sinai Health System e do Donnelly Centre da University of Toronto desenvolveu uma nova tecnologia que pode costurar códigos de barras de DNA dentro de uma célula para pesquisar simultaneamente entre milhões de pares de proteínas por interações de proteínas. O artigo será publicado hoje na revista. Biologia de Sistemas Moleculares.

Nos últimos anos, o código de barras do DNA permitiu aos cientistas realizar experimentos altamente paralelos, nos quais muitos tipos diferentes de células podem ser testados no mesmo tubo. Isso foi habilitado ainda mais pelo sequenciamento de DNA de última geração, que pode contar códigos de barras com eficiência e 'ler' os resultados. No entanto, o número de experimentos que podem ser combinados no mesmo tubo foi limitado ao número de tipos de células com código de barras. Permitir que os códigos de barras se fundam dentro das células significa que os cientistas agora podem quebrar essa barreira. A nova tecnologia resulta em uma taxa de descoberta 10 vezes maior pelo mesmo preço.

"Usar códigos de barras de DNA para experimentos multiplex tem sido uma tecnologia extremamente poderosa", disse Frederick (Fritz) Roth, autor sênior do estudo que foi nomeado para o Lunenfeld-Tanenbaum Research Institute e Donnelly Centre, e também é um Canada Excellence Research Chair e membro sênior do Instituto Canadense de Pesquisa Avançada. "No entanto, foi unidimensional, no sentido de que só conseguimos ler um experimento por código de barras. Combinando códigos de barras dentro das células, podemos aumentar drasticamente o número de experimentos que podemos combinar em um único tubo de ensaio"

Em um método amplamente utilizado denominado Yeast Two Hybrid (Y2H), as células de levedura que carregam uma proteína 'isca' são cruzadas com células de levedura que carregam uma proteína 'presa'. O sistema Y2H é manipulado de forma que apenas as células nas quais as proteínas da isca e da presa se juntam possam sobreviver e isso permite aos cientistas ver quais proteínas se associam a quais outras proteínas. A equipe do Dr. Roth nomeou sua nova tecnologia Barcode Fusion Genetics-Yeast Two Hybrid (BFG-Y2H). No BFG-Y2H, as células que carregam milhares de proteínas 'isca' e 'presa' são cruzadas na mesma cultura. Diz Roth: "Para garantir que cada par de proteínas seja testado para interação, o processo garante que cada tipo de célula se acasale com todos os outros tipos de célula. É como as férias de primavera em Miami."

Os autores dizem que a novidade do método BFG-Y2H é que as células são programadas para conectar códigos de barras de DNA de iscas e células de presa em um único 'código de barras fundido'. Métodos de sequenciamento de DNA de última geração podem ser aplicados para detectar códigos de barras fundidos que correspondem às combinações de proteínas iscas e presas que se uniram e permitiram que suas células sobrevivessem.

As proteínas, trabalhando sozinhas ou em conjuntos maiores, são a maquinaria que executa muitas das operações de uma célula. Os autores dizem que tecnologias mais eficientes para mapear as interações de proteínas podem expandir a compreensão dos pesquisadores sobre como nossas células funcionam e revelar interações de proteínas que só ocorrem sob certas condições ambientais.

Nozomu Yachie, da Universidade de Tóquio, um dos principais autores do artigo, observa que "milhões de pares de proteínas podem ser testados para interação em um único frasco, de modo que dezenas de condições possam ser testadas em paralelo por um pesquisador em apenas dois semanas no laboratório. "

Evangelia Petsalaki do LTRI, também autora principal, observa que "o objetivo final é gerar um 'vídeo 3D' do mapa da rede de interação de proteínas, em vez de uma imagem estática. Nosso método BFG-Y2H acelerará nossa compreensão das funções genéticas e doenças humanas, gerando de forma eficiente mais mapas de interação de proteínas ricos em informações. "

O artigo, intitulado "telas de interação de proteínas de matriz combinada usando Barcode Fusion Genetics", foi publicado em 25 de abril de 2016 no jornal Biologia de Sistemas Moleculares (artigo 12: 863): http: // msb. embopress. org / cgi / doi / 10. 15252 / msb. 20156660

PARA MAIS INFORMAÇÕES OU PARA SOLICITAR UMA ENTREVISTA:

S Frederick P. Roth., PhD
Cientista sênior, Instituto de Pesquisa Lunenfeld-Tanenbaum, Hospital Mount Sinai
Professor, Centro Donnelly e Departamentos de Genética Molecular e Ciência da Computação, Universidade de Toronto
Canadá Excelência em Pesquisa em Biologia Integrativa
Codiretora, Programa do Instituto Canadense para Redes Genéticas de Pesquisa Avançada
Email [email protected] / (416) 946-5130

Isenção de responsabilidade: AAAS e EurekAlert! não são responsáveis ​​pela precisão dos comunicados à imprensa postados no EurekAlert! por instituições contribuintes ou para o uso de qualquer informação por meio do sistema EurekAlert.


Resultados

Estudos de simulação

Avaliamos nossos resultados de simulação de três maneiras. Primeiro, examinamos a precisão das estimativas de deslocamento da transcrição. A Fig 3A mostra os resultados da análise de um conjunto de dados simulado, com o valor real do deslocamento da transcrição da simulação plotado no eixo x, com as estimativas do modelo no eixo y. Para cada ajuste de cada simulação usando cada método de análise, analisamos a precisão usando duas métricas: desvio padrão das estimativas para variantes verdadeiramente não funcionais em zero (largura vertical do boxplot cinza, quanto menor é melhor) e correlação com os valores verdadeiros para simulados variantes funcionais com efeitos diferentes de zero (pontos fora do centro, quanto mais alto, melhor).

A) A figura compara os valores de TS usados ​​para gerar dados simulados com estimativas de TS. Os ensaios MPRA simulados usam uma fração variável de variantes que são verdadeiramente não funcionais (centro). B) As curvas ROC médias usadas para avaliar o desempenho de classificação de cada método em simulações com 3.000 variantes, 5% de variantes verdadeiramente funcionais e 10 códigos de barras por alelo. Os métodos mostrados são malacoda (vermelho), MPRAnalyze (laranja), mpralm (verde), QuASAR-MPRA (rosa), MPRAscore (azul) e o teste t (roxo) C) A curva de precisão-recall média para o mesmo conjunto de simulações D) Métricas de desempenho mediano em várias simulações sob as mesmas condições de B.

Em segundo lugar, também calculamos a área sob a curva característica de operação do receptor (AUC) e a área sob a curva de recuperação de precisão (AUPR) para caracterizar o desempenho da classificação binária de cada método. Métodos bayesianos, como malacoda, explicitamente não consideram uma hipótese nula e, portanto, não geram valores de p. A fim de criar uma quantidade análoga necessária para calcular o AUC e AUPR, em vez disso calculamos um menos a largura mínima do IDH necessária para incluir zero como um valor de deslocamento de transcrição confiável para distinguir verdadeiros e falsos positivos. Este processo é apresentado em detalhes na seção 4.1 do Apêndice S3. A Fig. 3B mostra as curvas ROC por método em média sobre os ensaios simulados com dez códigos de barras por alelo, 5% de variantes verdadeiramente funcionais e 3000 variantes. A Fig 3C mostra as curvas de recuperação de precisão para as mesmas simulações. A Fig 3D mostra que em todas as simulações com essas características, malacoda mostrou consistentemente a maior mediana de AUC e AUPR, a maior correlação com a verdade para variantes funcionais e o menor desvio padrão de estimativas de variantes verdadeiramente não funcionais. A última métrica, “propagação em zero”, enfatiza particularmente o efeito de regularização, mostrando que enquanto malacoda tende a produzir os efeitos mais precisos para variantes funcionais, ela pode fornecer simultaneamente as menores estimativas para variantes verdadeiramente não funcionais. Outras combinações de parâmetros de simulação são mostradas na seção 5 do Apêndice S3, exibindo padrões semelhantes.

A fim de examinar o desempenho do malacoda em dados reais, aplicamos os vários métodos aos dados de Ulirsch [5] e ao nosso próprio conjunto de dados primário. Ao contrário do caso com simulações, os verdadeiros valores de deslocamento da transcrição subjacentes não são conhecidos. No entanto, o consenso entre métodos pode servir como uma métrica de desempenho. Métodos que utilizam estrutura de modelo variável tenderão a cometer erros de maneiras diferentes, de modo que os métodos que têm um bom desempenho consistentemente mostrarão uma correlação mais alta com alternativas do que as correlações entre os métodos que têm um desempenho ruim. De fato, a Fig. 4 mostra que os outros métodos tendem a se correlacionar com malacoda melhor do que entre si. Isso ocorre apesar da relação não linear esperada entre modelos regularizados e não regularizados (ou seja, entre malacoda e as outras alternativas). Os ajustes baseados em antecedentes marginais e condicionais de malacoda (primeira e segunda linhas / colunas) em ambos os painéis da Fig. 4 tendem a se correlacionar fortemente por causa da estrutura do modelo idêntica emparelhada com grande dispersão de previsões DeepSea usadas no processo de estimativa anterior. O ajuste prévio condicional apenas se desvia significativamente do ajuste anterior marginal para variantes com altas previsões DeepSea.

A) Um gráfico de pares de comparações de estimativa de TS entre métodos em nosso conjunto de dados MPRA primário, mostrando que métodos alternativos geralmente concordam com malacoda mais do que entre si. Os valores sombreados acima da diagonal mostram os valores de correlação para o gráfico correspondente abaixo da diagonal. A cor abaixo da diagonal indica a densidade local de pontos em regiões sobre-plotadas. B) Um gráfico de pares de estimativas de TS usando os antecedentes malacoda marginais e baseados no DeepSea no conjunto de dados Ulirsch, mostrando um resultado semelhante.

Resultados biológicos

As variantes que testamos com os ensaios de repórter de luciferase foram predominantemente escolhidas a partir do conjunto em que os ajustes marginais e condicionais de malacoda discordaram quanto à funcionalidade, não aquelas variantes que mostram os efeitos mais fortes. Essas variantes discordantes tendiam a ter pequenos efeitos e o ruído entre as réplicas tendia a ser comparável à razão de intensidade média. Portanto, o número de variantes testadas não foi suficiente para superar o ruído inerente às medições baseadas na intensidade da luz e fornecer resultados conclusivos sobre a precisão dos vários métodos de análise MPRA. Embora tenhamos sido capazes de recapitular a funcionalidade de transcrição de várias variantes, não tínhamos dados suficientes para demonstrar claramente que qualquer um dos métodos de análise MPRA supera os outros em termos de correlação com os resultados da luciferase. No entanto, S2 Fig mostra que os vários métodos são consistentes com estimativas baseadas em MPRA para variantes com grandes deslocamentos, fornecendo mais evidências de que os resultados de MPRA são biologicamente realistas.

Inspecionamos de perto uma descoberta biológica específica para demonstrar a capacidade do malacoda de identificar variantes de baixo sinal. Uma das variantes funcionais que identificamos com malacoda usando o prior condicional baseado em DeepSea no conjunto de dados Ulirsch [5] é rs11865131 esta variante é identificada por malacoda, mas não por qualquer um dos outros métodos após várias correções de teste ou com o prior marginal. O prior condicional é comparado ao anterior marginal na Fig. S1. Nós validamos esta variante é funcional por ensaio de luciferase em células K562 com os resultados mostrados na Fig. 5. A variante rs11865131 está em um íntron dentro do NPRL3 gene que codifica a proteína 3 do receptor do peptídeo natriurético. NPRL3 faz parte da atividade da proteína ativadora GTP-ase em relação ao complexo Rags [22] (GATOR1). O complexo GATOR1 inibe o alvo mamífero da rapamicina (MTOR) ao inibir RRAGA função (revisado em [22] MTOR a sinalização tem sido implicada na agregação e disseminação plaquetária, além da trombose venosa associada ao envelhecimento [23, 24]. A análise do locus rs11865131 com HaploReg [25] indica que ele colocaliza com picos ENCODE ChIP-Seq para 36 proteínas ligadas (predominantemente fatores de transcrição) em células de eritoleucemia K562, bem como contendo marcas epigenéticas de histona potenciador. Além disso, esta variante fica a cerca de mil pares de bases de distância da fronteira exon-íntron mais próxima, sugerindo que é improvável que altere o splicing do transcrito NPRL3. Juntos, esses dados indicam que esta é provavelmente uma região regulatória importante. Além da linha celular K562 heteróloga, os dados de megacariócitos cultivados indicam que rs11865131 está dentro RUNX1 e SCL Picos de ChIP-Seq, dois fatores de transcrição megacariopoiéticos bem estudados [26]. Isso está de acordo com nossos dados de que as plaquetas NPRL3 O mRNA está positivamente associado à contagem de plaquetas em humanos saudáveis ​​[27, 28]. Esses dados indicam que malacoda identificou uma provável região regulatória importante para megacariócitos e plaquetas que foi perdida por outros métodos de análise MPRA.

Um gráfico de barra mostrando a diferença na intensidade da luciferase normalizada para ambos os alelos de rs11865131 (p = 0,032). Barras pretas de erro indicam +/- um desvio padrão.

MCMC pode ser caro do ponto de vista computacional, então medimos os tempos de execução em nosso estudo. O desempenho computacional foi avaliado primeiro usando as configurações padrão do pacote malacoda, que são definidas para encontrar um equilíbrio entre velocidade e precisão para análise exploratória. Essas configurações incluem a primeira passagem variacional, 200 amostras de aquecimento, quatro cadeias gerando um total de 2.000 amostras posteriores e comprimentos de cadeia aumentados de forma adaptativa. Esta análise inicial de 8251 variantes do conjunto de dados Ulirsch levou 29 minutos quando paralelizada em 18 threads em dois processadores Intel Xeon X5675 3,07 GHz. Comparamos isso a uma execução de análise altamente precisa no mesmo conjunto de dados sem primeira passagem variacional e cadeias MCMC de 50.000 iterações excessivamente longas para todas as variantes, o que levou quinze horas com o mesmo número de núcleos nos mesmos processadores. A correlação entre TS médio posterior entre essas duas execuções foi de 0,981 para variantes não funcionais e 0,99996 para variantes funcionais. Este resultado, junto com o diagnóstico MCMC mostrado na seção 2.4.2 do Apêndice S1, demonstra que o amostrador usado por nosso software é capaz de produzir estimativas precisas em um período de tempo relativamente curto. Detalhes da metodologia computacional e resultados demonstrando convergência são apresentados na seção 2.4 do Apêndice S1.


Jason C. Klein *, Vikram Agarwal *, Fumitaka Inoue *, Aidan Keith *, Beth Martin, Martin Kircher, Nadav Ahituv ^, Jay Shendure ^
Uma avaliação sistemática das dependências de design e contexto de ensaios repórter massivamente paralelos
Métodos da Natureza (2020)

M. Grace Gordon *, Fumitaka Inoue * ^, Beth Martin *, Max Schubach *, Vikram Agarwal, Sean Whalen, Shiyun Feng, Jingjing Zhao, Tal Ashuach, Ryan Ziffra, Anat Kreimer, Ilias Georgakopoulous-Soares, Nir Yosef, Chun Jimmie Ye, Katherine S Pollard, Jay Shendure ^, Martin Kircher ^, Nadav Ahituv ^
lentiMPRA e amp MPRAflow para caracterização funcional de alto rendimento de elementos reguladores de genes
Nature Protocols 15, 2387-2412 (2020)

Fumitaka Inoue *, Anat Kreimer *, Tal Ashuach, Nadav Ahituv ^, Nir Yosef ^
Identificação e caracterização massivamente paralela de elementos reguladores que conduzem a indução neural
Célula-tronco celular 25, 713-727. (2019)

Martin Kircher *, Chenling Xiong *, Beth Martin *, Max Schubach *, Fumitaka Inoue, Robert JA Bell, Joseph F Costello, Jay Shendure ^, Nadav Ahituv ^
Mutagênese de saturação de vinte elementos regulatórios associados à doença em resolução de par de base único
Nature Communications 10, 3583. (2019)

Dustin Shigaki, Orit Adato, Aashish N. Adhikari, Shengcheng Dong, Alex Hawkins ‐ Hooker, Fumitaka Inoue, Tamar Juven ‐ Gershon, Henry Kenlay, Beth Martin, Ayoti Patra, Dmitry D. Penzar, Max Schubach, Chenling Xiong, Zhongxia Yan, Alan P. Boyle, Anat Kreimer, Ivan V. Kulakovskiy, John Reid, Ron Unger, Nir Yosef , Jay Shendure, Nadav Ahituv, Martin Kircher, Michael A. Beer
A integração de várias marcas epigenômicas melhora a previsão do impacto da variante no ensaio repórter de mutagênese de saturação
Mutação humana humu.23797. (2019)

Fumitaka Inoue *, Walter Eckalbar *, Yi Wang, Karl K. Murphy, Navneet Matharu, Christian Vaisse ^, Nadav Ahituv ^
Mapeamento genômico e epigenômico de populações neuronais responsivas à leptina envolvidas na regulação do peso corporal
Metabolismo da Natureza 1, 475-484. (2019)

Fumitaka Inoue *, Martin Kircher *, Beth Martin, Gregory M Cooper, Daniela M Witten, Michael T McManus, Nadav Ahituv ^ e Jay Shendure ^
Uma comparação sistemática revela diferenças substanciais na codificação cromossômica versus epissomal da atividade do potenciador
Genome Research 27, 38-52. (2017)

Fumitaka Inoue e Nadav Ahituv
Melhoradores de decodificação usando ensaios repórter maciçamente paralelos
Genômica 106, 159-64. (2015)

Robin P Smith *, Leila Taher *, Rupali P Patwardhan, Mee J Kim, Fumitaka Inoue, Jay Shendure ^, Ivan Ovcharenko ^ e Nadav Ahituv ^
A decodificação massivamente paralela de sequências regulatórias de mamíferos oferece suporte a um modelo organizacional flexível
Nature Genetics 45, 1021-8. (2013)

Fumitaka Inoue, Daisuke Kurokawa, Maiko Takahashi e Shinichi Aizawa
Gbx2 restringe diretamente a expressão de Otx2 ao prosencéfalo e mesencéfalo, competindo com fatores de POU de Classe III
Biologia Molecular e Celular 32, 2618-27. (2012)


2 métodos

2.1 Correspondência de string inexata usando tentativas

O método de correspondência do starcode é baseado em uma variação do algoritmo Needleman – Wunsch (NW) (Needleman e Wunsch, 1970). No algoritmo original (Fig. 1a), a distância de Levenshtein entre duas sequências é encontrada aplicando uma relação de recorrência ao longo de uma matriz de mn termos (a matriz de edição), onde m e n são os respectivos comprimentos de sequência. A complexidade desta abordagem de programação dinâmica é O(mn).

Comparação de sequência NW. (uma) Comparação de GTTGCA e GATCCA. As margens da matriz de edição são inicializadas e as células são calculadas da esquerda para a direita e de cima para baixo pelo algoritmo de programação dinâmica NW. E [i, j] ⁠, o termo das coordenadas (eu, j) é calculado como min ⁡ (E [i - 1, j] + 1, E [i, j - 1] + 1, E [i - 1, j - 1] + Δ (i, j)) ⁠, onde Δ (i, j) = 0 se o euo símbolo da primeira sequência é o mesmo que o jº símbolo do segundo e Δ (i, j) = 1 caso contrário. A distância de Levenshtein entre as duas sequências é o valor da célula inferior direita. (b) Algoritmo de menor complexidade para determinar se GTTGCA e GATCCA são 2 correspondências. Os valores nas células externas são definidos durante a inicialização. O algoritmo de programação dinâmica procede como acima, com a diferença de que é abortado se o valor de uma célula diagonal (bordas em negrito) for maior que 2. Os valores nas células inicializadas podem diferir do esquema NW original (seta), mas o os valores nas células calculadas são, no entanto, idênticos. Os valores das células vazias nunca são computados, o que contribui para reduzir a complexidade

Comparação de sequência NW. (uma) Comparação de GTTGCA e GATCCA. As margens da matriz de edição são inicializadas e as células são calculadas da esquerda para a direita e de cima para baixo pelo algoritmo de programação dinâmica NW. E [i, j] ⁠, o termo das coordenadas (eu, j) é calculado como min ⁡ (E [i - 1, j] + 1, E [i, j - 1] + 1, E [i - 1, j - 1] + Δ (i, j)) ⁠, onde Δ (i, j) = 0 se o euo símbolo da primeira sequência é o mesmo que o jº símbolo do segundo e Δ (i, j) = 1 caso contrário. A distância de Levenshtein entre as duas sequências é o valor da célula inferior direita. (b) Algoritmo de menor complexidade para determinar se GTTGCA e GATCCA são 2 correspondências. Os valores nas células externas são definidos durante a inicialização. O algoritmo de programação dinâmica procede como acima, com a diferença de que é abortado se o valor de uma célula diagonal (bordas em negrito) for maior que 2. Os valores nas células inicializadas podem diferir do esquema NW original (seta), mas o os valores nas células calculadas são, no entanto, idênticos. Os valores das células vazias nunca são computados, o que contribui para reduzir a complexidade

Em muitos casos, a informação de interesse é descobrir se as sequências são correspondências τ (ou seja, sua distância é menor ou igual a um limite fixo τ). Nesse caso, a complexidade pode ser reduzida a O (τ min ⁡ (m, n)) ⁠. Em vez de computar todos os termos da matriz de edição, ela é inicializada conforme mostrado na Figura 1b e apenas os termos em torno da diagonal são computados. Se um termo diagonal tiver um valor maior que τ, o processo é interrompido porque as sequências não são correspondências com τ.

Esse método pode ser usado para comparar sequências com uma árvore de prefixo, também conhecida como trie (Ukkonen, 1995). Os termos da matriz de edição são atualizados em linha, enquanto uma pesquisa em profundidade percorre o trie (Fig. 2). Cada vez que um nó é visitado, uma linha é calculada e cada vez que a pesquisa retrocede, uma linha é apagada. Se o valor limite τ for excedido para um termo diagonal, a distância de Levenshtein para todas as sequências a jusante também é necessariamente maior do que τ. Portanto, não há mais acertos a serem descobertos neste caminho e a pesquisa em profundidade retorna ao nó pai. Quando o processo é interrompido, cada nó final (correspondendo a uma sequência do banco de dados) no caminho desta pesquisa é uma correspondência τ da consulta. Este método é eficiente porque elimina grandes áreas do espaço de busca e porque a comparação NW da consulta com cada prefixo do banco de dados é calculada apenas uma vez.

Algoritmo NW nas tentativas. Cada sequência do índice é um caminho no trie. A consulta GTTGCA é escrita no topo da matriz, que é inicializada conforme mostrado na Figura 1b. O trie é percorrido por uma busca em profundidade (caminho terminando com uma seta). Em cada profundidade, o nó adicionado ao caminho é escrito à esquerda da matriz de edição e a linha é calculada. Os pontos de verificação de 1 a 4 (números circulados) mostram o estado da matriz de edição à medida que a pesquisa prossegue. O nó identificado como 3 é uma folha e, portanto, corresponde a uma correspondência 2 da consulta. Depois de descobrir a ocorrência, o caminho de pesquisa retorna ao nó rotulado como 2 e as últimas linhas da matriz de edição são apagadas. O caminho de pesquisa então vai para o nó rotulado como 4, caso em que a célula diagonal recém-calculada excede o limite (circulado). Mesmo se este nó tiver filhos, eles não são visitados (cruzamentos) porque não há 2 correspondências para descobrir

Algoritmo NW nas tentativas. Cada sequência do índice é um caminho no trie.A consulta GTTGCA é escrita no topo da matriz, que é inicializada conforme mostrado na Figura 1b. O trie é percorrido por uma busca em profundidade (caminho terminando com uma seta). Em cada profundidade, o nó adicionado ao caminho é escrito à esquerda da matriz de edição e a linha é calculada. Os pontos de verificação de 1 a 4 (números circulados) mostram o estado da matriz de edição à medida que a pesquisa prossegue. O nó identificado como 3 é uma folha e, portanto, corresponde a uma correspondência 2 da consulta. Depois de descobrir a ocorrência, o caminho de pesquisa retorna ao nó rotulado como 2 e as últimas linhas da matriz de edição são apagadas. O caminho de pesquisa então vai para o nó rotulado como 4, caso em que a célula diagonal recém-calculada excede o limite (circulado). Mesmo se este nó tiver filhos, eles não são visitados (cruzamentos) porque não há 2 correspondências para descobrir

2.2 O algoritmo de pesquisa de poucet

A estratégia de busca pode ser melhorada ainda mais. Se duas consultas consecutivas compartilham um prefixo de comprimento k, a sucessão de cálculos até o ka linha da matriz de edição será exatamente a mesma para ambas as consultas. Portanto, os intermediários de computação podem ser armazenados nos nós do teste, de modo que a próxima pesquisa do teste possa começar em profundidade k. No entanto, o armazenamento das linhas da matriz de edição nos nós encontra alguma dificuldade. Na verdade, no kna linha, os termos do lado direito da diagonal dependem de caracteres que não são compartilhados entre as duas consultas. Esse problema é resolvido armazenando em cada nó uma combinação de termos de linha e coluna que formam uma forma de ângulo, parecendo um L invertido horizontalmente (Fig. 3). Usando esta estrutura, os intermediários de computação armazenados em um nó em profundidade k depende apenas do primeiro k caracteres da consulta.

Algoritmo de pesquisa de poucet. O algoritmo prossegue com os mesmos princípios mostrados na Figura 2, com a diferença de que a matriz de edição não é atualizada em linha, mas ao longo de um L invertido horizontalmente. Conforme a pesquisa em profundidade prossegue, esses valores são armazenados nos nós do teste. . Como os valores na parte vertical do L invertido são os mesmos para todos os filhos de um nó, eles são calculados apenas uma vez (seta). Os valores nas células cinzas serão calculados à medida que o caminho de pesquisa visita o nó. Armazenar os intermediários nos nós permite que a próxima consulta reinicie em profundidade k se compartilha um prefixo comum de comprimento k com a consulta atual

Algoritmo de pesquisa de poucet. O algoritmo prossegue com os mesmos princípios mostrados na Figura 2, com a diferença de que a matriz de edição não é atualizada em linha, mas ao longo de um L invertido horizontalmente. Conforme a pesquisa em profundidade prossegue, esses valores são armazenados nos nós do teste. . Como os valores na parte vertical do L invertido são os mesmos para todos os filhos de um nó, eles são calculados apenas uma vez (seta). Os valores nas células cinzas serão calculados à medida que o caminho de pesquisa visita o nó. Armazenar os intermediários nos nós permite que a próxima consulta reinicie em profundidade k se compartilha um prefixo comum de comprimento k com a consulta atual

Para aproveitar ao máximo essa propriedade, as sequências de entrada são classificadas em ordem alfabética, o que maximiza o compartilhamento de prefixo entre consultas consecutivas. No conto de fadas ‘Le Petit Poucet’, o herói semeia pedras brancas para seus irmãos mais velhos encontrarem o caminho de casa, o que lembra a forma como uma consulta menor (em ordem alfabética) abre o caminho para a próxima. Portanto, chamamos esse algoritmo de pesquisa de "poucet".

2.3 Filtração sem perdas

Quando uma consulta não tem correspondência, é vantajoso omitir a pesquisa trie. Para tanto, o starcode usa uma abordagem de partição semelhante à descrita por Wu e Manber (1992). A consulta é inicialmente particionada em segmentos τ + 1. Supondo que todos os segmentos tenham comprimento de pelo menos τ, então cada correspondência τ presente no banco de dados conterá pelo menos uma cópia literal de um dos segmentos de consulta. Na verdade, existem no máximo τ edições entre a consulta e a correspondência a serem distribuídas em τ + 1 regiões, portanto, pelo menos um segmento não foi modificado. Por causa de potenciais inserções e exclusões nos segmentos anteriores, o segmento compartilhado pode ser deslocado até τ nucleotídeos à esquerda (todas as inserções) ou à direita (todas as exclusões) de sua posição original na consulta.

Essas observações são a base de um método de filtração com 100% de sensibilidade. Mais precisamente, os segmentos são definidos como segue: os primeiros τ nucleotídeos da sequência são removidos, e o resto da sequência é particionado em τ + 1 segmentos de tamanhos diferentes em no máximo 1 (os segmentos mais longos sempre em 3 'para consistência ) Cada vez que uma sequência é adicionada ao trie, ela é particionada e seus segmentos são adicionados a τ + 1 índices diferentes. Os primeiros fragmentos são adicionados ao primeiro índice, os segundos fragmentos ao segundo índice, etc. Antes da pesquisa, a consulta é particionada da mesma forma e seus segmentos são pesquisados ​​nos índices. Caso nenhuma correspondência seja encontrada, esta consulta não tem correspondência τ no banco de dados atual, portanto, a pesquisa trie é omitida. Por outro lado, se pelo menos um segmento for encontrado, a trie pesquisa deve ser realizada.

Como mencionado acima, os segmentos compartilhados entre a consulta e uma correspondência τ podem ser encontrados deslocados até nucleotídeos τ. Por este motivo, os segmentos deslocados da consulta são procurados nos índices de acordo com o esquema da Figura 4, o que garante que nenhuma correspondência pode ser perdida: o segmento mais à direita é procurado no τ + 1º índice, o segundo segmento mais à direita e os segmentos contíguos deslocados por um nucleotídeo são procurados no índice τ e assim por diante, até que o primeiro segmento e seus segmentos contíguos deslocados por até τ nucleotídeos sejam procurados no primeiro índice.

Filtração sem perdas ilustrada por uma sequência de exemplo de comprimento 20 com τ = 3. Os últimos τ nucleotídeos da consulta são removidos e o resto é dividido em quatro séries de segmentos contíguos. Cada série é consultada em relação a um índice diferente, numerado de I a IV. Por exemplo, o único segmento consultado no índice I é GTTG, enquanto aqueles consultados no índice II são GCAA, CAAT e AATA. Se algum dos segmentos for encontrado no índice apropriado, a trie pesquisa é realizada, caso contrário, ela é omitida, pois não pode haver correspondência de τ. Independentemente do resultado, os segmentos rotulados I-IV são então adicionados ao respectivo índice correspondente (ou seja, apenas um segmento é adicionado a cada índice)

Filtração sem perdas ilustrada por uma sequência de exemplo de comprimento 20 com τ = 3. Os últimos τ nucleotídeos da consulta são removidos e o resto é dividido em quatro séries de segmentos contíguos. Cada série é consultada em relação a um índice diferente, numerado de I a IV. Por exemplo, o único segmento consultado no índice I é GTTG, enquanto aqueles consultados no índice II são GCAA, CAAT e AATA. Se algum dos segmentos for encontrado no índice apropriado, a trie pesquisa é realizada, caso contrário, ela é omitida, pois não pode haver correspondência de τ. Independentemente do resultado, os segmentos rotulados I-IV são então adicionados ao respectivo índice correspondente (ou seja, apenas um segmento é adicionado a cada índice)

2.4 Buscar e construir

Para reduzir o tamanho do espaço de busca, o starcode usa uma abordagem dinâmica de "busca e construção" em que as consultas são processadas, enquanto o teste é construído. Em outras palavras, cada sequência é comparada ao teste antes de ser inserida. Se A e B são correspondências mútuas de τ, A será consultado quando B estiver na tentativa ou o inverso. De qualquer maneira, a correspondência A-B é descoberta. Isso garante que cada correspondência de τ seja descoberta, enquanto mantém o teste o mais 'fino' possível, reduzindo assim o tempo de pesquisa. Todo o processo de correspondência é resumido no pseudocódigo mostrado nos Algoritmos 1 e 2.

1: Definir: τ

3: Containers:exitos, seixos

5: h e i g h t ← determinar o comprimento máximo da sequência

6: sequências de pad até altura

7: classificar sequências em ordem alfabética

8: k ← computar comprimentos de segmento de filtro

9: t r i e ← crie um trie vazio de altura altura

10: insira o nó raiz de trie no seixos na profundidade 0

11: para todos sequências Faz

12: s e q ← obter a próxima sequência

13: E se pelo menos um k-mer de seq está no índice do filtro então

14: s e e d ← comprimento do prefixo compartilhado entre a sequência atual e a próxima

15: s t a r t ← comprimento do prefixo compartilhado entre seq e lastseq

17: claro seixos em profundidade & gt s t a r t

18: para todosseixos em profundidade começarFaz

19: n o d e ← obter o próximo nó de seixos

20: ligar poucet (seq, , semente, exitos, seixos)

21: fim para

22: processo exitos e ligar correspondências para seq

25: inserir seq caminho em trie

26: inserir seq k-merge no índice do filtro

27: fim para

1: procedimento poucet (consulta, , semente, exitos, seixos):

2: computar -coluna específica seguindo NW ◃ Figura 1

3: para todosfilho nós em Faz

4: computar filho- linha específica seguindo NW ◃ Figura 1

Escalabilidade. (uma) Logaritmo do tempo de execução versus o logaritmo do número de sequências a serem agrupadas. (b) Tempo de execução em função da distância de agrupamento. (c) Tempo de execução versus comprimento das sequências de entrada. (d) Aumento de desempenho relativo para diferentes números de threads paralelos

Escalabilidade. (uma) Logaritmo do tempo de execução versus o logaritmo do número de sequências a serem agrupadas. (b) Tempo de execução em função da distância de agrupamento. (c) Tempo de execução versus comprimento das sequências de entrada. (d) Aumento de desempenho relativo para diferentes números de threads paralelos

Resultados de benchmark em conjuntos de dados artificiais de estrutura de cluster conhecida (veja o texto principal). (uma) Exatidão medida pelo número de clusters identificados. Starcode identifica o número correto de clusters, enquanto o seed e o cd-hit identificam cerca de 40 falsos positivos por verdadeiro positivo. A primeira bissetriz é traçada e indica resultados perfeitos. (b) Exatidão medida pelo número de pares identificados. O Slidesort identifica de 5 a 10% menos pares do que o código de estrelas. A linha horizontal indica uma proporção de 1. (c) Tempo de execução das diferentes ferramentas. Conforme o tamanho dos clusters, o tempo de execução do starcode aumenta, mas permanece competitivo. (d) Uso de memória das diferentes ferramentas. O uso de memória do starcode diminui à medida que o tamanho do cluster aumenta.

Resultados de benchmark em conjuntos de dados artificiais de estrutura de cluster conhecida (veja o texto principal). (uma) Exatidão medida pelo número de clusters identificados. Starcode identifica o número correto de clusters, enquanto o seed e o cd-hit identificam cerca de 40 falsos positivos por verdadeiro positivo. A primeira bissetriz é traçada e indica resultados perfeitos. (b) Exatidão medida pelo número de pares identificados. O Slidesort identifica de 5 a 10% menos pares do que o código de estrelas. A linha horizontal indica uma proporção de 1. (c) Tempo de execução das diferentes ferramentas. Conforme o tamanho dos clusters, o tempo de execução do starcode aumenta, mas permanece competitivo. (d) Uso de memória das diferentes ferramentas. O uso de memória do starcode diminui à medida que o tamanho do cluster aumenta.

7: Prosseguir com o próximo filho

8: fimE se

9: E se profundidade = alturaentão ◃ Resultado encontrado.

10: salvar seqüência em exitos

11: Prosseguir com o próximo filho

12: fimE se

13: E se profundidade ≤ s e e d então

14: salvar no seixos na profundidade atual

15: fimE se

16: ligar poucet (consulta, filho, semente, exitos, seixos)

17: fimpara

18: fimprocedimento

2.5 Paralelização

As consultas são classificadas e particionadas em blocos contíguos. A etapa de correspondência prossegue em duas fases. Na fase de construção, um trie distinto é construído a partir das sequências de cada bloco de acordo com o algoritmo descrito acima. No segundo, todos os blocos de sequência são consultados em relação a todas as outras tentativas. Se as consultas são particionadas em N blocos, a primeira fase consiste em N procurar e construir empregos, enquanto o segundo consiste em N (N - 1) / 2 empregos de consulta. Em cada fase, os trabalhos não mostram dependência uns dos outros, portanto, o algoritmo de correspondência pode ser paralelizado de forma eficiente, desde N é maior do que o número de threads independentes.

2.6 Clustering

O algoritmo de clustering padrão do starcode é projetado para corrigir o erro de sequenciamento. Este método usa a passagem de mensagens (MacKay, 2002) para identificar e contar sequências "canônicas" (também chamadas de centróides na terminologia de agrupamento). Por padrão, cada sequência transfere sua contagem de leitura para sua correspondência τ mais próxima, desde que a última tenha pelo menos cinco vezes mais contagens. Se a condição não for atendida, a transferência não ocorrerá. Se a sequência tiver várias correspondências τ igualmente próximas, as contagens serão divididas igualmente entre elas. O processo é repetido recursivamente, a partir das sequências com menor contagem de leituras. As sequências com uma contagem de leitura positiva no final do processo são consideradas canônicas. Os clusters consistem em todas as sequências que transferem suas contagens de leitura para a mesma sequência canônica (a sequência que transfere suas contagens de leitura para diferentes canônicos é descartada). Observe que o raio dos clusters pode ser maior do que a distância máxima usada para correspondência.

Como nenhuma tecnologia de sequenciamento tem uma taxa de erro superior a 20%, espera-se que as sequências que aparecem de erros de sequenciamento sempre tenham cinco vezes ou menos contagem de leitura do que a sequência canônica. Caso contrário, as sequências são mais provavelmente não relacionadas ou ambas são derivadas da mesma sequência canônica. Este comportamento pode ser modificado com a opção de linha de comando proporção de cluster para permitir um agrupamento mais flexível ou mais estrito, por ex. para agrupar sequências de entrada exclusivas, proporção de cluster deve ser definido como 1.

Para outros problemas de clustering de sequência, o starcode implementa um algoritmo multiuso chamado 'clustering de esfera'. No agrupamento de esferas, as sequências são classificadas por frequência de ocorrência. Partindo da mais frequente, cada sequência se torna canônica e reivindica todas as suas correspondências τ, que formam um aglomerado de raio τ (daí o nome). As sequências reivindicadas são removidas imediatamente, para que possam pertencer a apenas um cluster.

2.7 Condições de referência

Todos os testes foram realizados em um sistema Intel Xeon E5‐2687W v2 de processador dual de 16 núcleos com 256 GB de DDR3-RAM a 1866 Mhz. Parâmetros de linha de comando foram definidos de forma equivalente em todos os softwares para rodar no modo single-core, permitindo até três incompatibilidades para sequências de entrada de comprimento 50. As tabelas 1 e 2 resumem as opções de execução usadas na simulação e conjuntos de dados reais, respectivamente.

Opções de execução de software usadas no benchmark de simulação

Programas . Opções de linha de comando.
Starcode-1.0 starcode -d3
Slidesort-2 slidesort_v2 -d 3 -t E -c DNA
Cd-hit-est-4.6.1 cd-hit-est -n 9 -c 0,9 -M 0 -r 0
Semente-1.4.1 SEED - incompatibilidade 3
Programas . Opções de linha de comando.
Starcode-1.0 starcode -d3
Slidesort-2 slidesort_v2 -d 3 -t E -c DNA
Cd-hit-est-4.6.1 cd-hit-est -n 9 -c 0,9 -M 0 -r 0
Semente-1.4.1 SEED - incompatibilidade 3

Opções de execução de software usadas no benchmark de simulação

Programas . Opções de linha de comando.
Starcode-1.0 starcode -d3
Slidesort-2 slidesort_v2 -d 3 -t E -c DNA
Cd-hit-est-4.6.1 cd-hit-est -n 9 -c 0,9 -M 0 -r 0
Semente-1.4.1 SEED - incompatibilidade 3
Programas . Opções de linha de comando.
Starcode-1.0 starcode -d3
Slidesort-2 slidesort_v2 -d 3 -t E -c DNA
Cd-hit-est-4.6.1 cd-hit-est -n 9 -c 0,9 -M 0 -r 0
Semente-1.4.1 SEED - incompatibilidade 3

Opções de execução de software usadas em benchmarks de dados reais

Programas . Opções de linha de comando.
Starcode-1.0 starcode -d3
Slidesort-2 slidesort_v2 -d 3 -u -t E -c DNA
Cd-hit-est-4.6.1 cd-hit-est -n 8 -c 0,94 -M 0
Semente-1.4.1 SEED –mismatch 3 –shift 3
Rainbow-2.0.3 aglomerado de arco-íris -m 3
Programas . Opções de linha de comando.
Starcode-1.0 starcode -d3
Slidesort-2 slidesort_v2 -d 3 -u -t E -c DNA
Cd-hit-est-4.6.1 cd-hit-est -n 8 -c 0,94 -M 0
Semente-1.4.1 SEED –mismatch 3 –shift 3
Rainbow-2.0.3 aglomerado de arco-íris -m 3

Opções de execução de software usadas em benchmarks de dados reais

Programas . Opções de linha de comando.
Starcode-1.0 starcode -d3
Slidesort-2 slidesort_v2 -d 3 -u -t E -c DNA
Cd-hit-est-4.6.1 cd-hit-est -n 8 -c 0,94 -M 0
Semente-1.4.1 SEED –mismatch 3 –shift 3
Rainbow-2.0.3 aglomerado de arco-íris -m 3
Programas . Opções de linha de comando.
Starcode-1.0 starcode -d3
Slidesort-2 slidesort_v2 -d 3 -u -t E -c DNA
Cd-hit-est-4.6.1 cd-hit-est -n 8 -c 0,94 -M 0
Semente-1.4.1 SEED –mismatch 3 –shift 3
Rainbow-2.0.3 aglomerado de arco-íris -m 3

Resultados

Formação de moléculas quiméricas durante PCR convencional usando molde de dois plasmídeos

Para avaliar a frequência de formação de produto quimérico durante a PCR, primeiro projetamos um sistema simples que consiste em dois construtos de plasmídeo muito semelhantes, cada um contendo sequências únicas de 18-pb BC e 8-pb ROI separadas por uma região constante de 71-pb (doravante plasmídeo # 1 e plasmídeo # 2). Os plasmídeos foram misturados em uma proporção molar igual e usados ​​como modelos em um PCR convencional de uma rodada para amplificar fragmentos BC-ROI de 236 pb (Fig. 1b). Para detectar a presença de combinações quiméricas BC-ROI nestes produtos de PCR, projetamos os primers BC1, BC2, ROI1 e ROI2, específicos para os BCs e ROIs do plasmídeo # 1 e do plasmídeo # 2 (Fig. 1c) e usamos BC1 / Pares ROI2 e BC2 / ROI1 em um PCR de teste. Para excluir a formação de produtos quiméricos durante este teste de PCR, ajustamos os parâmetros da análise usando uma mistura de plasmídeo # 1 e plasmídeo # 2 modelos. Nomeadamente, 12 ciclos de amplificação na temperatura de anelamento de 60 ° C, mas não 14 ciclos de amplificação a 55 ° C, resultaram na ausência de falsos positivos (arquivo adicional 1: Figura S1). Portanto, as condições anteriores foram usadas para todas as execuções de teste de PCR subsequentes. A análise dos produtos da PCR convencional de uma rodada demonstrou que eles incluem quantidades detectáveis ​​de moléculas quiméricas BC-ROI (Fig. 1d).

O ePCR de duas rodadas otimizado suprime a formação das moléculas quiméricas a partir do modelo de dois plasmídeos

Em seguida, amplificamos os fragmentos BC-ROI usando ePCR. Utilizamos o kit de purificação e emulsão de DNA de micélula e seguimos principalmente as recomendações do fabricante sobre os parâmetros de ePCR (contagem de micelas, quantidade de modelo de DNA, composição do tampão de PCR em tubos de reação, purificação de produto de PCR, etc.).Especificamente, preparamos misturas de reação de 50 μl contendo 10 9-10 10 micelas e 2 × 10 8 ou 2 × 10 9 moléculas de plasmídeo (1 ng ou 10 ng de plasmídeo nº 1 de 4349 pb e plasmídeo nº 2 misturados em um molar proporção de 1: 1). Após 25 ciclos de ePCR de uma rodada, as emulsões foram quebradas com 2-butanol e os produtos foram purificados. A eletroforese em gel de agarose confirmou a presença dos fragmentos de DNA de 236 pb esperados nas amostras de ePCR de "1 ng" e "10 ng" (Fig. 2a). No entanto, um teste de PCR nos produtos de ePCR purificados, mesmo obtidos a partir de 1 ng do plasmídeo nº 1 / modelo do plasmídeo nº 2, detectou moléculas quiméricas BC-ROI (Fig. 2b).

O ePCR de uma rodada não suprime a formação das moléculas quiméricas do molde de dois plasmídeos. uma Análise de eletroforese em gel de agarose de produtos de ePCR one-round gerados usando as quantidades indicadas de uma mistura equimolar de plasmídeo # 1 e plasmídeo # 2 (faixas 1–2) ou água (sem controle de modelo, "NTC" faixa 3) como modelo e primers Libr-A1-para / Libr-rev. b Análise de eletroforese em gel de agarose de produtos de PCR de teste configurado usando 1 /100th da amostra de ePCR de uma rodada de "1 ng" purificada (pistas 1–4) ou água (sem controles de modelo, pistas "NTCs" 5-8) como modelo e os seguintes primers: BC1 / ROI1 (pistas 1 e 5) , BC2 / ROI2 (pistas 2 e 6), BC1 / ROI2 (pistas 3 e 7) e BC2 / ROI1 (pistas 4 e 8). c O princípio do ensaio de estabilidade da emulsão de água em óleo. A PCR de emulsão é configurada usando uma mistura de duas emulsões que contêm micelas sem primers ou DNA modelo. Em emulsões estáveis, as micelas não se fundem, o que resulta em nenhum produto de amplificação. d Análise de eletroforese em gel de agarose de produtos ePCR gerados usando uma mistura de micelas sem os primers Libr-A1- para / Libr-rev ou DNA de plasmídeo # 1 (pista 1) ou micelas com todos os componentes da reação (controle positivo, “C +” pista 2) ou micelas com água em vez do DNA modelo (sem controle de molde, pista “NTC” 3). M significa GeneRuler 1 kb Plus DNA Ladder (Thermo Fisher Scientific) em (uma, b, d)

É conhecido que mesmo traços de detergente podem causar instabilidade da emulsão, isto é, causar uma fusão de micelas individuais. Como para o ePCR usamos a Phusion DNA polimerase juntamente com o Phusion HF Buffer que não é isento de detergente, verificamos se a estabilidade da emulsão estava comprometida. Misturamos duas emulsões para ePCR: uma emulsão contendo os primers sem o modelo de DNA e uma segunda emulsão com apenas o modelo e sem primers (Fig. 2c). Se as emulsões misturadas forem instáveis, as micelas se fundirão, levando à síntese dos produtos de PCR. No entanto, não observamos nenhum produto de ePCR realizado nesta mistura de emulsão (Fig. 2d), sugerindo que outros fatores são responsáveis ​​pela geração de moléculas BC-ROI quiméricas, provavelmente muitas moléculas de DNA modelo ou muitos ciclos de amplificação.

Para reduzir a formação de moléculas quiméricas BC-ROI em ePCR, diminuímos a quantidade inicial de DNA modelo e realizamos a amplificação com duas rodadas subsequentes (Fig. 1b) de 15 e 20 ciclos, pois reações únicas com um número maior de ciclos podem esgotar recursos de micelas individuais. Cinquenta reações μl da rodada # 1 ePCR continham aproximadamente 10 9-10 10 micelas e 2 × 10 6, 2 × 10 7 ou 2 × 10 8 moléculas de plasmídeo (10 pg, 100 pg ou 1 ng de plasmídeo de 4349 pb de comprimento # 1 e o plasmídeo # 2 misturado a uma razão molar de 1: 1). Após 15 ciclos da rodada # 1 ePCR, as emulsões foram quebradas e os produtos foram purificados e analisados ​​por eletroforese em gel de agarose. Nenhuma banda foi observada no gel (Fig. 3a), provavelmente devido às baixas quantidades do molde de DNA acoplado ao baixo número de ciclos de amplificação. Em seguida, configuramos reações de 50 μl da rodada # 2 ePCR contendo aproximadamente 10 9-10 10 micelas e 1 /100th (0,5 μl) dos produtos ePCR purificados da rodada # 1. Após 20 ciclos da rodada # 2 ePCR, quebramos as emulsões e purificamos os produtos das misturas de modelo “10 pg”, “100 pg” e “1 ng”. A eletroforese em gel de agarose revelou uma relação direta clara entre as quantidades dos fragmentos de DNA de 289 pb e o número de moléculas de DNA modelo usadas para a rodada # 1 ePCR (Fig. 3a). Notavelmente, um teste de PCR realizado no purificado “10 pg”, mas não em “100 pg”, da rodada # 2 produtos ePCR não detectou moléculas quiméricas BC-ROI (Fig. 3b). Assim, concluímos que a quantidade inicial dos modelos de DNA deve ser

10 3 –10 4 vezes menor do que a contagem total estimada de micelas na emulsão, de modo a minimizar a chance de inclusão de duas ou mais moléculas modelo na mesma micela e evitar a formação de produtos quiméricos.

O ePCR de duas rodadas otimizado evita efetivamente a formação de moléculas quiméricas a partir do molde de dois plasmídeos. uma Análise de eletroforese em gel de agarose de produtos de ePCR rodada # 1 e rodada # 2. As amostras de ePCR da Rodada # 1 foram geradas usando as quantidades indicadas de uma mistura equimolar de plasmídeo # 1 e plasmídeo # 2 (faixas 1–3) ou água (sem controle de modelo, "NTC" faixa 4) como modelo e iniciadores Libr-A1-para / Libr-rev. Os produtos ePCR da Rodada # 2 foram obtidos usando 1 /100th das amostras de ePCR rodada # 1 purificadas (faixas 5–7) ou água (sem controle de modelo, "NTC" faixa 8) como modelo e iniciadores Libr-P5-for / Libr-P7-rev. b Análise de eletroforese em gel de agarose de produtos de PCR de teste configurado usando 1 /100th da amostra purificada de "100 pg" rodada # 2 ePCR (pistas 1-4) ou água (sem controles de modelo, "NTCs" pistas 5-8) como modelo e os seguintes primers: BC1 / ROI1 (pistas 1 e 5) , BC2 / ROI2 (pistas 2 e 6), BC1 / ROI2 (pistas 3 e 7) e BC2 / ROI1 (pistas 4 e 8). c Análise de eletroforese em gel de agarose de produtos de PCR de teste configurado usando 1 /100th da amostra purificada de "10 pg" rodada # 2 ePCR (pistas 1-4) ou água (sem controles de modelo, "NTCs" pistas 5-6) como modelo e os seguintes primers: BC1 / ROI1 (pistas 1 e 5) , BC2 / ROI2 (faixas 2 e 6), BC1 / ROI2 (faixa 3) e BC2 / ROI1 (faixa 4). M significa GeneRuler 1 kb Plus DNA Ladder (Thermo Fisher Scientific) em (uma, b, d)

Para medir com precisão a proporção de moléculas quiméricas BC – ROI presentes nos produtos ePCR “10 pg” da rodada # 2, submetemo-los à análise Illumina NGS, que revelou em média 1,51% de produtos quiméricos (Tabela 1). Em seguida, tentamos reduzir ainda mais a proporção de produtos quiméricos por meio de uma otimização adicional das condições de ePCR. Primeiro, a quantidade do modelo de DNA usado na rodada # 2 ePCR foi reduzida de 0,5 μl para 0,3 μl. Em segundo lugar, o número de ciclos de amplificação na rodada # 2 ePCR diminuiu de 20 para 18. A análise de NGS dos produtos de amplificação mostrou que ambas as condições reduzem substancialmente a proporção de moléculas quiméricas BC-ROI (Tabela 1). Especificamente, as amostras de ePCR rodada # 2 obtidas com modelo de DNA reduzido e ciclos de amplificação diminuídos continham em média 0,66 e 0,22% de produtos espúrios, respectivamente. Juntos, nossos resultados indicam que a síntese de moléculas de DNA quiméricas durante a amplificação de fragmentos BC-ROI de uma mistura de dois modelos diferentes pode ser suprimida a níveis quase desprezíveis usando ePCR de duas rodadas com parâmetros otimizados.

Aplicação da abordagem de PCR de duas rodadas para amplificação de fragmentos BC-ROI de bibliotecas MPRA

Quando apenas duas variantes de plasmídeo são co-amplificadas, a frequência de formação de moléculas quiméricas pode ser subestimada porque algumas micelas podem hospedar moléculas de modelo idênticas (isto é principalmente verdadeiro para micelas com dois modelos de plasmídeo). No entanto, durante a co-amplificação de ePCR de um grande número de sequências de DNA homólogas, a probabilidade de inclusão de moléculas de molde idênticas na mesma micela é extremamente baixa. Portanto, a proporção de moléculas quiméricas em amostras de ePCR de múltiplos modelos pode ser maior do que a detectada para o sistema de modelo de dois plasmídeos descrito acima. Para verificar isso, aplicamos a abordagem de ePCR de duas rodadas para amplificação de fragmentos BC-ROI de um par de bibliotecas MRPA altamente diversificadas, a biblioteca-71 e a biblioteca-83. Os plasmídeos de ambas as bibliotecas contêm sequências de 18-pb BC e 8-pb ROI sintetizadas usando oligonucleotídeos degenerados (e, portanto, não conhecidos a priori), que são separados por uma constante de 71-pb (biblioteca-71) ou 83-pb (biblioteca-83 ) espaçador (Fig. 1b). Primeiro, amplificamos as regiões BC-ROI da biblioteca-71 usando os parâmetros de ePCR ideais definidos para o sistema de modelo de dois plasmídeos (10 pg de DNA modelo na rodada # 1 ePCR, 0,5 μl dos produtos purificados da rodada # 1 ePCR como modelo e 18 ciclos de amplificação na rodada # 2 ePCR). Com base nos dados NGS obtidos, definimos um conjunto de sequências de BC genuínas presentes na biblioteca de plasmídeo, conforme descrito anteriormente [29]. Em seguida, analisamos as sequências de ROI associadas a cada BC genuíno e consideramos uma sequência presente em mais da metade das leituras como genuína. Leituras com o mesmo BC genuíno, mas outras sequências de ROI foram consideradas produtos ePCR quiméricos (para detalhes, consulte Métodos). Detectamos a formação de moléculas quiméricas BC-ROI com a frequência média de 0,57%, que é mais de duas vezes maior do que a determinada para o sistema de dois plasmídeos (Tabela 2, ePCR, tempo de alongamento de 10 s). Para otimizar ainda mais as condições de ePCR, aumentamos a duração da etapa de extensão de 10 para 30 s. Com este parâmetro de ePCR modificado, amplificamos as regiões BC – ROI da biblioteca-71 e da biblioteca-83 e submetemos os produtos ao NGS. A análise dos dados de sequenciamento indicou uma alta reprodutibilidade das medições tanto entre réplicas e bibliotecas, e que, em média, a formação de produtos quiméricos diminuiu quase 2 vezes, até 0,30% (Tabela 2, ePCR, tempo de alongamento de 30 s) .

Em seguida, para comparar diretamente o desempenho das abordagens de emulsão e PCR convencional, repetimos a amplificação das regiões BC-ROI de ambas as bibliotecas de plasmídeo usando PCR convencional com exatamente as mesmas configurações usadas para ePCR (10 pg de DNA modelo na rodada # 1 de PCR, 0,5 μl dos produtos purificados da rodada # 1 PCR como modelo e 18 ciclos de amplificação na rodada # 2 PCR, tempo de alongamento de 30 s em ambas as rodadas de PCR). Inesperadamente, a análise NGS mostrou que a proporção de moléculas quiméricas BC-ROI em produtos de PCR convencionais (0,32% em média) é apenas ligeiramente maior do que a observada para produtos ePCR (Tabela 2, PCR convencional, tempo de alongamento de 30 s). Além disso, a análise das frequências de moléculas quiméricas por BC mostrou que a PCR convencional leva a um ligeiro aumento de produtos espúrios de baixa abundância em comparação com ePCR, que foi mais pronunciado para a biblioteca-83 (Fig. 4). No entanto, isso não afetou a frequência média de produtos quiméricos (leituras) em amostras preparadas por ePCR e PCR convencional. Assim, concluímos que ambas as abordagens de emulsão e PCR convencional com as configurações otimizadas podem ser usadas com sucesso para a identificação eficaz de associações BC-ROI inicialmente desconhecidas presentes em bibliotecas de plasmídeo MPRA.

Comparação de abordagens de PCR em termos de proporção de produtos quiméricos gerados por BC a partir de bibliotecas MPRA. As regiões BC-ROI da biblioteca-71 e biblioteca-83 foram amplificadas por emulsão e PCR convencional de duas rodadas usando as mesmas configurações (10 pg de DNA modelo, 15 ciclos de amplificação e tempo de alongamento de 30 s na rodada # 1 PCR, 1 /100th dos produtos purificados da rodada # 1 PCR como modelo, 18 ciclos de amplificação e tempo de alongamento de 30 s na rodada # 2 PCR) e subsequentemente submetidos a NGS. Os experimentos foram feitos em duplicatas e os valores médios da proporção de produtos quiméricos por BC são plotados como histogramas separadamente para a biblioteca-71 (uma) e biblioteca-83 (b). Picos pronunciados em valores médios de proporção de produtos quiméricos por BC são principalmente resultado da baixa cobertura de NGS de alguns BCs (ou seja, os picos representam principalmente casos com 1 combinação quimérica BC-ROI por vários genuínos)


Publicações

Reconexão local de interações genoma-lâmina nuclear por transcrição.
Brueckner L, Zhao PA, van Schaik T, Leemans C, Sima J, Peric-Hupkes D, Gilbert DM, van Steensel B.
EMBO J. 2020, 21 de fevereiro: e103159.

Identificação de alto rendimento de SNPs humanos que afetam a atividade do elemento regulador
van Arensbergen J, Pagie L, FitzPatrick VD, de Haas M, Baltissen MP, Comoglio F, van der Weide RH, Teunissen H, Vosa U, Franke L, de Wit E, Vermeulen M, Bussemaker HJ, van Steensel B.
Nature Genetics 2019, avanço online.

As características intrínsecas do promotor e da cromatina local determinam a repressão gênica em LADs.
Leemans C, van der Zwalm M, Brueckner L, Comoglio F, van Schaik T, Pagie L, van Arensbergen J, van Steensel B.
Cell 2019. 177: 852-864

Quantificação fácil de edição CRISPR / Cas9 dirigida por modelo.
Brinkman EK, Kousholt AN, Harmsen T, Leemans C, Chen T, Jonkers J, van Steensel B.
Nucleic Acids Res. 201846: e58

Mapeamento da organização do genoma 3D em relação aos compartimentos nucleares usando TSA-Seq como régua citológica.
Chen Y, Zhang Y, Wang Y, Zhang L, Brinkman EK, Adam SA, Goldman R, van Steensel B, Ma J e Belmont AS.
J Cell Biol 2018217: 4025-4048

A grande fração de heterocromatina nos neurônios de Drosophila é ligada tanto pela lamina do tipo B quanto pela HP1a.
Pindyurin AV, Ilyin AA, Ivankin AV, Tselebrovsky MV, Nenasheva VV, Mikhaleva EA, Pagie L, van Steensel B e Shevelyov YY.
Epigenética Cromatina 20181165

CHRAC / ACF contribuem para o estado fundamental repressivo da cromatina.
Scacchetti A, Brueckner L, Jain D, Schauer T, Zhang X, Schnorrer F, van Steensel B, Straub T e Becker PB.
Life Sci Alliance 20181, e201800024

Cinética e fidelidade do reparo de quebras de DNA de fita dupla induzidas por Cas9.
Brinkman EK, Chen T, de Haas M, Holland HA, Akhtar W, van Steensel B.
Mol Cell, 201870: 801-813

Perfil DamID de sítios dinâmicos de ligação de Polycomb no desenvolvimento e tumorigênese do disco imaginal de Drosophila.
La Fortezza M, Grigolon G, Cosolo A, Pinduyrin A, Breimann L, Blum H, van Steensel B, Classen AK. Epigenética Cromatina 201811: 27

Mapeamento de todo o genoma da atividade do promotor autônomo em células humanas
Van Arensbergen J *, FitzPatrick VD, de Haas M, Pagie L, Sluimer J, Bussemaker HJ *, van Steensel B *. * autores co-correspondentes
Nature Biotechnol. 2017 fev35 (2): 145-153

Avaliação de alto rendimento dos efeitos dependentes do contexto das proteínas da cromatina.
Brueckner L, van Arensbergen J, Akhtar W, Pagie L, van Steensel B.
Epigenética e cromatina 20169: 43

Um sistema de quebra de fita dupla simples revela a dinâmica e os mecanismos de reparo em heterocromatina e eucromatina.
Janssen A, Breuer GA, Brinkman EK, van der Meulen AI, Borden SV, van Steensel B, Bindra RS, LaRocque JR, Karpen GH.
Genes Dev. 201630: 1645-1657

Sistemas DamID indutíveis para mapeamento genômico de proteínas da cromatina em Drosophila
Pindyurin AV *, Pagie L, Kozhevnikova EN, van Arensbergen J, van Steensel B * (* co-autores correspondentes)
Nucleic Acids Res. 201644: 5646-57

Mapas do genoma das interações da lâmina nuclear em células humanas individuais.
Tipo J, Pagie L, de Vries SS, Nahidiazar L, Dey SS, Bienko M, Zhan Y, Lajoie B, de Graaf CA, Amendola M, Fudenberg G, Imakaev M, Mirny LA, Jalink K, Dekker J, van Oudenaarden A , van Steensel B.
Cell 2015163: 134-147

Usando TRIP para análise de efeito de posição de todo o genoma em células em cultura.
Akhtar W, Pindyurin AV, de Jong J, Pagie L, Ten Hoeve J, Berns A, Wessels LF, van Steensel B, van Lohuizen M.
Nat Protoc. 9: 1255-1281

Domínios de desregulação da expressão gênica em todo o genoma na síndrome de Down & # 8217s.
Letourneau A, Santoni FA, Bonilla X, Sailani MR, Gonzalez D, Tipo J, Chevalier C, Thurman R, Sandstrom RS, Hibaoui Y, Garieri M, Popadin K, Falconnet E, Gagnebin M, Gehrig C, Vannier A, Guipponi M , Farinelli L, Robyr D, Migliavacca E, Borel C, Deutsch S, Feki A, Stamatoyannopoulos JA, Herault Y, van Steensel B, Guigo R, Antonarakis SE.
Nature 508: 345-350

Efeitos da posição da cromatina testados por milhares de repórteres integrados em paralelo.
Akhtar W, de Jong J, Pindyurin AV, Pagie L, Meuleman W, de Ridder J, Berns A, Wessels LF, van Lohuizen M, van Steensel B.
Célula. Agosto de 2013 15154 (4): 914-27

Programação diferencial de células B em camundongos deficientes em AID.
Hogenbirk MA, Heideman MR, Velds A, van den Berk PC, Kerkhoven RM, van Steensel B, Jacobs H.
PLoS One. 298 (7) de julho de 2013: e69815

A paisagem genômica dos subtipos de histona ligante somático H1.1 a H1.5 em células humanas.
Izzo A, Kamieniarz-Gdula K, Ramírez F, Noureen N, Tipo J, Manke T, van Steensel B, Schneider R.
Cell Rep. 2013 Jun 273 (6): 2142-54

Dinâmica unicelular das interações genoma-lâmina nuclear.
Tipo J, Pagie L, Ortabozkoyun H, Boyle S, de Vries SS, Janssen H, Amendola M, Nolen LD, Bickmore WA, van Steensel B.
Célula. Março de 2013 28153 (1): 178-92

Um modelo de rede da organização molecular da cromatina em Drosophila.
van Bemmel JG, Filion GJ, Rosado A, Talhout W, de Haas M, van Welsem T, van Leeuwen F, van Steensel B.
Mol Cell. Fev 2013 2149 (4): 759-71

Organização cromatina: forma para funcionar.
de Graaf CA, van Steensel B.
Curr Opin Genet Dev. 23 de abril de 2013 (2): 185-90

As interações lâmina nuclear constituintes-genoma são altamente conservadas e associadas à sequência rica em A / T.
Meuleman W, Peric-Hupkes D, Tipo J, Beaudry JB, Pagie L, Kellis M, Reinders M, Wessels L, van Steensel B.
Genome Res. 23 de fevereiro de 2013 (2): 270-80

Hidroximetiluracila glucosilada, base de DNA J, impede a leitura transcricional em Leishmania.
van Luenen HG, Farris C, Jan S, Genest PA, Tripathi P, Velds A, Kerkhoven RM, Nieuwland M, Haydock A, Ramasamy G, Vainio S, Heidebrecht T, Perrakis A, Pagie L, van Steensel B, Myler PJ, Borst P.
Célula. Agosto de 2012 31150 (5): 909-21

Mapeamento de regiões do genoma que interagem com a lâmina A e a progerina.
Kubben N, Adriaens M, Meuleman W, Voncken JW, van Steensel B, Misteli T.
Cromossomo. 2012 Out121 (5): 447-64

As interações entre os domínios Polycomb são guiadas pela arquitetura cromossômica.
B Tolhuis, M Blom, RM Kerkhoven, L Pagie, H Teunissen, M Nieuwland, M Simonis, W de Laat, M van Lohuizen, B van Steensel
PLoS Genet. Março de 2011, 7 (3): e1001343

Papel da lâmina nuclear na organização do genoma e expressão gênica.
D Peric-Hupkes, B. van Steensel
Cold Spring Harbor Symp. Quant. Biol. 2010, 75: 517-24

A proteína isolante SU (HW) faz o ajuste fino das interações da lâmina nuclear do genoma da Drosophila.
JG van Bemmel, L Pagie, U Braunschweig, W Brugman, W Meuleman, RM Kerkhoven, B van Steensel
PloS ONE. 2010, 5 (11): e15013

Ferramentas genômicas para desvendar a arquitetura cromossômica.
B van Steensel, J Dekker
Nature Biotechnol. 13 de outubro de 2010, 28 (10): 1089-1095

Um papel direto da coesina na regulação gênica e na resposta da ecdisona nas glândulas salivares de Drosophila.
A Pauli, JG van Bemmel, RA Oliveira, T Itoh, K Shirahige, B van Steensel, K Nasmyth
Current Biol. 26 de outubro de 2010, 20 (20): 1787-98

O mapeamento sistemático da localização da proteína revela cinco tipos principais de cromatina nas células de Drosophila.
GJ Filion, JG van Bemmel, U Braunschweig, W Talhout, J Kind, LD Ward, W Brugman, IJ de Castro, RM Kerkhoven, HJ Bussemaker, B van Steensel
Célula. 15 de outubro de 2010, 143 (2): 212-24

Mapas moleculares da reorganização das interações genoma-lâmina nuclear durante a diferenciação.
D Peric-Hupkes, W Meuleman, L Pagie, SW Bruggeman, I Solovei, W Brugman, S Gräf, P Flicek, RM Kerkhoven, M van Lohuizen, M Reinders, L Wessels, B van Steensel
Mol. Célula. 28 de maio de 2010, 38 (4): 603-13

Análise de rede bayesiana de interações de direcionamento na cromatina.
B van Steensel, U Braunschweig, GJ Filion, M Chen, JG van Bemmel, T Ideker
Genome Res. Fev 2010, 20 (2): 190-200

A ligação da histona H1 é inibida pela variante da histona H3.3.
U Braunschweig, GJ Hogan, L Pagie, B van Steensel
EMBO J. 2 de dezembro de 2009, 28 (23): 3635-45

Organização do domínio dos cromossomos humanos revelada pelo mapeamento das interações da lâmina nuclear.
L Guelen, L Pagie, E Brasset, W Meuleman, MB Faza, W Talhout, BH Eussen, A de Klein, L Wessels, W de Laat, B van Steensel
Natureza. 12 de junho de 2008, 453 (7197): 948-51

Organização do domínio da cromatina global do genoma de Drosophila.
E de Wit, U Braunschweig, F Greil, HJ Bussemaker, B van Steensel
PLoS Genet. Março de 2008, 4 (3): e1000045

Ligando a coesina à regulação gênica.
D Peric-Hupkes, B. van Steensel
Célula. 21 de março de 2008, 132 (6): 925-8

SUUR junta subconjuntos separados de alvos de lamina do tipo PcG, HP1 e B em Drosophila.
AV Pindyurin, C Moorman, E de Wit, SN Belyakin, ES Belyaeva, GK Christophides, FC Kafatos, B van Steensel, IF Zhimulev
J. Cell Science. 15 de julho de 2007, 120 (Pt 14): 2344-51

Prospero atua como um interruptor binário entre a autorrenovação e a diferenciação nas células-tronco neurais de Drosophila.
SP Choksi, TD Southall, T Bossing, K Edoff, E de Wit, BE Fischer, B van Steensel, G Micklem, AH Brand
Dev. Célula. Dez 2006, 11 (6): 775-89

As proteínas heterocromatinas humanas formam grandes domínios contendo genes KRAB-ZNF.
MJ Vogel, L Guelen, E de Wit, D Peric-Hupkes, M Lodén, W Talhout, M Feenstra, B Abbas, AK Classen, B van Steensel
Genome Res. Dez 2006, 16 (12): 1493-504

Organização nuclear de domínios de cromatina ativos e inativos descobertos por captura de conformação de cromossomos no chip (4C).
M Simonis, P Klous, E Splinter, Y Moshkin, R Willemsen, E de Wit, B van Steensel, W de Laat
Nature Genet. Nov 2006, 38 (11): 1348-54

Pontos críticos de co-localização do fator de transcrição no genoma de Drosophila melanogaster.
C Moorman, LV Sun, J Wang, E de Wit, W Talhout, LD Ward, F Greil, XJ Lu, KP White, HJ Bussemaker, B van Steensel
Proc. Nat. Acad. Sci. EUA. 8 de agosto de 2006, 103 (32): 12027-32

Caracterização do genoma de Drosophila melanogaster na lâmina nuclear.
H Pickersgill, B Kalverda, E de Wit, W Talhout, M Fornerod, B van Steensel
Nature Genet. Set 2006, 38 (9): 1005-14

Perfil de todo o genoma da ligação da cromatina PRC1 e PRC2 Polycomb em Drosophila melanogaster.
B Tolhuis, E de Wit, I Muijrers, H Teunissen, W Talhout, B van Steensel, M van Lohuizen
Nature Genet. Junho de 2006, 38 (6): 694-9

Direcionamento específico do gene do cromossomo do complexo de compensação de dosagem de Drosophila.
GD Gilfillan, T Straub, E de Wit, F Greil, R Lamm, B van Steensel, PB Becker
Genes Dev. 1 de abril de 2006, 20 (7): 858-70

Complexos distintos HP1 e Su (var) 3-9 ligam-se a conjuntos de genes coexpressos no desenvolvimento, dependendo da localização cromossômica.
F Greil, I van der Kraan, J Delrow, JF Smothers, E de Wit, HJ Bussemaker, R van Driel, S Henikoff, B van Steensel
Genes Dev. 15 de novembro de 2003, 17 (22): 2825-38

Perfil epigenômico usando microarrays.
B van Steensel, S Henikoff
BioTechniques. Agosto de 2003, 35 (2): 346-50, 352-4, 356-7

Mapeamento da interação proteína-DNA usando microarrays de caminhos de blocos genômicos em Drosophila.
LV Sun, L Chen, F Greil, N Negre, TR Li, G Cavalli, H Zhao, B Van Steensel, KP White
Proc. Nat. Acad. Sci. EUA. 5 de agosto de 2003, 100 (16): 9428-33

Ligação genômica pela rede de fatores de transcrição Drosophila Myc, Max, Mad / Mnt.
A Orian, B van Steensel, J Delrow, HJ Bussemaker, L Li, T Sawado, E Williams, LW Loo, SM Cowley, C Yost, S Pierce, BA Edgar, SM Parkhurst, RN Eisenman
Genes Dev. 1 de maio de 2003, 17 (9): 1101-14

O perfil de metilação do DNA em todo o genoma revela alvos de transposon da CROMOMETILASE3.
R Tompa, CM McCallum, J Delrow, JG Henikoff, B van Steensel, S Henikoff
Current Biol. 8 de janeiro de 2002, 12 (1): 65-8


Assista o vídeo: EXCEL - Código de barras EAN-13 - Atualizado 2020 (Agosto 2022).