Em formação

Análise de dados de dados de sequenciamento do transcriptoma

Análise de dados de dados de sequenciamento do transcriptoma



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Quero aprender mais sobre a análise de dados e estatísticas sobre dados de sequenciamento do transcriptoma. Gostaria de ler alguns artigos e livros importantes da área e talvez alguns MOOCS, se estiverem disponíveis.

Mais precisamente, tenho dados de genes expressos diferencialmente em diferentes grupos de indivíduos e quero testar: se os genes são mais expressos em um grupo, os genes também são mais polimórficos?

Alguma ideia?


Análise de transcriptoma usando sequenciamento de última geração

Pesquisas atualizadas em biologia, biotecnologia e medicina requerem tecnologias rápidas de análise de genoma e transcriptoma para a investigação do estado, fisiologia e atividade celular. Aqui, a tecnologia de microarray e o sequenciamento de transcritos de última geração (RNA-Seq) são o estado da arte. Uma vez que a tecnologia de microarray é limitada à quantidade de RNA, à quantificação dos níveis de transcrição e à informação da sequência, o RNA-Seq oferece possibilidades quase ilimitadas na bioanálise moderna. Este capítulo apresenta uma descrição detalhada do sequenciamento de próxima geração (NGS), descreve o impacto dessa tecnologia na análise do transcriptoma e explica suas possibilidades de explorar o mundo moderno do RNA.

Resumo gráfico

Destaques

► Apresentamos uma descrição detalhada do sequenciamento de última geração (NGS). ► Descrevemos as tecnologias e plataformas para a análise do transcriptoma. ► Explicamos a análise dos dados NGS. ► Informamos sobre novas aplicações do NGS.


Fundo

Os flavonóides são um grupo de metabólitos secundários amplamente distribuídos nas plantas. Eles foram divididos em vários subgrupos principais, como antocianinas, proantocianidinas, flavonóis, flavonas e isoflavonas [1]. Esses metabólitos desempenham papéis biológicos importantes especificamente relacionados ao desenvolvimento e defesa das plantas. As antocianinas são pigmentos solúveis em água que estão principalmente envolvidos na coloração de flores e frutos. Portanto, as antocianinas são importantes para atrair polinizadores e também influenciam na dispersão das sementes [2]. Além disso, as antocianinas são antioxidantes naturais [3]. As proantocianidinas são taninos condensados ​​e concentram-se principalmente nas sementes, mas também afetam o sabor da fruta [4]. Flavonóis, flavonas, flavanonas e isoflavonas ajudam a proteger as plantas da radiação ultravioleta e patógenos [5]. Além disso, os flavonóides são essenciais para as adaptações das plantas aos estresses bióticos e abióticos [6].

A via de biossíntese dos flavonóides é um ramo da via dos fenilpropanóides [7] e requer várias enzimas. Por exemplo, os genes que codificam PAL (fenilalanina amônia liase), CHS (chalcona sintase), CHI (chalcona isomerase) e F3H (flavanona 3-hidroxilase) são os primeiros genes biossintéticos (EBGs) que produzem precursores comuns nas etapas iniciais do via [8]. Os genes biossintéticos tardios (LBGs) contribuem para um estágio posterior, durante o qual produtos flavonóides específicos são sintetizados, como antocianinas, proantocianidinas e flavonóis. Os LBGs incluem aqueles que codificam DFR (diidroflavonol 4-redutase), ANS (antocianina sintase) e UFGT (UDP-glicose: flavonóide 3-glucosiltransferase), que estão especificamente envolvidos na biossíntese de antocianinas [9]. Em contraste, LAR (leucoantocianidina redutase) e ANR (antocianina redutase) são enzimas chave que medeiam a biossíntese de proantocianidina [10]. Além disso, FLS (flavonol sintase) é específico para a biossíntese de flavonóis [11]. Os genes estruturais da via de biossíntese de flavonóides são transcricionalmente controlados pelo complexo MYB-bHLH-WDR (MBW) que compreende um fator de transcrição MYB, uma hélice-alça-hélice básica (bHLH) e uma proteína de repetição WD [12].

A biossíntese de flavonóides é afetada por vários fatores, incluindo luz [13], temperatura [14], déficit hídrico [15] e deficiência de nutrientes [16]. Além disso, os fitormônios estão entre os reguladores mais importantes da biossíntese de compostos flavonóides em plantas. Os efeitos dos hormônios vegetais, como jasmonato [17, 18], ácido abscísico [19, 20], auxina [21], etileno [22], citocinina [23] e giberelina [24], no acúmulo de flavonóides foram amplamente estudado.

Jasmonatos são oxilipinas (ácidos graxos oxigenados) sintetizados pelas vias octadecanoide / hexadecanoide [25]. O ácido jasmônico pode ser metabolizado em vários derivados, incluindo metil jasmonato (MeJA), jasmonoil-isoleucina (JA-Ile), ácido jasmonil-1-aminociclopropano-1-carboxílico (JA-ACC), derivados glucosilados de JA (por exemplo, JA- O-Glc) e cis-jasmona. No entanto, desses derivados, apenas MeJA e JA-Ile foram bem caracterizados [26]. Vários estudos revelaram que a aplicação MeJA induz a biossíntese de flavonóides em diferentes espécies de frutas, como a maçã (Malus domestica) [27], uva [28], mirtilo [29] e morango (Fragaria × ananassa) [30]. Na pêra, a aplicação pós-colheita de MeJA induz acúmulo de antocianina na casca da fruta sob irradiação UV-B / Vis [31]. Além da antocianina, Ni et al. [22] relataram que o MeJA aumenta o acúmulo de outros derivados de flavonóides, incluindo flavona e isoflavona, na pêra.

O mecanismo molecular subjacente ao acúmulo de antocianina induzida por jasmonato foi esclarecido em Arabidopsis thaliana (Arabidopsis) e maçã [17, 32, 33]. As proteínas do domínio ZIM do jasmonato (JAZs) são substratos do complexo SCF COI1 e regulam negativamente a via de sinalização do jasmonato [34, 35]. As proteínas JAZ podem interagir diretamente com MYB e bHLH e interromper a formação do complexo MBW [32, 36]. Depois que o sinal de jasmonato é percebido, as proteínas JAZ são recrutadas por COI1 para o complexo SCF COI1 para ubiquitinação e são subsequentemente degradadas pela via do proteassoma 26S [32]. Isso desencadeia a liberação de fatores de transcrição MYB e bHLH e a formação do complexo MBW para ativar a expressão de genes estruturais da via de biossíntese de flavonóides [18, 33]. Os níveis de expressão dos genes dos fatores de transcrição MYB e bHLH são regulados positivamente por MeJA em Arabidopsis e maçã, sugerindo que esses fatores de transcrição são regulados pela via de sinalização de jasmonato. No entanto, o mecanismo molecular associado à biossíntese de flavonóides induzida por MeJA em pêra é amplamente desconhecido. Portanto, no presente estudo, calos de pera tratados com MeJA foram submetidos a uma análise abrangente do transcriptoma para identificar os genes diferencialmente expressos (DEGs) entre calos de pera tratados com MeJA e não tratados. Além disso, uma rede de co-expressão foi construída para detectar os transcritos especificamente relacionados à biossíntese de flavonóides induzida por MeJA. Este estudo gerou um pool de genes candidatos que devem ser analisados ​​em maiores detalhes para esclarecer o mecanismo molecular associado à biossíntese de flavonóides induzida por MeJA em pêra. Especificamente, examinamos calos de pera devido à falta de restrições sazonais e à facilidade com que seus efeitos genéticos podem ser observados em um sistema homogêneo, o que pode acelerar substancialmente o estudo das funções gênicas em pera.


Resultados

Mapa de classificação da via dos genes diferencialmente expressos com base no sequenciamento do transcriptoma

As bibliotecas de cDNA foram construídas a partir dos grupos W e X de peixes tangerina e sequenciadas usando o sistema Illumina Hiseq2000. Leituras de alta qualidade foram montadas. Depois de remover as sequências sobrepostas parciais, foi obtido um total de 77.312 sequências distintas (All-Unigene, tamanho médio: 1138 pb, N50: 2334 pb). Neste unigene, 49,06% (37.927) eram menores que 500 bp, 50,94% (39.385) eram maiores que 500 bp, em que 34,38% (26.578) eram maiores que 1000 bp. Encontramos 54 genes com expressão diferencial entre os dois grupos, 29 e 25 genes são regulados para cima e para baixo em peixes tangerina do Grupo X, respectivamente. A via metabólica apresentou os genes expressos mais diferentemente (Fig. 1a eb), em que o metabolismo lipídico, a transdução de sinal e os mapas de visão geral mostraram 10, 6 e 13 genes a serem expressos diferencialmente, respectivamente (Fig. 1a). E o rico fator de biossíntese de esteróides e metabolismo de glicerolipídeos é o maior de todos (Fig. 1b). Os detalhes dos genes expressos diferenciais entre os dois grupos foram apresentados na Tabela 1. Os dados de sequenciamento neste estudo foram depositados no banco de dados Sequence Read Archive (SRA) (número de acesso: PRJNA613186).

uma Mapa de classificação da via dos genes expressos diferencialmente. b Fator rico dos genes diferencialmente expressos de diferentes vias com base no sequenciamento do transcriptoma

Análise de metabólitos diferenciais de dois grupos

Analisamos os perfis metabólicos dos dois grupos por LC-MS nos modos de varredura positivo (ESI +) e negativo (ESI−) e selecionamos 9249 ferros para análises subsequentes (4155 ferros no modo ESI + e 5094 ferros no modo ESI−).

Os dados normalizados foram analisados ​​por PCA e PLS-DA com análise multivariada. O resultado da PCA mostrou que os íons positivos e negativos dos diferentes grupos estavam nos dois clusters e foram separados claramente pelos dois primeiros componentes (Fig. 2a). O resultado do PLS-DA mostrou a separação clara dos dois grupos (Fig. 2b), sugerindo as alterações bioquímicas significativas. A análise de agrupamento hierárquico (HCA) dos metabólitos diferenciais mostrou que o Grupo X e W apresentaram diferença significativa (Fig. 2c). As informações desses biomarcadores metabolômicos foram listadas na Tabela 2.

uma O gráfico de dispersão das pontuações do PCA nos modos de varredura de íon positivo (esquerda) e de íon negativo (direita) para os dois grupos. b PLS-DA pontua o gráfico de dispersão nos modos de varredura de íon positivo (esquerda) e íon negativo (direita) para os dois grupos. c O mapa de calor de metabólitos diferenciais das vias relacionadas entre os dois grupos no modo positivo e negativo. Cada linha representa um metabólito diferencial e cada cruzamento representa um grupo de amostra de plasma. Cores diferentes representam intensidades de abundância diferentes, e a intensidade de abundância mais alta mostra um aumento gradual da cor escura para a cor vermelha

Para identificar os metabólitos, usamos o banco de dados de acesso livre da Enciclopédia de Genes e Genomas de Kyoto (KEGG) para elucidar a função putativa dos metabólitos. 44 e 20 ferros foram identificados pelo nível MS1 e MS2 no modo positivo, respectivamente, e 24 e 11 ferros no nível MS1 e MS2 no modo negativo, respectivamente. Os detalhes dos íons diferenciais entre os dois grupos foram apresentados na Tabela 3.

As vias comuns de metabólitos e genes diferenciais

Na via do metabolismo do retinol, os metabólitos do retinol, 9-cis-retinol e 11-cis-retinol foram maiores em peixes tangerina do Grupo X do que aqueles do Grupo W, a expressão do gene RDH (retinol desidrogenase) foi consistentemente maior no Grupo X (Fig. 3a ) Na via do metabolismo dos glicerolipídios, a expressão do gene da triacilglicerol lipase foi maior no peixe tangerina do Grupo X, e os metabólitos glicerofosfóricos também foram maiores no Grupo X (Fig. 3b). Na biossíntese da via dos ácidos graxos insaturados, a expressão do gene estearoil-CoA e metabólitos DPA (ácido docosapentaenóico) foram maiores nos peixes do Grupo X do que no Grupo W (Fig. 3c).

Vias dos genes e metabólitos expressos diferencialmente com base no transcriptoma e metaboloma. uma Metabolismo de retinol b Metabolismo de glicerolipídeo c Biossíntese de gordura insaturada

TFIIF expressão gênica e metilação do DNA

Como é mostrado na Fig. 4a, Fator de transcrição geral IIF (TFIIF) a expressão do gene foi maior no peixe tangerina do Grupo X do que no Grupo W. Em seguida, analisamos as ilhas CpG a - 5000 bp a montante do local de iniciação da transcrição (designado como 0) de TFIIF por software de análise de metilação. Como mostrado na Fig. 4b, uma ilha CpG contendo 9 locais CpG existia em - 3619 a - 3574 bp de TFIIF gene. O nível de metilação do DNA total foi significativamente maior nos peixes do Grupo X do que no Grupo W (Tabela 4).

TFIIF expressão gênica e metilação do DNA. uma TFIIF expressão genetica. b Ilustração da região dos locais das ilhas CpG, que inclui 9 locais CpG, padrões de metilação do DNA dos dois grupos (X e W) analisados ​​pelo BSP. Cada linha representa um clone bacteriano individual e cada círculo representa um único dinucleotídeo CpG. Os círculos abertos mostram CpGs não metilados e os círculos pretos mostram CpGs metilados

Ezh1 expressão gênica e metilação de histonas

A expressão de mRNA de histona metiltransferase ezh1 gene foi menor no peixe tangerina do Grupo X (Fig. 5a). Como a histona metiltransferase Ezh1 pode metilar ‘Lys-27’ da histona H3, analisamos os níveis de H3K27me3 dos dois grupos. Os resultados mostraram que o nível de H3K27me3 também foi menor no peixe tangerina do Grupo X do que no Grupo W (Fig. 5b).

uma Validação de ezh1 Expressão de mRNA. b O nível de proteína H3K27me3 entre o Grupo X e W. Os dados são a média ± SEM (n = 6), a diferença significativa é marcada com um asterisco (P & lt 0,05)


Um guia passo a passo para enviar dados de RNA-Seq ao NCBI

A análise dos dados do transcriptoma de organismos não-modelo contribui para a nossa compreensão de diversos aspectos da biologia evolutiva, incluindo processos de desenvolvimento, especiação, adaptação e extinção. Subjacente a essa diversidade está um recurso compartilhado, a geração de enormes quantidades de dados de sequência. Os requisitos de disponibilidade de dados na maioria dos periódicos obrigam os pesquisadores a disponibilizar publicamente seus dados brutos do transcriptoma, e os bancos de dados armazenados no National Center for Biotechnology Information (NCBI) são uma escolha popular para deposição de dados. Infelizmente, o envio bem-sucedido de sequências brutas para o Sequence Read Archive (SRA) e conjuntos de transcriptoma para o Transcriptome Shotgun Assembly (TSA) pode ser desafiador para usuários novatos, atrasando significativamente a disponibilidade e publicação dos dados. Pesquisadores da Universidade de Medicina Veterinária de Hannover apresentam dois protocolos abrangentes para o envio de dados de RNA-Seq para bancos de dados do NCBI, acompanhados por um site fácil de usar que facilita o envio oportuno de dados por pesquisadores de qualquer nível de experiência.


RNA-seq: o princípio

O RNA-seq, também chamado de sequenciamento shotgun do transcriptoma completo, refere-se ao uso de tecnologias de sequenciamento de alto rendimento (veja abaixo) para caracterizar o conteúdo de RNA e a composição de uma determinada amostra. Devido às limitações tecnológicas no momento, as informações de sequência das transcrições não podem ser recuperadas como um todo, mas são decompostas aleatoriamente em leituras curtas de até várias centenas de pares de bases (Fig. 2). Na ausência de informações do genoma ou do transcriptoma, as transcrições primeiro precisam ser reconstruídas a partir dessas leituras (ou pares de leitura), o que é conhecido como de novo conjunto. No caso em que as informações de transcrição ou genoma estão prontamente disponíveis, as leituras podem ser alinhadas diretamente na referência. Além disso, a contagem das leituras que caem em uma determinada transcrição fornece uma medição digital da abundância da transcrição, que serve como ponto de partida para inferência biológica (Fig. 1).


Índice (16 capítulos)

Comparação de perfis de expressão gênica em organismos eucarióticos não modelo com RNA-Seq

Análise de dados de microarray para perfil de transcriptoma

Análise de via e rede de genes expressos diferencialmente em transcriptomas

QuickRNASeq: guia para implementação de pipeline e para visualização interativa de resultados

Rastreando isoformas emendadas alternativas de leituras longas por SpliceHunter

Análise de estrutura de transcrição baseada em RNA-Seq com TrBorderExt

Análise de locais de edição de RNA a partir de dados de RNA-Seq usando GIREMI

Análise bioinformática de dados de sequenciamento de MicroRNA

Análise de Dados de Expressão de MicroRNA Baseada em Microarray com Biocondutor

Identificação e análise de expressão de RNAs não codificantes intergênicos longos

Análise de dados de RNA-Seq usando transcrições TE

Análise computacional de interações RNA-proteína via sequenciamento profundo

Predição de ruído de expressão gênica a partir de variações de expressão gênica

Um protocolo para análise de impressão epigenética com dados de RNA-Seq

Análise de transcriptoma de célula única usando SINCERA Pipeline

Modelagem matemática e deconvolução da heterogeneidade molecular identificam novas subpopulações em tecidos complexos


Big Data para a bancada: análise do transcriptoma para alunos de graduação

Métodos baseados em sequenciamento de próxima geração (NGS) estão revolucionando a biologia. Sua prevalência exige que os biólogos tenham cada vez mais conhecimento sobre métodos computacionais para gerenciar a enorme escala de dados. Como tal, a introdução antecipada à análise NGS e a conexão conceitual com experimentos de laboratório úmido são cruciais para o treinamento de jovens cientistas. No entanto, desafios significativos impedem a introdução desses métodos na sala de aula de graduação, incluindo a necessidade de programas de computador especializados e conhecimento de codificação de computador. Aqui, descrevemos uma experiência de pesquisa de graduação baseada em um semestre de curso em uma faculdade de artes liberais combinando análise de sequenciamento de RNA (RNA-seq) com experimentos de laboratório úmido dirigidos por alunos para investigar as respostas das plantas à luz. Os alunos derivaram hipóteses com base na análise de dados de RNA-seq e desenvolveram estudos de acompanhamento da expressão gênica e do crescimento das plantas. Nossas avaliações indicam que os alunos adquiriram conhecimento de análise de big data e codificação de computador, no entanto, a exposição precoce a métodos computacionais pode ser benéfica. Nosso curso requer conhecimento prévio mínimo de biologia vegetal, é fácil de replicar e pode ser modificado para um módulo mais curto de investigação dirigida. Esta estrutura promove a exploração das ligações entre a expressão gênica e o fenótipo usando exemplos que são claros e tratáveis ​​e melhora as habilidades computacionais e a autoeficácia da bioinformática para preparar os alunos para a era de "big data" da biologia moderna.

Bonecos

Resumo da programação de ...

Resumo do cronograma de atividades das aulas.

Análise do aluno da expressão gênica ...

Análise do aluno da expressão gênica e fenótipo de pacientes tratados com sombra Arabidopsis mudas. (A) Fluxograma ...


Métodos computacionais para análise de dados de sequenciamento de última geração

Este livro fornece uma pesquisa aprofundada de alguns dos desenvolvimentos recentes em NGS e discute os desafios matemáticos e computacionais em várias áreas de aplicação de tecnologias NGS. Os 18 capítulos apresentados neste livro foram escritos por especialistas em bioinformática e representam o trabalho mais recente nos principais laboratórios que contribuem ativamente para o campo de rápido crescimento da NGS. O livro é dividido em quatro partes:

Parte I concentra-se em computação e infraestrutura experimental para análise NGS, incluindo capítulos sobre computação em nuvem, pipelines modulares para reconstrução de via metabólica, estratégias de pool para sequenciamento viral massivo e protocolos de sequenciamento de alta fidelidade.

Parte II concentra-se na análise de dados de sequenciamento de DNA, cobrindo o problema clássico de andaime, detecção de variantes genômicas, incluindo inserções e deleções, e análise de dados de sequenciamento de metilação de DNA.

A Parte III é dedicada à análise de dados de RNA-seq. Esta parte discute algoritmos e compara ferramentas de software para montagem de transcriptoma, juntamente com métodos para detecção de splicing alternativo e ferramentas para quantificação de transcriptoma e análise de expressão diferencial.

A Parte IV explora ferramentas computacionais para aplicações NGS em microbiômica, incluindo uma discussão sobre correção de erros de leituras NGS de populações virais, métodos para reconstrução de quasispécies virais e uma pesquisa de métodos de última geração e tendências futuras na análise de microbioma.

Métodos computacionais para análise de dados de sequenciamento de última geração:

  • Revê técnicas computacionais, como novos métodos de otimização combinatória, estruturas de dados, computação de alto desempenho, aprendizado de máquina e algoritmos de inferência
  • Discute os desafios matemáticos e computacionais em tecnologias NGS
  • Abrange correção de erros NGS, montagem de transcriptoma de genoma de novo, detecção de variantes de leituras NGS e muito mais

Este texto é uma referência para profissionais biomédicos interessados ​​em expandir seus conhecimentos de técnicas computacionais para análise de dados NGS. O livro também é útil para alunos de graduação e pós-graduação em bioinformática.

Bios do autor

Ion Mandoiu, PhD, é professor associado do Departamento de Ciência da Computação e Engenharia da University of Connecticut, EUA. Os seus principais interesses de investigação são na concepção e análise de algoritmos de aproximação para problemas de optimização NP-hard, particularmente na área da bioinformática. O Dr. Mandoiu é autor de mais de 100 artigos avaliados em periódicos e anais de conferências. Ele também coeditou (com A. Zelikovsky) um livro sobre Algoritmos de bioinformática: técnicas e aplicações (Wiley 2008).

Alexander Zelikovsky, PhD, é um Distinguished University Professor do Departamento de Ciência da Computação da Georgia State University, EUA. Sua pesquisa se concentra em algoritmos discretos e suas aplicações em biotecnologia e biologia computacional, bioinformática, VLSI CAD e redes sem fio. O Dr. Zelikovsky é autor de mais de 170 publicações referenciadas. Ele atuou como co-presidente do Simpósio Internacional de Pesquisa e Aplicações de Bioinformática (2005-2016) e do Workshop sobre Avanços Computacionais em Sequenciamento de Próxima Geração (2011-2015).


Comentários dos revisores

Relatório de revisores 1

Rohan Williams, Escola de Pesquisa Médica John Curtin, Universidade Nacional Australiana, Austrália. Indicado por Gavin Huttley

O RNA-Seq e o sequenciamento de alto rendimento relacionado estão recebendo atenção intensa devido ao seu potencial para pesquisar o transcriptoma de uma forma global imparcial. Embora seja provável que essas abordagens baseadas em sequenciamento permitirão um grande avanço nas tecnologias baseadas em microarray, também é altamente provável que erros sistemáticos imprevistos estarão presentes nesses dados e precisarão ser corrigidos para permitir a aplicação apropriada. Embora microarrays de expressão e arrays de tiling sejam conhecidos por estarem sujeitos a uma série de tais efeitos, até o momento tem havido pouca investigação de questões na literatura emergente de RNA-Seq. Oshlack e Wakefield agora apresentam uma reanálise de dados de vários estudos recentes de RNA-Seq para mostrar que a identificação da expressão diferencial é positivamente inclinada para transcrições mais longas (e tem o potencial de impactar a interpretação downstream em um nível funcional). Embora seja reconhecido que a contagem de tags será proporcional ao produto do nível de expressão e comprimento da transcrição, o ajuste para comprimento da transcrição não remove esse efeito: os autores mostram que o efeito surge do aumento da variância para transcrições encurtadas. Eles argumentam ainda que é improvável que esse efeito seja removido pela análise em nível de exon. Curiosamente, esse efeito não é observável em plataformas de expressão de microarray. Este artigo representa uma contribuição importante para o desenvolvimento contínuo da metodologia de análise para RNA-Seq e eu o recomendo para publicação no Biology Direct.

Relatório de revisores 2

Nicole Cloonan, Instituto de Biociência Molecular, Universidade de Queensland, Austrália. Indicado por Mark Ragan

Neste artigo, os autores descrevem "viés de comprimento de transcrição" em dados RNAseq, que é o poder estatístico reduzido para detectar a expressão gênica diferencial de mRNAs curtos quando comparados com mRNAs longos usando uma abordagem de "sequenciamento shotgun". Como as moléculas de mRNA fragmentadas aleatoriamente irão gerar menos marcadores de leitura curta para uma transcrição curta do que para uma transcrição mais longa, as mudanças na expressão entre dois transcritos (relativamente) mal amostrados são menos discerníveis do ruído de amostragem. Os autores examinam três estudos baseados em sequenciamento shotgun publicados para mostrar que esse viés existe nos dados de sequenciamento, mas não nos dados de microarray correspondentes das mesmas amostras. Esse viés contra transcrições curtas pode levar a uma sub-representação geral em testes de conjuntos de genes para categorias funcionais enriquecidas em genes curtos (como comunicação célula-célula, imunidade inata e transdução de sinal). Esta é uma descoberta importante que a comunidade de sequenciamento de RNA precisa estar ciente.

O manuscrito é geralmente bem escrito, e os autores fizeram bem em criar um manuscrito compreensível para um público biológico sem treinamento matemático ou estatístico especializado. Como todas as minhas (geralmente menores) preocupações com este manuscrito foram tratadas adequadamente, recomendo este manuscrito para publicação.

Relatório de revisores 3

James Bullard, Divisão de Bioestatística, Escola de Saúde Pública, Universidade da Califórnia, Berkeley, EUA. Indicado por Sandrine Dudoit

Em Oshlack e Wakefield, os autores demonstram uma relação entre o comprimento do gene e a significância observada de um teste estatístico em três estudos publicados (Marioni et al., Cloonan et al., Sultan et al.). Os autores demonstram que esta tendência observada não está presente na análise das mesmas amostras no estudo de Marioni quando são utilizados microarrays. Este "viés" é devido à dependência da variância da intensidade do processo de leitura, que é proporcional ao comprimento da transcrição sequenciada.

O revisor recomenda o artigo para publicação, pois as questões apresentadas são relevantes e importantes. Em particular, as questões apresentadas são bastante pertinentes com o advento de vários estudos de sequenciamento de alto rendimento. O revisor acredita que em sua forma atual o artigo se beneficiaria de algumas revisões para apresentar a matemática com mais rigor ou simplesmente apresentar as estatísticas descritas nos estudos ofensivos.

Contexto: parágrafo 2, "Nós formulamos hipóteses." Por que você está formulando hipóteses? Eu acho que esta frase precisa de referência a uma estatística de teste particular, então você realmente não precisa fazer nenhuma hipótese.

Resposta do autor: Acreditamos que a afirmação do artigo se refere a todos os métodos de análise estatística sob as premissas que declaramos, mas não testamos e realmente não podemos testar todos os métodos possíveis. Portanto, usamos a palavra hipótese, mas também demos um exemplo na seção de métodos.

Contexto: parágrafo 3, “Todos os métodos de detecção de.” Esta frase não parece um pouco forte?

Resposta do autor: Alteramos isso para "Métodos mais estatísticos".

Resultados: parágrafo 2, você pode comentar por que o "viés de comprimento" é mais forte para genes de expressão mais baixa? Além disso, acho melhor apresentar todos os dados nos gráficos, em vez de excluir o compartimento do meio.

Resposta do autor: Adicionamos a frase: "Acreditamos que a inclinação é menor em genes altamente expressos devido à observação de que quase todos esses genes têm poder suficiente para serem denominados diferencialmente expressos neste conjunto de dados, embora os valores de p sejam mais altos para genes mais curtos. "

Resultados: parágrafo 3, Nos gráficos de média-variância, como você calcula a variância? Esta é apenas a variação da amostra? E quanto aos diferentes números de contagens nas pistas? Quanto ao painel (2), depois de dividir pelo comprimento não temos um Poisson, então o gráfico de média-variância não está correto ou pelo menos a interpretação adequada dele não é óbvia (não é óbvio que iremos causar uma mudança no gráfico porque agora estamos dimensionando pelo comprimento ao quadrado?)

Resposta do autor: Sim, é exatamente isso que estamos tentando mostrar. Esse gráfico deve ser de natureza mais heurística, em vez de qualquer prova rigorosa de que a divisão por comprimento não remove o viés de comprimento. Portanto, acabamos de usar a variância da amostra sem levar em conta o número diferente de contagens nas pistas como uma demonstração visual. Para esclarecer, também adicionamos a frase: "No entanto, quando a média é dividida pelo comprimento da transcrição, a relação se torna mais complexa e os dados obviamente não são mais Poisson"

Resultados: parágrafo 4, um gráfico potencialmente "melhor" seria boxplots (de comprimento do gene) ordenados do maior para o menor valor p de KEGG para dados de microarray e sequenciamento.

Resposta do autor: Obrigado pela sugestão. Sentimos que o enredo que você sugeriu era um pouco mais complicado de interpretar.

Métodos: parágrafo 1, A matemática é um pouco desleixada. Em geral, há confusão entre variáveis ​​aleatórias e parâmetros. Especificamente, observo dois erros óbvios: 1.) t é definido para ser uma coisa (variáveis ​​aleatórias no rhs da equação (1)) e então redefinido para ser outra coisa (parâmetros nos rhs da definição seguinte). 2.) Métodos: parágrafo 2, μ ' é um parâmetro, então você faz o Var (μ ') o que está incorreto, você provavelmente deseja definir um X ' em vez disso, você pode obter variações.

Resposta do autor: Obrigado por apontar isso. Nós modificamos e arrumamos a matemática.

Pelo seu tratamento, parece que posso simplesmente dividir t por √ L para remover a dependência de L na estatística de teste. Isso está correto?

Resposta do autor: Não, não acho que seja possível. Um teste t é como uma relação sinal-ruído e, portanto, tem uma relação específica entre a estimativa da média e o erro padrão da estimativa. Não acredito que isso deva ser quebrado essencialmente dividindo a estimativa da média por √ L.


Assista o vídeo: Dataanalyse i Logger Pro gammel version (Agosto 2022).