Em formação

Melhor maneira de vincular automaticamente Gene Entrez ID com Gene Symbol em TCGA

Melhor maneira de vincular automaticamente Gene Entrez ID com Gene Symbol em TCGA


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Estou tentando descobrir como vincular Gene Entrez ID com Gene Symbol, para conjunto de dados TCGA.

Até agora, encontrei este diretório ftp com informações do Gene atualizadas diariamente.

Mas, para Entrez ID 728661, encontrei dois mapeamentos diferentes:

  • aqui o símbolo é RP11-345P4.4;
  • aqui, e nas informações do gene baixadas do ftp acima, o símbolo é SLC35E2B enquanto RP11-345P4.4 está no campo 'locus tag'.

Como sou um novato, estou um pouco confuso sobre isso. E, embora eu ache que podem ser sinônimos, preciso saber se há uma prática recomendada a ser usada nesse caso e se preciso implementar algum script por conta própria para fazê-lo automaticamente.

Obrigado


IntPath - um banco de dados integrado de relacionamento de genes de caminhos para organismos modelo e patógenos importantes

Os dados do caminho são importantes para compreender a relação entre genes, proteínas e muitas outras moléculas em organismos vivos. As relações do gene do caminho são informações cruciais para orientação, previsão, referência e avaliação em bioquímica, biologia computacional e medicina. Muitos bancos de dados bem estabelecidos - por exemplo, KEGG, WikiPathways e BioCyc - são dedicados a coletar dados de vias para acesso público. No entanto, a eficácia desses bancos de dados é prejudicada por questões como formatos de dados incompatíveis, representações moleculares inconsistentes, representações de relacionamento molecular inconsistentes, referências inconsistentes a nomes de caminhos e dados incompreensíveis de bancos de dados diferentes.

Resultados

Neste artigo, superamos esses problemas por meio da extração, normalização e integração de dados de caminhos de vários bancos de dados públicos importantes (KEGG, WikiPathways, BioCyc, etc). Construímos um banco de dados que não apenas hospeda nossos dados integrados de relacionamento de genes de vias para acesso público, mas também mantém as atualizações necessárias no longo prazo. Este repositório público é denominado IntPath (Int egrado Caminho forma de banco de dados de relacionamento de genes para organismos modelo e patógenos importantes). Quatro organismos -S. cerevisiae, M. tuberculosis H37Rv, H. Sapiens e M. musculus- estão incluídos nesta versão (V2.0) do IntPath. IntPath usa a abordagem de "unificação total" para garantir que não haja exclusão e nenhum ruído introduzido neste processo. Portanto, IntPath contém relações de pares de genes de vias e genes de vias muito mais ricas e um número muito maior de genes e pares de genes não redundantes do que qualquer banco de dados de fonte única. As relações gênicas de cada gene (medido pelo grau médio do nó) por via são significativamente mais ricas. As relações gênicas em cada via (medido pelo número médio de pares de genes por via) também são consideravelmente mais ricas nas vias integradas. A curadoria manual moderada está envolvida para se livrar de erros e ruídos dos dados de origem (por exemplo, os erros de ID do gene em WikiPathways e erros de relacionamento em KEGG). Transformamos formatos de dados xml complicados e incompatíveis e representações inconsistentes de genes e relações de genes de diferentes bancos de dados de origem em relações de pares de genes de vias e genes de vias normalizadas e unificadas perfeitamente registradas em formato de texto delimitado por tabulação simples e tabelas MySQL, o que facilita a computação automática conveniente e referências em grande escala em muitos estudos relacionados. Os dados IntPath podem ser baixados em formato de texto ou arquivo MySQL. Os dados do IntPath também podem ser recuperados e analisados ​​convenientemente por meio do serviço da web por programas locais ou pela interface da web por meio de cliques do mouse. Várias ferramentas de análise úteis também são fornecidas no IntPath.

Conclusões

Superamos no IntPath os problemas de compatibilidade, consistência e abrangência que muitas vezes dificultam o uso eficaz dos bancos de dados do caminho. Incluímos quatro organismos na versão atual do IntPath. Nossa metodologia e programas descritos neste trabalho podem ser facilmente aplicados a outros organismos e incluiremos mais organismos modelo e patógenos importantes em versões futuras do IntPath. IntPath mantém atualizações regulares e está disponível gratuitamente em http://compbio.ddns.comp.nus.edu.sg:8080/IntPath.


Alterações da versão atual

Esta revisão atual é versão 2.4.1 da especificação do Mutation Annotation Format (MAF).

Os seguintes itens na especificação foram adicionados ou modificados na versão 2.4.1 da versão 2.4:

O cabeçalho do arquivo MAF é "# versão 2.4.1"

"Somático" e "Nenhum" são os únicos valores aceitáveis ​​para "Mutation_Status" para um somático.MAF (denominado. Somático.maf). Quando Mutation_Status for None, Validation_Status deve ser Inválido.

Os centros precisam se certificar de que Mutations_Status "None" não inclui mutação da linha germinativa.

Para um MAF somático, as seguintes regras devem ser satisfeitas:
SOMÁTICO = (A E (B OU C OU D)) OU (E E F)
UMA: Mutation_Status == "Somático"
B: Validation_Status == "válido"
C. Verification_Status == "Verificado"
D. Variant_Classification não é , o que implica que Variant_Classification Só pode ser .
E: Mutations_status == "Nenhum"
F: Validation_status == "Inválido"

Regras de validação extras: Se Validation_Status == Válido ou Inválido, então Validation_Method! = Nenhum (não faz distinção entre maiúsculas e minúsculas).


Referências

R Equipe Central de Desenvolvimento. R: Uma linguagem e ambiente para computação estatística (R Foundation for Statistical Computing, Viena, Áustria, 2008) ISBN 3-900051-07-0.

Gentleman, R.C. et al. Biocondutor: desenvolvimento de software aberto para biologia computacional e bioinformática. Genome Biol. 5 (10): R80 (2004).

Kasprzyk, A. et al. Ensmart: um sistema genérico para acesso rápido e flexível aos dados biológicos. Genome Res. 14 (1): 160–169 (2004).

Hubbard, T.J. et al. Ensembl 2009. Nucleic Acids Res. 37 (Problema de banco de dados): D690 – D697 (2009).

Rogers, A. et al. Wormbase 2007. Nucleic Acids Res. 36 (Problema do banco de dados): D612 – D617 (2008).

Matthews, L. et al. Reactome knowledgebase de vias e processos biológicos humanos. Nucleic Acids Res. 37 (Problema do banco de dados): D619 – D622 (2009).

Durinck, S. et al. BioMart e Bioconductor: um poderoso link entre bancos de dados biológicos e análise de dados de microarray. Bioinformática 21, 3439–3440 (2005).

Durinck, S. Integração de recursos de dados biológicos em R com biomaRt. O Boletim Informativo do Projeto R 6/5, 40–45 (2006).

Boutros, M. et al. Análise de telas de RNAi baseadas em células. Genome Biol. 7, R66 (2006).

Wei, J.S. et al. O oncogene MYCN é um alvo direto do miR-34a. Oncogene 27 (39): 5204–5213 (2008).

Hahne, F. et al. Estudos de caso de biocondutores. Springer Verlag, Nova York, EUA, (2008).

Pruitt, K.D., Tatusova, T. & amp Maglott, D.R. Sequência de referência NCBI (RefSeq): um banco de dados de sequências não redundantes com curadoria de genomas, transcritos e proteínas. Nucleic Acids Res. 35 (Problema de banco de dados): D61 – D65 (2007).

Bruford, E.A. et al. O banco de dados HGNC em 2008: um recurso para o genoma humano. Nucleic Acids Res. 36 (Problema do banco de dados): D445 – D448 (2008).

Nunca mais. et al. Uma coleção de linhas de células de câncer de mama para o estudo de subtipos de câncer funcionalmente distintos. Célula cancerosa 10, 515–527 (2006).

Parkinson, H. et al. Atualização do Arrayexpress - de um arquivo de experimentos genômicos funcionais ao atlas da expressão gênica. Nucleic Acids Res. 37, D868 – D872 (2009).

Irizarry, R.A. et al. Exploração, normalização e resumos de dados de nível de sonda de matriz de oligonucleotídeos de alta densidade. Bioestatística 4, 249–264 (2003).


Resultados

Visão geral do OncoLnc

OncoLnc armazena mais de 400.000 análises, o que inclui resultados de regressão de Cox, bem como a expressão média e mediana de cada gene. Para os resultados da regressão de Cox, além dos valores de p, OncoLnc armazena a classificação da correlação. Cânceres diferentes contêm distribuições de valor p muito diferentes (Anaya et al., 2016 Yang et al., 2014), e não está claro o que causa essa diferença. Como resultado, não é possível usar um valor de corte de p entre os cânceres, e a classificação da correlação é uma maneira simples de medir a força relativa da correlação. A classificação é calculada por câncer, por tipo de dados. As tabelas 1–3 contêm informações sobre quantos genes existem para cada câncer e cada tipo de dados.

Os identificadores de mRNA e miRNA usados ​​por TCGA estão desatualizados, e os identificadores em OncoLnc foram selecionados manualmente usando NCBI Gene: http://www.ncbi.nlm.nih.gov/gene, e definições recentes de miRBase: http: / /www.mirbase.org/. Mais de 2.000 símbolos de mRNA foram atualizados e estão listados na Tabela S4. Os genes que tiveram seu Entrez Gene ID removido do NCBI Gene, ou que não puderam ser mapeados com segurança para um único identificador, não estão incluídos no OncoLnc, mas ainda estão incluídos na Tabela S1.

Usar o OncoLnc é muito simples. O método preferido de usar OncoLnc é enviar um gene na página inicial, e esse envio não diferencia maiúsculas de minúsculas. Se um usuário enviar um gene que não está no banco de dados, ele será notificado e fornecido com links para todos os nomes de genes e IDs possíveis. O envio de um identificador de gene válido retornará resultados de correlação para até 21 cânceres para mRNAs e miRNAs, ou 18 cânceres para MiTranscriptome beta lncRNAs (Fig. 1). Se um gene não atender ao ponto de corte de expressão para a análise, ele não estará presente no banco de dados e, portanto, um usuário pode receber menos do que o número máximo possível de resultados. Para usuários que usam OncoLnc em dispositivos menores, é possível realizar uma única pesquisa de câncer. O link para esta pesquisa está na página inicial, e o usuário deve enviar a abreviatura TCGA cancer juntamente com o gene de interesse.

Figura 1: Exemplo de resultados da pesquisa OncoLnc.

Na página de resultados, há um link para realizar uma análise Kaplan-Meier para cada câncer (Fig. 1). O usuário será questionado sobre como gostaria de dividir os pacientes. Os pacientes podem ser divididos em quaisquer fatias superiores e inferiores não sobrepostas, por exemplo, 25 por cento superior e 25 por cento inferior. Após o envio, os usuários serão apresentados a um gráfico PNG Kaplan-Meier, um valor p de logrank para a análise e caixas de texto com os dados que foram plotados (Fig. 2). Se um usuário simplesmente deseja todos os dados desse câncer e desse gene, ele pode enviar 100 para o “Percentil inferior” e 0 para o “Percentil superior”.

Figura 2: Exemplo de resultados de OncoLnc Kaplan-Meier.

Os usuários então têm a opção de ir para um PDF do gráfico de Kaplan-Meier ou baixar um arquivo CSV dos dados plotados. Em ambos os casos, o nome do arquivo será o câncer, identificação do gene, percentil inferior, percentil superior, separados por sublinhados. A ID do gene teve que ser usada em vez do nome do gene porque há vários conflitos de símbolo do gene HUGO entre os mRNAs TCGA Tier 3 e o MiTranscriptoma beta, bem como entre os símbolos do gene HUGO do mRNA de TCGA e os símbolos do gene HUGO do mRNA atualizado. No caso de um usuário realizar uma busca por um nome com conflito, o OncoLnc apresenta uma mensagem de aviso e instrui o usuário sobre como proceder.

MRNAs

A Tabela 1 contém informações sobre os pacientes para cada estudo de mRNA de Nível 3 incluído no OncoLnc e quantas análises de genes estão presentes no OncoLnc para cada estudo. A camada 3 RNASeqV2 foi usada para todos os 21 cânceres e a expressão foi retirada dos arquivos “rsem.genes.normalized_results”. Como resultado, os dados de expressão em OncoLnc para mRNAs de Camada 3 estão em valores RSEM normalizados. A Tabela 1 contém diferentes números de genes para os diferentes cânceres porque um corte de expressão foi usado para determinar se um gene seria incluído na análise. Para mRNAs, esse ponto de corte foi uma expressão mediana maior que 1 RSEM e menos de um quarto dos pacientes com uma expressão de 0.

Os resultados de cada regressão Cox de mRNA de Tier 3 realizada estão incluídos na Tabela S1. Os arquivos de expressão da Camada 3 contêm um símbolo de gene HUGO e um ID de gene Entrez para cada gene, mas esses IDs e símbolos de gene não são atuais. Para atualizar os símbolos do gene, baixei todos os genes humanos do NCBI Gene e atualizei todos os símbolos para os quais o Entrez Gene ID ainda estava atualizado. Para genes que excluíram ou alteraram os IDs do gene Entrez, tive que fazer a curadoria manual dos IDs do gene e dos símbolos do gene. Os genes que não pude atribuir com segurança a um ID moderno não estão incluídos no OncoLnc, mas ainda estão incluídos na Tabela S1. A Tabela S1 inclui os IDs e símbolos TCGA originais, juntamente com os nomes e símbolos atualizados, e a Tabela S4 lista os genes que tiveram o símbolo ou ID alterado. OncoLnc permite aos usuários pesquisar mRNAs usando um símbolo de gene HUGO atualizado ou Entrez Gene ID.

MiRNAs

A Tabela 2 contém informações sobre os pacientes para cada estudo de miRNA de Tier 3 incluído no OncoLnc e quantas análises de genes estão presentes no OncoLnc para cada estudo. O miRNASeq de nível 3 foi usado para todos os tipos de câncer, exceto GBM, que tinha apenas dados de microarray disponíveis. Os resultados de cada regressão de Cox realizada estão incluídos na Tabela S2. Muitos dos IDs de miRBase, ou possivelmente contagens de leitura, presentes na Tabela S2 e OncoLnc serão diferentes dos IDs e contagens de leitura em arquivos de dados TCGA e disponíveis em outros portais de dados para dados TCGA. Isso ocorre porque eu examinei cada arquivo de expressão e atualizei os IDs e as contagens de leitura.

Os arquivos “isoform.quantification” contêm tanto IDs de miRBase quanto números de acesso. Nestes arquivos, os braços 5p e 3p de miRNAs são referidos com o mesmo ID, por exemplo, hsa-let-7b-5p e hsa-let-7b-3p seriam ambos listados como hsa-let-7b. A fim de atualizar os nomes e contagens de leitura para os miRNAs Tier 3, usei as contagens de leitura atribuídas a cada número de acesso para obter leituras por milhão de miRNAs mapeados para cada número de acesso e atualizei o ID com o ID de miRBase atual. Quando um número de acesso não estava disponível, usei as coordenadas genômicas fornecidas para identificar o número de acesso e, portanto, o ID. Os nomes de GBM foram atualizados usando o arquivo “aliases” do site de FTP miRBase e, se um alias não pudesse ser identificado com segurança, o miRNA não foi incluído no OncoLnc, mas ainda está na Tabela S2.

Como resultado, todos os valores de expressão na Tabela S2 e em OncoLnc são leituras por milhão de miRNA mapeados para cada câncer, exceto GBM, que são valores normalizados de microarray. Os números de miRNAs na Tabela 2 diferem porque o miRNA pode não estar nos arquivos de expressão para aquele câncer, ou pode não ter atendido ao limite de expressão. Um corte de expressão de uma mediana de 0,5 leituras por milhão de miRNA mapeado, e menos de um quarto dos pacientes com 0 expressão foi usado. OncoLnc permite que os usuários pesquisem miRNAs com um número de acesso ou ID de miRBase versão 21 maduro.

LncRNAs

A Tabela 3 contém informações sobre os pacientes para cada análise de beta lncRNA do MiTranscriptome, junto com quantos lncRNAs estão incluídos no OncoLnc para cada câncer. Contagens normalizadas de lncRNA foram baixadas de http://mitranscriptome.org/ e mapeadas para códigos de barras de pacientes usando as informações da biblioteca fornecidas. MiTranscriptome beta contém mais de 8.000 dos lncRNAs mais diferencialmente expressos em todo o conjunto de dados MiTranscriptome, mas o número real de lncRNAs em OncoLnc para cada câncer é muito menor devido ao corte de expressão usado: uma mediana de 0,1 contagens normalizadas e menos de um quarto de pacientes com 0 expressão. A Tabela S3 contém todas as regressões de lncRNA Cox realizadas e estão todas incluídas no OncoLnc. OncoLnc permite aos usuários pesquisar por lncRNAs beta do MiTranscriptome usando um nome ou ID de transcrição.


Métodos

Aquisição e processamento de compêndios transcriptômicos

Baixamos conjuntos de dados transcriptômicos de recursos disponíveis publicamente. Baixamos os dados corrigidos em lote do TCGA PanCanAtlas RNAseq do National Cancer Institute Genomic Data Commons (https://gdc.cancer.gov/about-data/publications/pancanatlas). Esses dados consistiram em 11.069 amostras com 20.531 genes medidos quantificados com RSEM e normalizados com transformação logarítmica. Nós convertemos identificadores de genes Hugo Symbol em identificadores de genes Entrez e descartamos genes não codificadores de proteínas e genes que falharam no mapeamento. Também removemos tumores que foram medidos em vários locais. Isso resultou em uma matriz de expressão gênica TCGA PanCanAtlas final com 11.060 amostras, que incluiu 33 tipos diferentes de câncer e 16.148 genes. A divisão das amostras TCGA por tipo de câncer é fornecida no arquivo adicional 5.

Baixamos os dados GTEx RNAseq normalizados TPM (versão 7) do portal de dados GTEx (https://gtexportal.org/home/datasets). Havia 11.688 amostras e 56.202 genes neste conjunto de dados. Depois de selecionar apenas genes codificadores de proteínas e converter os símbolos de Hugo em identificadores de genes Entrez, consideramos 18.356 genes. Existem 53 tipos diferentes de tecidos detalhados nesta versão GTEx. Os tipos de tecidos incluídos nesses dados são fornecidos no arquivo adicional 5.

Por último, recuperamos os dados de expressão do gene TARGET RNAseq do portal de dados UCSC Xena [60]. Os dados TARGET foram processados ​​por meio do pipeline FPKM UCSC Toil RNAseq e foram normalizados com RSEM e transformados em log [61]. A matriz original consiste em 734 amostras e 60.498 identificadores do gene Ensembl. Convertemos os identificadores do gene Ensembl em nomes de genes Entrez e retemos apenas genes codificadores de proteínas. Este procedimento resultou em um total de 18.753 genes medidos no TARGET. Existem 7 tipos de câncer traçados no TARGET e a análise específica está disponível no arquivo adicional 5. Todas as etapas específicas de download e processamento podem ser visualizadas e reproduzidas em https://github.com/greenelab/BioBombe/tree/master/0.expression -download.

Treinamento de redes neurais não supervisionadas

Autoencoders (AE) são redes neurais não supervisionadas que aprendem minimizando a reconstrução dos dados de entrada depois de passar os dados por uma ou várias camadas intermediárias [62]. Normalmente, essas camadas têm uma dimensionalidade inferior do que a entrada, portanto, os algoritmos devem compactar os dados de entrada. Denoising autoencoders (DAE) adicionam ruído às camadas de entrada durante o treinamento para regularizar as soluções e melhorar a generalização [63]. Os autoencoders variacionais (VAE) adicionam regularização por meio de uma pena adicional imposta à função objetivo [64, 65]. Em um VAE, as dimensões do espaço latente (k) são penalizados com uma penalidade de divergência de Kullback-Leibler (KL), restringindo a distribuição de amostras no espaço latente às distribuições gaussianas. Otimizamos independentemente cada modelo AE em uma grade de combinações de hiperparâmetros, incluindo seis dimensionalidades latentes representativas (descritas no arquivo adicional 2 e no arquivo adicional 1: Figura S2).

Algoritmos de compressão de treinamento em dimensionalidades latentes

Independentemente de cada conjunto de dados (TCGA, GTEx e TARGET), realizamos o seguinte procedimento para treinar os algoritmos de compressão. Primeiro, dividimos aleatoriamente os dados em 90% de partições de treinamento e 10% de teste. Equilibramos cada partição por tipo de câncer ou tipo de tecido, o que significa que cada divisão continha uma representação relativamente igual dos tecidos. Antes de inserir os algoritmos de compressão, transformamos os valores de expressão gênica por gene para o intervalo [0, 1] subtraindo o valor mínimo e dividindo pelo intervalo para cada gene específico. Aplicamos essa transformação independentemente para as partições de teste e treinamento. Selecionamos essa faixa porque era compatível com todos os algoritmos. Usamos o conjunto de treinamento para treinar cada algoritmo de compressão. Usamos as implementações scikit-learn de PCA, ICA e NMF, e as implementações Tybalt de VAE e DAE [8, 66].

Depois de aprender modelos de compressão otimizados com os dados de treinamento, transformamos os dados de teste usando esses modelos. Avaliamos as métricas de desempenho usando dados de treinamento e teste para reduzir o preconceito. Além de treinar com dados reais, também treinamos todos os modelos com dados permutados aleatoriamente. Para permutar os dados de treinamento, embaralhamos aleatoriamente os valores de expressão gênica para todos os genes de forma independente. Também transformamos os dados de partição de teste com modelos treinados usando dados permutados aleatoriamente. O treinamento com dados permutados remove a estrutura correlacional nos dados e pode ajudar a definir linhas de base de métricas de desempenho.

Um dos nossos objetivos era avaliar as diferenças de desempenho e detecção de sinal biológico em uma gama de dimensionalidades latentes (k) Para este fim, treinamos todos os algoritmos com vários k dimensionalidades incluindo k = 2, 3, 4, 5, 6, 7, 8, 9, 10, 12, 14, 16, 18, 20, 25, 30, 35, 40, 45, 50, 60, 70, 80, 90, 100 , 125, 150 e 200 para um total de 28 dimensionalidades diferentes. Todos esses modelos foram treinados de forma independente. Por último, para cada k dimensionalidade, treinamos cinco modelos diferentes inicializados com cinco sementes aleatórias diferentes. No total, considerando os três conjuntos de dados, cinco algoritmos, dados de treinamento permutados aleatoriamente, todos os 28 k dimensionalidades e cinco inicializações, treinamos 4200 modelos de compressão diferentes (Arquivo adicional 2: Figura S1). Portanto, no total, geramos 185.100 recursos de compressão diferentes.

Avaliando o desempenho do algoritmo de compressão

Avaliamos todos os algoritmos de compressão em três tarefas principais: reconstrução, correlação de amostra e estabilidade da matriz de peso. Primeiro, avaliamos o quão bem os dados de entrada são reconstruídos depois de passar pela camada de gargalo. Como os dados de entrada foram transformados em uma distribuição entre 0 e 1, usamos a entropia cruzada binária para medir a diferença entre a entrada e a saída do algoritmo como uma medida do custo de reconstrução. Quanto menor o custo de reconstrução, maior a fidelidade da reconstrução e, portanto, maior a proporção de sinais capturados nas características do espaço latente. Também avaliamos a correlação de Pearson de todas as amostras comparando a entrada com a saída reconstruída. Este valor é semelhante à reconstrução e pode ser rastreado rapidamente em um nível de amostra individual. Por último, usamos a análise de correlação canônica de vetor singular (SVCCA) para determinar a estabilidade do modelo dentro e a similaridade do modelo entre algoritmos e entre dimensionalidades latentes [23]. O método SVCCA consistiu em duas etapas distintas. Primeiro, a decomposição de valor singular (SVD) foi realizada em duas matrizes de peso de entrada. Os valores singulares que se combinaram para reconstruir 98% do sinal nos dados foram retidos. Em seguida, a matriz de peso transformada SVD foi inserida em uma análise de correlação canônica (CCA). O CCA alinhou diferentes recursos na matriz de ponderação com base na correlação máxima depois de aprender uma série de transformações lineares. Tomados em conjunto, o SVCCA produz uma única métrica comparando duas matrizes de peso de entrada que representa a estabilidade nas inicializações do modelo e a similaridade média de dois modelos diferentes. Como usamos as matrizes de peso, a similaridade descreve a descoberta da representação da expressão do gene. Usamos a distribuição de medidas de similaridade SVCCA em todas as inicializações de algoritmos de pares e dimensionalidades latentes para indicar a estabilidade do modelo [23].

Avaliação das representações de expressão gênica presentes nas características do BioBombe

Testamos os recursos do BioBombe compactados sequencialmente para distinguir o sexo da amostra em dados GTEx e TCGA, e amplificação MYCN em dados TARGET NBL. Testamos todos os algoritmos de compressão e dimensionalidades do espaço latente para determinar as condições em que esses recursos foram melhor capturados. Primeiro, selecionamos tipos de tecido e tipos de câncer nas análises de sexo GTEx e TCGA que foram balanceados por sexo selecionando tecidos com proporções de homem para mulher entre 0,5 e 1,5. Realizamos um independente bicaudal t-teste assumindo variância desigual comparando amostras masculinas e femininas, e amostras NBL com e sem amplificação MYCN. Nós aplicamos o t-teste todos os recursos de compressão identificados em algoritmos, inicializações e dimensionalidades. As figuras mostram o recurso de melhor pontuação por dimensionalidade e algoritmo do espaço latente.

Aplicamos a representação MYCN ótima aprendida no TARGET a um conjunto de dados alternativo que consiste em uma série de linhas de células NBL publicamente disponíveis [29]. Os dados foram processados ​​usando STAR, e acessamos a matriz FPKM processada do figshare [67]. Transformamos o conjunto de dados com as representações identificadas usando a seguinte operação:

Onde D representa os respectivos dados RNAseq para transformar, R representa a representação específica do recurso compactado, g ’ representa os genes sobrepostos medidos em ambos os conjuntos de dados, n representa amostras, e D ’r representa as pontuações do recurso de compactação no conjunto de dados transformado. Dos 8.000 genes medidos nos dados TARGET, 7653 também foram medidos no conjunto de dados de linha celular NBL externa (95,6%).

Usando as pontuações de ativação de amostra para cada um dos recursos de pontuação mais altos para sexo de amostra em TCGA e GTEx e amplificação MYCN em TARGET e o conjunto de validação, realizamos t-teste com variância desigual comparando cada grupo. Para a comparação de sexo TCGA e GTEx, nosso t-teste comparou as pontuações de ativação masculina e feminina. Para as análises de linha celular TARGET e NBL, nosso t-teste comparou as amostras de NBL amplificadas com MYCN e as amostras de NBL não amplificadas com MYCN. Nós adicionamos t-estatísticas de teste e p valores em cada subfigura.

Construção e processamento de rede gênica

Construímos redes usando coleções de conjuntos de genes compilados pela versão 6.2 do Banco de Dados de Assinaturas Moleculares (MSigDB) e tipos de células derivados de xCell [30,31,32]. Esses conjuntos de genes representam uma série de genes que estão envolvidos em funções e processos biológicos específicos. Integramos todas as coleções MSigDB abertamente licenciadas que incluíam conjuntos de genes distintos (H), conjuntos de genes posicionais (C1), conjuntos de genes com curadoria (C2), conjuntos de genes de motivo (C3), conjuntos de genes computacionais (C4), termos de Ontologia Genética (GO) (C5), conjuntos de genes oncogênicos (C6) e conjuntos de genes imunológicos (C7). Omitimos os conjuntos de genes MSigDB que não estavam disponíveis sob uma licença aberta (KEGG, BioCarta e AAAS / STKE). O banco de dados do conjunto de genes C2 foi dividido em perturbações químicas e genéticas (C2.CPG) e Reactome (C2.CP.Reactome). O conjunto de genes C3 foi dividido em alvos de microRNA (C3.MIR) e alvos de fator de transcrição (C3.TFT). O conjunto de genes C4 foi dividido em vizinhanças de genes de câncer (C4.CGN) e módulos de câncer (C4.CM). Por último, o conjunto de genes C5 foi dividido em processos biológicos GO (C5.BP), componentes celulares GO (C5.CC) e funções moleculares GO (C5.MF). xCell representa um conjunto de genes de 489 assinaturas de genes derivados computacionalmente de 64 tipos de células humanas diferentes. O número de conjuntos de genes em cada curadoria é fornecido no arquivo Adicional 6. Na projeção da rede BioBombe, apenas uma única coleção é projetada por vez.

Para construir a rede do conjunto de genes, usamos hetnetpy [68]. Resumidamente, hetnetpy cria redes que incluem vários tipos de nós e relacionamentos de borda. Usamos hetnetpy para construir uma única rede contendo todas as coleções MSigDB e conjuntos de genes xCell listados acima. A rede consistia em 17.451 conjuntos de genes únicos e 2.159.021 arestas que representam a associação de conjuntos de genes entre 20.703 nós de genes únicos (arquivo adicional 6). Além de gerar uma única rede usando conjuntos de genes com curadoria, também usamos hetnetpy para gerar 10 redes permutadas. As redes são permutadas usando o algoritmo XSwap, que randomiza as conexões enquanto preserva o grau do nó (ou seja, o número de relacionamentos do conjunto de genes por gene) [69]. Portanto, as redes permutadas são usadas para controlar os vieses induzidos pelo grau desigual do gene. Comparamos a pontuação observada com a distribuição das pontuações da rede permutada para interpretar as representações biológicas em cada recurso de compressão.

Interpretação rápida de dados compactados de expressão gênica

Nosso objetivo era interpretar rapidamente os recursos latentes comprimidos gerados automaticamente e aprendidos por cada algoritmo não supervisionado. Para este fim, construímos matrizes de adjacência de conjuntos de genes com coleções específicas de conjuntos de genes MSigDB ou xCell usando o software hetnetpy. Em seguida, realizamos a seguinte multiplicação da matriz contra uma determinada matriz de peso compactado para obter uma pontuação bruta para todos os conjuntos de genes para cada característica latente.

Onde H representa a matriz de adjacência do conjunto de genes, c é a coleção de conjunto de genes específicos, e n representa genes. C representa a matriz de peso do algoritmo de compressão específico, que inclui n genes e k características do espaço latente. A saída desta multiplicação de matriz, G, é representado por c conjuntos de genes e k dimensões latentes. Por meio de uma única multiplicação de matriz, a matriz G rastreia as pontuações do BioBombe.

Como certos genes centrais têm maior probabilidade de estarem implicados em conjuntos de genes e conjuntos de genes mais longos receberão pontuações brutas mais altas, comparamos G para a distribuição de pontuações permutadas contra todas as 10 redes permutadas.

Onde HP 1–10 representa as matrizes de adjacência para todas as 10 redes permutadas e Gp representa a distribuição de pontuações para o mesmo k recursos para todas as permutações. Nós calculamos o z- pontuação para todos os conjuntos de genes por características latentes (Gz-pontuação) Esta pontuação representa a Pontuação do BioBombe. Outros métodos de conjunto de genes baseados em rede consideram a influência do conjunto de genes com base na conectividade de rede dos genes do conjunto de genes [58, 59]. Em vez disso, usamos os pesos de características latentes derivados de algoritmos de compressão não supervisionados como entrada e as redes de conjuntos de genes compilados para atribuir funções biológicas.

Também comparamos a abordagem de projeção da rede BioBombe às análises de super-representação (ORA). Não comparamos a abordagem à análise de enriquecimento de conjunto de genes (GSEA) porque a avaliação de características latentes únicas exigiu muitas permutações e não escalou para os muitos milhares de recursos compactados que examinamos. Implementamos a análise ORA usando o teste exato de Fisher. Os genes de fundo usados ​​no teste incluíram apenas os genes representados na coleção de conjuntos de genes específicos.

Calculando a cobertura do conjunto de genes em recursos do BioBombe

Estávamos interessados ​​em determinar a proporção de conjuntos de genes dentro de coleções de conjuntos de genes que foram capturados pelos recursos derivados de vários algoritmos de compressão. Consideramos um conjunto de genes "capturado" por um recurso de compressão se tivesse o maior BioBombe positivo ou o maior negativo z-score em comparação com todos os outros conjuntos de genes nessa coleção. Nós convertemos o BioBombe z- pontuações em p valores usando a função pnorm () R usando um teste bicaudal. Removemos conjuntos de genes de consideração se seus p os valores não foram inferiores a um valor ajustado de Bonferroni determinado pelo número total de dimensionalidades latentes no modelo.

Calculamos a cobertura (C) considerando todos os conjuntos de genes principais exclusivos (você) identificado por todos os recursos do modelo de compressão (C) e dividindo pelo número total de conjuntos de genes na coleção (TC).

Calculamos a métrica de cobertura para todos os modelos de forma independente (Ceu), para conjuntos ou algoritmos individuais em todas as cinco iterações (Ce), e para todos os modelos em k dimensões (Ck).

Também calculamos a cobertura total de todos os recursos do BioBombe combinados em um único modelo (Ctudo) Um valor de cobertura maior indicou um modelo que capturou uma proporção maior das assinaturas presentes na coleção de determinado conjunto de genes.

Baixando e processando dados de expressão disponíveis publicamente para análise de neutrófilos GTEx

Usamos um conjunto de dados externo para validar o recurso de neutrófilos aprendido ao comprimir os dados de expressão do gene GTEx em três dimensionalidades latentes. Observamos que esse recurso contribuiu para a melhora da reconstrução do tecido sanguíneo. Para avaliar o desempenho desta representação de neutrófilos, baixamos os dados do Gene Expression Omnibus (GEO) com o número de acesso GSE103706 [33]. O RNA foi capturado neste conjunto de dados usando Illumina NextSeq 500. O conjunto de dados mediu a expressão gênica de várias réplicas de duas linhas de células semelhantes a neutrófilos, HL-60 e PLB-985, que foram originalmente derivadas de pacientes com leucemia mieloide aguda (LMA). A linha de células PLB-985 foi previamente identificada como um subclone de HL-60, portanto, esperamos atividade semelhante entre as duas linhas [70]. A expressão gênica das duas linhas celulares foi medida com e sem tratamentos de diferenciação de neutrófilos. Though DMSO is frequently used to solubilize compounds and act as an experimental control, it has been used to create neutrophil-like cells [71]. The validation dataset we used was generated to compare DMSO activity with untreated cells and cells treated with DMSO plus Nutridoma [33]. We tested the hypothesis that our neutrophil representation would distinguish the samples with and without neutrophil differentiation treatment. We transformed external datasets with the following operation:

Onde D represents the processed RNAseq data from GSE103706. Of 8000 genes measured in C, 7664 were also measured in D (95.8%). These 7664 genes are represented by g’. All of the “Neutrophils_HPCA_2” signature genes were measured in C. D’ represents the GSE103706 data transformed along the specific compression feature. Each sample in D’ is then considered transformed by the specific representation captured in k. The specific genes representing “Neutrophils_HPCA_2” is provided in Additional file 3.

Downloading and processing publicly available expression data for monocyte GTEx analysis

We used an additional external dataset to validate the identified monocyte representation. We accessed processed data for the publicly available GEO dataset with accession number GSE24759 [34]. The dataset was measured by Affymetrix HG-U133A (early access array) and consisted of 211 samples representing 38 distinct and purified populations of cells, including monocytes, undergoing various stages of hematopoiesis. The samples were purified from 4 to 7 independent donors each. Many xCell gene sets were computationally derived from this dataset as well [31]. Not all genes in the weight matrices were measured in the GSE24759 dataset. For this application, 4645 genes (58.06%) corresponded with the genes used in the compression algorithms. Additionally, 168 out of 178 genes (94.38%) in the “Monocyte_FANTOM_2” gene set were measured (Additional file 3). We investigated the “Monocytes_FANTOM_2” signature because of its high enrichment in VAE k = 3 and low enrichment in VAE k = 2.

Machine learning classification of cancer types and gene alterations in TCGA

We trained supervised learning classifiers using raw RNAseq features and BioBombe-derived features. In general, we trained supervised machine learning models to predict cancer type from RNAseq features in TCGA PanCanAtlas RNAseq data. We implemented a logistic regression classifier with an elastic net penalty. The classifiers were controlled for mutation burden. More details about the specific implementation are described in Way et al. [72]. Here, we predicted all 33 cancer types using all 11,060 samples. These predictions were independent per cancer type, which meant that we trained models with the same input gene expression or BioBombe feature data, but used 33 different status matrices.

We also trained models to predict gene alteration status in the top 50 most mutated genes in the PanCanAtlas. These models were controlled for cancer type and mutation burden. We defined the status in this task using all non-silent mutations identified with a consensus mutation caller [73]. We also considered large copy number amplifications for oncogenes and deep copy number deletions for tumor suppressor genes as previously defined [74]. We used the threshold GISTIC2.0 calls for large copy amplifications (score = 2) and deep copy deletions (score = − 2) in defining the status matrix [75]. For each gene alteration prediction, we removed samples with a hypermutator phenotype, defined by having log10 mutation counts greater than five standard deviations above the mean. For the mutation prediction task, we also did not include certain cancer types in training. We omitted cancer types if they had less than 5% or more than 95% representation of samples with the given gene alteration. The positive and negative sets must have also included at least 15 samples. We filtered out cancer types in this manner to prevent the classifiers from artificially detecting differences induced by unbalanced training sets.

We trained models with raw RNAseq data subset by the top 8000 most variably expressed genes by median absolute deviation. The training data used was the same training set used for the BioBombe procedure. We also trained models using all BioBombe compression matrices for each latent dimension and using real and permuted data. We combined compressed features together to form three different types of ensemble models. The first type grouped all five iterations of VAE models per latent dimensionality to make predictions. The second type grouped features of five different algorithms (PCA, ICA, NMF, DAE, VAE) of a single iteration together to make predictions. The third ensemble aggregated all features learned by all algorithms, all initializations, and across all latent dimensionalities, which included a total of 30,850 features. In total, considering the 33 cancer types, 50 mutations, 28 latent dimensionalities, ensemble models, raw RNAseq features, real and permuted data, and 5 initializations per compression, we trained and evaluated 32,868 different supervised models.

We optimized all of the models independently using fivefold cross validation (CV). We searched over a grid of elastic net mixing and alpha hyperparameters. The elastic net mixing parameter represents the tradeoff between l1 and l2 penalties (where mixing = 0 represents an l2 penalty) and controls the sparsity of solutions [76]. Alpha is a penalty that tunes the impact of regularization, with higher values inducing higher penalties on gene coefficients. We searched over a grid for both hyperparameters (alpha = 0.1, 0.13, 0.15, 0.2, 0.25, 0.3 and mixing = 0.15, 0.16, 0.2, 0.25, 0.3, 0.4) and selected the combination with the highest CV AUROC. For each model, we tested performance using the original held out testing set that was also used to assess compression model performance.

Evaluating model training time

We evaluated the execution time of training each compression algorithm for all three datasets across several latent dimensionalities. We used 8 representative latent dimensionalities: k = 2, 4, 10, 16, 25, 50, 80, and 200. We conducted the time analysis using a CPU machine with an Intel Core i3 dual core processer with 32 GB of DDR4 memory.


Introdução

Previous attempts to subtype PCa by transcriptomic variability, including ETS transcription-factor– based classifications and luminal/basal lineage models [1,2,3], was not able to provide additional clinical information beyond known risk factors [4]. Currently, therapeutic options for advanced PCa include AR signaling inhibitors (ARIs - abiraterone, enzalutamide, apalutamide), antimicrotubule agents (docetaxel, cabazitaxel), and immune therapy (sipuleucel-T). However, increasing evidences suggest intrinsically AR-independent tumors exist, characterized by neuroendocrine or small cell histology and mutations of multiple tumor suppressors PTEN, TP53 ou RB1 [5,6,7]. PCa of intrinsic resistance to docetaxel has been reported [8], too. Therefore, an ideal PCa classification system should be able to determine for which tumors ARI, docetaxel, immunotherapy or other newly developing therapies can be offered.

PCa is characterized by multifocality or intratumoral heterogeneity [9, 10] in addition, stromal contents (fibroblasts, endothelial cells, immune cells) can add further diversity. Therefore, it is likely that a tumor may be composed of more than two molecular subtypes that differ in the tumor cell, as well as tumor-microenvironment gene expression [11,12,13]. Whole-transcriptome analysis of tumor tissue is susceptible to those potential confounding factors when attempting to identify subtypes based on the tumor cell intrinsic heterogeneity.

For normal prostate tissue, single-cell analysis precisely defined epithelial-expressed genes and confirmed the existence of luminal, basal, or bipotential progenitor populations with specific anatomical locations and potential relevance to cancer characteristics such as AR independence [14,15,16]. We hypothesized that the PCa transcriptome can be interpreted based on their cell-of-origin of gene expression, especially considering therapeutic relevance. Using the single- cell RNA-seq data and an established deconvolution analysis tool, we developed a single-sample subtype classifier with proportion estimate (PE) for a given prostate tumor RNA-seq data. We report four transcriptomic subtypes with different predicted sensitivities to antimicrotubule agents and ARIs, and utility of serum biomarkers PSA and prostate-specific acid phosphatase (PAP) combination to select patients who will most likely benefit from each class of drugs.


Starting from SummarizedExperiment

We now use R's dados command to load a prepared SummarizedExperiment that was generated from the publicly available sequencing data files associated with the Himes et al. paper, described above. The steps we used to produce this object were equivalent to those you worked through in the previous sections, except that we used all the reads and all the genes. For more details on the exact steps used to create this object type browseVignettes("airway") into your R session.

We can quickly check the millions of fragments which uniquely aligned to the genes (the second argument of volta tells how many decimal points to keep).

Supposing we have constructed a SummarizedExperiment using one of the methods described in the previous section, we now need to make sure that the object contains all the necessary information about the samples, i.e., a table with metadata on the count matrix's columns stored in the colData slot:

Here we see that this object already contains an informative colData slot &ndash because we have already prepared it for you, as described in the airway vignette. However, when you work with your own data, you will have to add the pertinent sample / phenotypic information for the experiment at this stage. We highly recommend keeping this information in a comma-separated value (CSV) or tab-separated value (TSV) file, which can be exported from an Excel spreadsheet, and the assign this to the colData slot, making sure that the rows correspond to the columns of the SummarizedExperiment. We made sure of this correspondence by specifying the BAM files using a column of the sample table.

Once we have our fully annotated SummarizedExperiment object, we can construct a DESeqDataSet object from it, which will then form the starting point of the actual DESeq2 package, described in the following sections. We add an appropriate design for the analysis.

If we only wanted to perform transformations and exploratory data analysis we could use a

1 for the design, but be careful, because a true experimental design, e.g.

condition would need to be added later before differential expression (or else we would only be testing the intercept).

Note that there are two alternative functions, DESeqDataSetFromMatrix e DESeqDataSetFromHTSeq, which allow you to get started in case you have your data not in the form of a SummarizedExperiment object, but either as a simple matrix of count values or as output files from the htseq-count script from the HTSeq Python package.

Below we demonstrate using DESeqDataSetFromMatrix.


Author summary

The field of transcriptomics uses and measures mRNA as a proxy of gene expression. There are currently two major platforms in use for quantifying mRNA, microarray and RNA-Seq. Many comparative studies have shown that their results are not always consistent. In this study we aim to find a robust method to increase comparability of both platforms enabling data analysis of merged data from both platforms. We transformed the high dimensional transcriptomics data from the two different platforms into lower dimensional, and biologically relevant gene set scores. These gene sets were defined a-priori as specific combination of genes (e.g. up-regulated in a certain pathway). We observed that although microarray and RNA-Seq expression levels might appear different, using these gene sets to transform the data significantly increases their correlation. This is a step forward in data integration of the two platforms. More in-depth investigation on the effect of the composition, size, and number of gene sets that are used for the transformation is suggested for future research.

Citação: van der Kloet FM, Buurmans J, Jonker MJ, Smilde AK, Westerhuis JA (2020) Increased comparability between RNA-Seq and microarray data by utilization of gene sets. PLoS Comput Biol 16(9): e1008295. https://doi.org/10.1371/journal.pcbi.1008295

Editor: Jason A. Papin, University of Virginia, UNITED STATES

Recebido: November 1, 2019 Aceitaram: August 27, 2020 Publicados: September 30, 2020

Direito autoral: © 2020 van der Kloet et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença de Atribuição Creative Commons, que permite o uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original e a fonte sejam creditados.

Financiamento: FK was financially supported by the Amsterdam Academic Alliance Data Science (https://amsterdamdatascience.nl/). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta e análise de dados, decisão de publicar ou preparação do manuscrito.

Interesses competitivos: Os autores declararam que não existem interesses conflitantes.


Resultados e discussão

Data filtering functions

Sorting Functions: eGIFT uses a precomputed text-mining database that has extracted all gene associated informative terms (iTerm) from PubMed abstracts. After submitting a gene list to WebGIVI, a table is returned to the user containing the iTerms associated with the input genes. By hovering over an iTerm, the user can see the genes associated with that iTerm. The default list is sorted based on the Fisher’s exact test p-value, but the user can choose to sort based on alphabetical order, the gene ontology group (process, function, compartment or unclassified) to which the iTerm has been classified or the frequency of appearance of each iTerm.

Editing Functions: Not all iTerms are informative in all use cases, but could be important to others. For example, ‘in situ hybridization’ is an irrelevant iTerm to our use case scenario but will be interesting to researchers who might want to apply this experimental method to their own work. However, some iTerms are highly likely to be non-informative. To remove such iTerms a “blacklist” has been developed that includes terms such as “some cell” or “10 fold” that are typically non-informative to the general WebGIVI user. Since the developers of WebGIVI cannot be certain that a given iTerm is irrelevant to all users, the returned iTerm list includes the blacklisted terms a checkbox is provided that allows the user to hide any terms that are included in the blacklist. It is also beneficial to the user to also be able to filter out irrelevant iTerms in the context of their study, and only save iTerms of direct relevance. Once data is submitted on WebGIVI’s homepage, the returned list will allow the user to delete iTerms from the results table using deleting functions. If the user prefers, they can choose not to prefilter but visualize data in Concept Map or Cytoscape directly.

A biological use case scenario

We used the Sun et al. white-leghorn hepatocellular (LMH) cell heat stress dataset [22], which is a RNA-Seq study of LMH cells under heat stress. This study identified a total of 235 up-regulated and 578 down-regulated genes. Figure 2 shows a completed WebGIVI submission page with a portion of the regulated genes from the LMH study (Additional file 1). In this case we used Entrez gene identification numbers. Following submission, an iTerm list (Fig. 3) is returned that can be sorted alphabetically, by frequency, Gene Ontology categories, or by p-value as determined by the Fisher’s exact test. In this case the list is sorted by p-value. Hovering over an iTerm will show the corresponding p-value, along with the genes from the list associated with that iTerm. One can choose to display iTerms that have been blacklisted by checking the “Include blacklisted items”. You can also select irrelevant iTerms by right clicking and delete them using the remove options. Users can view the output in either Cytoscape (Fig. 4) or as a Concept Map (Fig. 5) by selecting the appropriate buttons. The default mode in Cytoscape generates a force graph (Fig. 4a) and clicking on an edge connecting a gene product to an iTerm pops up a window that allows the user to connect to either NCBI or eGIFT (Fig. 4b). Additional view modes include tree or circle that are accessible by the Layout button.

Submission interface for WebGIVI. Gene lists can be input in several different formats and named in the text field above the submit button. To the right of the page is a short video demonstrating various WebGIVI functionalities



Comentários:

  1. Allred

    peça muito valiosa

  2. Anson

    Perfeitamente, e eu pensei.

  3. Bryen

    Sim, de fato. Tudo isso é verdadeiro. Vamos discutir esta questão. Aqui ou em PM.

  4. Lisimba

    Gostaria de incentivá-lo a visitar um site que tem muita informação sobre este assunto.

  5. Bari

    É uma excelente variante



Escreve uma mensagem