Em formação

Onde obter conjuntos de dados de vias metabólicas

Onde obter conjuntos de dados de vias metabólicas



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Estive olhando os arquivos disponíveis em www.reactome.org junto com alguns outros, mas só encontro imagens / PDFs de diagramas de vias metabólicas. De onde estão os dados reais de onde esses caminhos são extraídos? Eu imagino que deveria haver algum tipo de representação gráfica direcionada. Estou limitado a conjuntos de dados disponíveis gratuitamente, então, infelizmente, não posso verificar aqueles como o KEGG.


KEGG é definitivamente sua escolha!

É possível obter a (s) lista (s) completa (s) de caminhos: http://rest.kegg.jp/list/pathway (caminhos de referência) ou http://rest.kegg.jp/list/pathway/hsa (para humanos )

Em seguida, você pode usar esses IDs para recuperar informações sobre caminhos individuais: http://rest.kegg.jp/get/hsa00053 (formato semelhante ao GeneBank), http://rest.kegg.jp/get/hsa00053/image (imagem ), http://rest.kegg.jp/get/hsa00053/kgml (KEGG xml). Isso vai demorar um pouco, é claro, e eu recomendo não sobrecarregar o servidor e atrasar as consultas. Com o formato semelhante ao GeneBank, a consulta em lote também é possível: http://rest.kegg.jp/get/hsa00053+hsa00061

Provavelmente, esta deve ser uma operação única ou pelo menos rara, devido à carga no servidor (e não acho que eles façam grandes alterações com muita frequência). Você pode recuperar informações de novos caminhos, assim que eles aparecerem em http://rest.kegg.jp/list/pathway/…


Onde obter conjuntos de dados de vias metabólicas - Biologia

O Metabolismo de Esfingolipídios mostrado é projetado para incluir apenas aqueles esfingolipídios e enzimas correspondentes
encontrados no genoma dos mamíferos. Isso está em contraste com a versão KEGG da via, onde ambos plantam e
genes de levedura estão incluídos.

As vias metabólicas de novo e dos glicoesfingolipídios também foram modificadas estruturalmente para elucidar a
vias biossintéticas do metabolismo dos esfingolipídios. Para obter uma lista completa de alterações, consulte Modificações.

GenMAPP

GenMAPP v2.1, um programa operacional do Windows, fornece uma técnica para conduzir uma análise genômica
por meio da visualização de dados de expressão gênica dentro de uma via metabólica. Dados de expressão derivados de
microarray e outros experimentos genômicos semelhantes podem ser importados e reconhecidos pelo GenMAPP usando vários
identificadores de genes como Entrez Gene, Ensembl e Affy ID's. Este programa permite que os genes de um biológico
via, como o metabolismo de esfingolipídeos, a ser codificada por cores com base em um perfil estabelecido pelo usuário. No
Além disso, as ferramentas fornecidas no GenMAPP permitem que essas vias metabólicas sejam criadas ou editadas pelo usuário. o
A figura mostrada abaixo demonstra um exemplo do que se obteria após importar dados de expressão para o GenMAPP.

Antes que os mapas de caminhos possam ser baixados ou os dados aplicados, GenMapp v2.1 deve ser baixado
do GenMAPP (www.genmapp.org). Consulte o Tutorial GenMAPP fornecido para orientação através de
as etapas e procedimentos necessários para a aplicação de dados de expressão gênica.

As vias fornecidas para o metabolismo dos esfingolipídios incluem os seguintes genes. Se adicional
modificações são necessárias, consulte a Parte V do Tutorial GenMAPP para obter detalhes.

Se nenhuma mudança precisar ser feita nos caminhos fornecidos, ou as modificações forem concluídas e os dados forem
agora para ser aplicado, consulte a Parte VI do Tutorial do GenMAPP para obter detalhes.

Um conjunto de dados de amostra (humano) está incluído, junto com arquivos de acessórios, que podem ser usados ​​para usuários iniciantes
antes que os dados reais sejam carregados:


Carboidratos e metabolismos lipídicos | Bioquímica

Neste artigo iremos discutir sobre as inter-relações entre carboidratos e metabolismos lipídicos.

Transformação de carboidratos em lipídios:

Na maioria dos animais e no homem, quando os carboidratos da dieta estão em excesso, a oxidação de uma parte da glicose mantém concentrações relativamente altas de ATP, NADH e NADPH, o que promoverá:

eu. A síntese de glicogênio a partir da glicose, que requer UTP e, portanto, ATP

ii. A redução do fosfato de dihidroxiacetona a ácido L-α-glicerofosfórico, que requer NADH.

iii. Condensação de moléculas de acetil-coenzima A para a biossíntese de ácidos graxos e colesterol, necessitando de ATP e NADPH.

Quando as capacidades máximas de armazenamento de glicogênio são atingidas, as duas últimas vias são particularmente favorecidas, levando à síntese de lipídeos e principalmente de triglicerídeos que, como visto acima, formam uma reserva de energia extremamente conveniente.

Transformação de lipídios em carboidratos:

Em animais, os lipídios não são convertidos em carboidratos, pelo menos não em grandes proporções. A descarboxilação oxidativa do ácido pirúvico em acetil-coenzima A é de fato não reversível.

É verdade que os átomos de carbono da acetil-coenzima A (originados, por exemplo, da oxidação de ácidos graxos) podem, após entrar no ciclo de Krebs, ser encontrados no ácido oxaloacético, depois no ácido fosfoenolpirúvico e ser incorporados na glicose graças à neoglicogênese, A incorporação ocorre somente após uma volta completa do ciclo (compreendendo e evitando 2 descarboxilações) e, portanto, não se pode falar de síntese real de glicose.

Ao contrário, nas plantas essa conversão ocorre, principalmente nos grãos ricos em lipídios, que podem ser rapidamente transformados em carboidratos durante a germinação, ocorre também em alguns microrganismos.

A reação-chave dessa transformação é a condensação da acetil-coenzima A no ácido glioxílico, catalisada pela sintetase do ácido málico aqui também, a acetil-coenzima A se liga por seu grupo metil a uma carbonila (como acontece durante sua condensação no ácido oxaloacético durante sua entrada no ciclo de Krebs e como na síntese de β-hidroxi-β-metil-glutaril-coenzima A). Já o ácido glioxílico, resulta da cisão do ácido isocítrico pela isocitratase. Essas duas reações estão representadas na Figura 5-26.

O ciclo do ácido glioxílico é mostrado em diagrama na figura 5-27. A acetil-coenzima A resultante da oxidação de ácidos graxos pode entrar no ciclo em dois lugares, seja por condensação com ácido glioxílico (reação descrita acima), ou por condensação com ácido oxaloacético (reação idêntica à reação de entrada no ciclo de Krebs )

Cada volta do ciclo vê a formação de uma molécula de ácido succínico ao custo de 2 moléculas de acetil-coenzima A. O ácido succínico é oxidado a ácido oxaloacético por uma série de reações que examinamos durante o estudo do ciclo de Krebs e ácido oxaloacético pode dar ácido fosfo-enol-pirúvico por descarboxilação e fosforilação, o último ácido pode ser convertido em glicose-6-fosfato pela via de neoglicogênese.

Quatro moléculas de acetil-coenzima A (darão 2 moléculas de ácido succínico e, portanto, 2 moléculas de ácido oxaloacético que produzirão 2CO2 + 2 moléculas de ácido fosfo-enol-pirúvico) são necessárias para obter uma molécula de glicose.

Nas plantas, o ciclo glioxílico prossegue nos glioxissomos. Essas estruturas também contêm todas as enzimas da β-oxidação peroxossômica. A acetil-coenzima A fornecida por este mecanismo é utilizada diretamente pelo ciclo glioxílico.


Onde obter conjuntos de dados de vias metabólicas - Biologia

A metabolômica visa responder a uma questão fundamental em biologia: Como o metabolismo muda sob perturbações genéticas, ambientais ou fenotípicas? A combinação de vários ensaios metabolômicos pode render conjuntos de dados para mais de 1.000 metabólitos estruturalmente identificados por estudo. No entanto, as interpretações biológicas da regulação metabólica nesses conjuntos de dados são prejudicadas pelas limitações das definições atuais das vias, bem como pelos limites inerentes das estatísticas de enriquecimento das vias. ChemRICH, uma abordagem de enriquecimento estatístico que se baseia na similaridade química, em vez de anotações esparsas de conhecimento bioquímico. ChemRICH utiliza ontologias químicas e semelhança estrutural com metabólitos de grupo. Ao contrário do mapeamento da via, esta estratégia produz conjuntos específicos do estudo e não sobrepostos de todos os metabólitos identificados. As estatísticas de enriquecimento subsequentes são superiores aos enriquecimentos de vias porque os conjuntos ChemRICH têm um tamanho autocontido em que os valores de p não dependem do tamanho de um banco de dados de fundo. Para obter mais detalhes - consulte o artigo ChemRICH

Estrutura do arquivo de entrada

Estrutura do arquivo de entrada. Veja aqui um arquivo de dados de exemplo você pode usar como modelo.

O arquivo de entrada deve ter 6 colunas, nesta ordem:

  • Coluna 1 = Nome do Composto
  • Coluna 2 = InChiKeys
  • Coluna 3 = ID Pubchem
  • Coluna 4 = SORRISO
  • Coluna 5 = valor p
  • Coluna 6 = mudança de dobra

Você também pode usar este arquivo Excel para obter identificadores e códigos SMILES para seus compostos. Arquivo de identificador de metabólito ChemRICH .


2 IMPLEMENTAÇÃO

O único objetivo do Arcadia é exibir os arquivos SBML existentes como diagramas. Concentrando-se nessa única tarefa, a interface pode ser mantida o mais simples possível. Importar e exportar arquivos SBML torna o Arcadia interoperável com um grande número de ferramentas especializadas em outras tarefas. Arcadia é empacotado como um aplicativo de desktop de plataforma cruzada escrito em C ++ e alimentado por uma série de bibliotecas de código aberto: Qt (Nokia Corporation, 2009) para a interface gráfica de usuário LibSBML (Bornstein et al., 2008) para lidar com arquivos SBML, a Boost Graph Library (Siek et al., 2002) para armazenar o modelo gráfico principal Graphviz (Ellson et al., 2002) para layout de gráfico e libavoid (Wybrow et al., 2006) para roteamento de borda. O código-fonte está disponível no Sourceforge sob a GPL (cf. www.gnu.org/licenses/gpl.html), junto com binários pré-compilados para Windows e Mac OS.

Internamente, a estrutura de dados pode ser decomposta em três camadas interconectadas (Fig. 1). A primeira camada, ou camada de modelo, corresponde aos dados disponíveis no arquivo SBML, interpretados como um bigraph direcionado. A última camada, ou camada de geometria, pode exibir gráficos como diagramas, de acordo com um estilo de renderização específico e restrições de layout locais. Conforme explicado antes, mecanismos semelhantes existem em outras ferramentas de visualização de rede. No entanto, a camada do meio, ou camada de topologia, é específico para Arcádia. Neste nível, a topologia da representação gráfica do modelo pode ser modificada sem alterar o próprio modelo. Essa camada extra permite recursos exclusivos.

Arquitetura de dados Arcádia. Da esquerda para a direita: Model Layer, um conjunto de reações bioquímicas equivalente a um gráfico Topology Layer, um conjunto de gráficos derivados do primeiro gráfico e Geometry Layer, layout 2D para cada gráfico, renderizado de acordo com um determinado estilo visual (cor, tamanho , forma, fonte, etc.).


Discussão

Nós caracterizamos a reconexão de vias metabólicas em células malignas individuais em comparação com seus parceiros normais no mesmo microambiente tumoral, analisando perfis de expressão de genes metabólicos de células malignas e não malignas individuais. Embora os níveis expressionais de genes metabólicos não sejam equivalentes a fluxos metabólicos ou abundância de metabólitos, há algumas evidências de que a expressão de genes metabólicos pode ser, em parte, se não em grande medida, preditiva de fluxos metabólicos e concentrações de metabólitos 24, 46. Assim, nossos resultados com os perfis de expressão gênica de uma única célula fornecem pistas sobre as tendências gerais das atividades metabólicas em células individuais. Descobrimos que, em comparação com as células não malignas, as células malignas não apenas exibem alta plasticidade metabólica que lhes permite adaptar seu metabolismo a diferentes contextos genotípicos e ambientais, mas também seguem um padrão comum de regulação positiva global das atividades das vias metabólicas em quase todas as categorias funcionais. A regulação positiva global de genes metabólicos, mas não de genes não metabólicos, implica que as células malignas alocam mais recursos transcricionais para a expressão de genes metabólicos e têm fluxos provavelmente mais elevados para a maioria das reações metabólicas. Esses resultados apontam para o princípio de que o metabolismo das células cancerosas é em geral mais flexível e ativo do que o das células não malignas. Notavelmente, a maioria das alterações metabólicas detectadas em células malignas individuais em comparação com células não malignas individuais não foram capturadas comparando os níveis de expressão de genes metabólicos entre tumor em massa e amostras normais, o que implica que a comparação de configurações metabólicas entre tumores e tecidos normais com base na massa as medições tendem a subestimar as diferenças entre células malignas e não malignas devido à composição celular altamente complicada das amostras em massa. De forma consistente, nossos resultados parecem ser diferentes de estudos anteriores comparando a expressão da rede metabólica em tecidos tumorais e normais 47, 48.

Existem várias descobertas interessantes em torno do papel da atividade mitocondrial na formação da heterogeneidade metabólica dos tumores. Em primeiro lugar, a variação na expressão do gene OXPHOS é o contribuinte mais importante para a heterogeneidade metabólica entre as células malignas do mesmo tumor e entre as células não malignas do mesmo tipo. A alta variação na atividade de OXPHOS sugere que essa via pode ser responsável pela adaptação a fatores ambientais. Portanto, é interessante investigar como essa variabilidade na atividade de OXPHOS contribui para a progressão do tumor.

O papel das mitocôndrias (ciclo OXPHOS e TCA) no câncer ainda é uma questão de debate. Além do conhecido efeito Warburg 49, vários estudos comparando a expressão de genes metabólicos entre tumores volumosos e tecidos normais também identificaram a supressão de OXPHOS como um fenótipo metabólico recorrente em tumores 47, 50 e # x02013 52. No entanto, também existem vários estudos que mostram que OXPHOS ativo é de fato necessário para a progressão do câncer. Os inibidores mitocondriais, como a metformina, são conhecidos por suprimir o crescimento de células cancerosas 53 & # x02013 55. Neste estudo, descobrimos que os níveis de expressão do gene OXPHOS eram em geral mais elevados em células malignas únicas (Fig. & # X000a0 2a, b, Fig. Suplementar & # x000a0 5), o que parece contradizer as observações baseadas nos níveis de expressão gênica em massa 47 , 50 e # x02013 52. Mais trabalhos são necessários para resolver a discrepância entre uma única célula e o RNA-seq em massa na avaliação do papel de OXPHOS em tumores, mas é provavelmente devido à complexidade da composição celular dos tumores que é quase impossível de ser dissecada por medições em massa.

Outro achado interessante sobre a atividade de OXPHOS em células isoladas é que ela está correlacionada tanto com a glicólise quanto com a resposta à hipóxia em quase todos os tipos de células. À primeira vista, isso é contra-intuitivo porque a hipóxia ativa as vias de transdução de sinal que induzem a glicólise e suprimem OXPHOS e outras vias associadas à mitocôndria 32. No entanto, OXPHOS também estabeleceu papel na mediação da resposta à hipóxia, servindo como um sensor de disponibilidade de oxigênio por meio da estabilização de fatores induzidos por hipóxia (HIF) 56, 57. Portanto, a interação entre glicólise, OXPHOS e hipóxia é altamente dinâmica em células vivas, e a relação quantitativa entre elas é pelo menos parcialmente determinada pela interação entre os efeitos inibitórios da via de sinalização de HIF e o feedback positivo da atividade de OXPHOS para HIF sinalização em resposta à disponibilidade de oxigênio. Nossa análise dos perfis transcriptômicos de uma única célula esclarece que as atividades dessas vias tendem a ser positivamente correlacionadas em células únicas do microambiente tumoral com fornecimento de oxigênio escasso e flutuante. Se esse acoplamento em nível de célula única existe em outros tipos de tumor e se beneficia as células cancerosas, é necessário mais investigação.

Com os perfis de expressão gênica de células únicas de tumores, fomos capazes de identificar características metabólicas que distinguem subpopulações de células imunes e estromais. Esta abordagem tem a vantagem de fornecer um instantâneo direto da paisagem metabólica dos tumores e seu microambiente consistindo em vários tipos conhecidos e desconhecidos de células, cujo metabolismo é muito influenciado pelas interações entre elas e pela escassez de nutrientes no microambiente tumoral 11, 58 , 59. Descobrimos que algumas subpopulações de células não malignas, Ths e Tregs por exemplo, adotam fenótipos metabólicos distintos do que apresentam em condições de cultura ex vivo 38. A reprogramação metabólica de CAFs em comparação com miofibroblastos também mostrou envolver mais vias do que o que é conhecido atualmente. Esses resultados destacam o grande impacto do microambiente tumoral no metabolismo celular. É importante notar que atualmente a capacidade de caracterizar fenótipos metabólicos de subpopulações celulares ainda é limitada pelo número de células únicas que podem ser perfiladas ao mesmo tempo, devido à diversidade de tipos de células e expressão gênica ruidosa em células individuais. O aprimoramento das técnicas ômicas de célula única ajudará a resolver esse problema e fornecerá maior resolução na identificação de subpopulações de células com diferentes fenótipos metabólicos.

Para resumir, este estudo oferece uma imagem global da expressão do gene metabólico em células tumorais e não tumorais únicas do microambiente tumoral altamente complexo. Essas células exibem atividades metabólicas distintas do padrão médio no nível de massa. Embora este estudo tenha focado apenas em dois tipos de tumor consistindo em dados de mais alta qualidade no momento que permitiram o escopo atual de análise, os princípios sobre a paisagem metabólica de células únicas em tumores & # x02013 a plasticidade metabólica e atividade de células malignas, o papel dominante dos programas mitocondriais na formação da heterogeneidade metabólica de células malignas e não malignas e as características metabólicas dos subtipos de células imunes - eram aplicáveis ​​a ambos os tipos de tumor, e o pipeline de análise de dados que desenvolvemos aqui pode ser facilmente estendido a conjuntos de dados de outros tipos de tumor. Com o rápido desenvolvimento de novas técnicas ômicas de célula única e o acúmulo de dados em mais tipos de tumor e pacientes, estamos otimistas de que um retrato abrangente das características metabólicas de cada célula tumoral única surgirá em um futuro próximo.


A frutose apresenta um problema especial

A frutose é produzida pela digestão do dissacarídeo sacarose (açúcar de mesa comum) nos monossacarídeos glicose e frutose. Tanto a glicose quanto a frutose compartilham a mesma fórmula empírica (C 6 H 12 O 6 ) e o mesmo conteúdo calórico (686 kcal / mol). Mas o corpo os trata de maneira muito diferente.

A glicose é captada e metabolizada por todas as células para gerar ATP pela glicólise e respiração celular, e o excesso de glicose é preferencialmente convertido em glicogênio em vez de gorduras. A frutose é absorvida apenas pelas células do fígado, e o excesso de frutose é convertido em gorduras (ácidos graxos e glicerol). Nos EUA, a maioria dos refrigerantes e alimentos preparados agora são adoçados com xarope de milho com alto teor de frutose (60% de frutose, 40% de glicose). O consumo excessivo desses produtos pode estar ligado à crescente prevalência de obesidade e diabetes tipo 2 nos EUA.


Fundo

Depois do câncer de mama e de pulmão, o câncer colorretal (CCR) foi diagnosticado como a terceira doença maligna mais comum. É a quarta causa de morte com 1,4 milhão de casos e quase 694.000 mortes. O CRC é a terceira doença maligna mais comum em homens, depois do câncer de próstata e de pulmão, e a segunda nas mulheres, depois do câncer de mama. A taxa de incidência de CCR tem aumentado nos países em desenvolvimento devido à ocidentalização que está causando aumento dos fatores de risco para CCR [1]. Estima-se que um aumento de cerca de 60% na carga global de CCR, com base nas projeções demográficas, ocorra com 2,2 milhões de novos casos e 1,1 milhão de mortes até 2030. Mais de 25% dos pacientes com câncer colorretal são diagnosticados com doença metastática. Portanto, para melhorar a sensibilidade e especificidade da detecção de CRC, novos biomarcadores foram desenvolvidos [2]. Vários fatores de risco são conhecidos por estarem associados à progressão do CCR, com 95% dos casos apresentando adenocarcinomas. Isso inclui aumento da ingestão de álcool, redução do exercício físico, um plano de dieta pobre que é rico em gorduras e pobre em fibras, história pessoal ou familiar de pólipos, idade superior a 50 anos e doença inflamatória intestinal [3].

Após o desenvolvimento do carcinoma colorretal, as alterações genéticas e epigenéticas subsequentes em oncogenes específicos e / ou genes supressores de tumor das células epiteliais gastrointestinais fazem com que ele sofra proliferação e autorrenovação celular, fazendo com que o epitélio normal seja uma mucosa hiperproliferativa. Isso resulta em um adenoma benigno que eventualmente se transforma em carcinoma e em cerca de 10 anos torna-se metastático [4].

As células epiteliais normais do trato gastrointestinal estão dispostas ao longo de um eixo cripta-vilosidade. O pool indiferenciado de células-tronco do cólon e células progenitoras com capacidade de autorrenovação e pluripotência é encontrado na parte inferior da cripta. Essas células, enquanto se movem ao longo do eixo, sofrem diferenciação em todas as linhagens epiteliais do cólon. Embora essas células cheguem ao topo do eixo, o que geralmente leva 14 dias, elas resultam em apoptose. Sabe-se que várias proteínas estão envolvidas na regulação desse processo, como BMP, Wnt e TGF-β [4]. O início do CRC mostrou o envolvimento de várias vias de sinalização molecular alteradas que podem resultar na resistência a agentes antitumorais. Estas vias incluem Wnt / APC / β-catenina, fator de crescimento transformador-β (TGF) -β / Smad, fosfoinositídeo 3-quinase (PI3K) / AKT / glicogênio sintase quinase-3B e NF-κβ.

O diagnóstico de CRC desempenha um papel fundamental na previsão inicial de CRC. Se detectado precocemente, pode ser tratado apenas com cirurgia; no entanto, na doença metastática, juntamente com a cirurgia, a quimioterapia está incluída. Atualmente, a previsão do CCR é baseada na classificação do American Joint Committee on Cancer (AJCC), estadiamento TNM. Mas, como cada estágio é um grupo heterogêneo de doença, é difícil relacionar o estadiamento TNM com o prognóstico. Uma forma mais rápida e barata de caracterização molecular do câncer tornou-se possível com o avanço da tecnologia NGS. A maioria dos biomarcadores genéticos ganhou valor clínico como marcador prognóstico ou terapêutico, como o MSI e a via de sinalização do EGF [4].

Para obter uma imagem clara da carcinogênese, do crescimento do tumor e da metástase do câncer colorretal, a análise de microarranjos provou ser útil para reunir informações sobre milhares de genes ao mesmo tempo. As alterações genômicas que ocorrem no câncer colorretal podem ser identificadas por análise de microarranjos que podem ajudar no diagnóstico, caracterização e tratamento do câncer colorretal [5]. No entanto, certos desafios ainda são enfrentados na aplicação de ensaios de microarray de acordo com alguns estudos. Uma abordagem para superar esses desafios é utilizar o banco de dados Gene Expression Omnibus (GEO) online. Esta base de dados pode auxiliar no aumento do tamanho da amostra, poder estatístico e heterogeneidade da amostra [6,7,8,8].

O objetivo deste estudo é rastrear genes associados ao CRC que podem atuar como biomarcadores candidatos para detectar o câncer precoce e elucidar a patogênese do CRC. A análise de expressão diferencial de dez conjuntos de dados de microarray foi realizada para identificar os genes candidatos com base na função de pontuação significativa. O perfil de expressão desses genes também foi realizado para determinar os padrões de expressão desses marcadores potenciais em diversos tecidos. A análise de agrupamento e a análise de enriquecimento funcional foram empregadas para confirmar a função e a associação dos genes selecionados para causar CRC. A interação proteína-proteína e a análise da via confirmaram a associação de genes candidatos com câncer colorretal e a regulação de Wnt, NF-κβ e MAPK. A busca por novos biomarcadores preditivos, diagnósticos e prognósticos no câncer colorretal é de grande importância e se tornou o objetivo das pesquisas biomédicas sobre CCR. O estudo ajudará na descoberta do biomarcador ao obter informações valiosas por meio do estudo dessas redes moleculares que podem ser usadas em conjuntos de dados públicos para obter melhores resultados em outras doenças também.


Resultados

Conjuntos de dados e o fluxo de trabalho de análise

Três conjuntos de dados são usados ​​neste estudo: dois deles são nossos próprios conjuntos de dados de perfil metabólico de amostras independentes de plasma e soro e o terceiro é o conjunto de dados de RNA-Seq de câncer de mama TCGA (para testar a generalização do modelo baseado na via em tipos de dados). Os dados metabolômicos incluem amostras de pré-tratamento recém-diagnosticadas compreendendo (1) 132 câncer de mama e 76 amostras de plasma de controle e (2) 103 câncer de mama e 31 amostras de soro de controle. Para os dois conjuntos de dados de amostra de plasma e soro, conduzimos experimentos de metabolômica por espectrometria de massa de tempo de vôo por cromatografia líquida (LC-TOFMS) e espectrometria de massa por tempo de vôo por cromatografia gasosa (GC-TOFMS). De acordo com a ferramenta de análise de potência do MetaboAnalyst [26], o estudo atinge uma potência de 0,84 (Arquivo adicional 2: Figura S1), suportando a adequação dos dados metabolômicos. As informações fisiológicas e clínicas, como idade, etnia e estágio do tumor para o plasma, dados séricos e conjuntos de TCGA, estão resumidas na Tabela 1.

Para analisar os dados metabolômicos, desenvolvemos um novo pipeline computacional que identifica biomarcadores baseados na via para o diagnóstico de câncer de mama baseado no sangue (Fig. 1). A essência da abordagem é transformar as informações do nível do metabólito em informações do nível da via completamente personalizadas. O fluxo de trabalho geral do modelo baseado em caminhos e do processo de análise é o seguinte.

O fluxo de trabalho da análise de dados metabolômica baseada na via. Etapa 1: conversão de dados metabólicos baseados em via metabólica. Os dados de entrada incluem o arquivo mestre contendo informações de mapeamento de metabólitos da via, os dados de perfil metabólico e o vetor de classificação normal / tumor. Os dados de nível metabolômico são transformados em dados de nível de via pelo patificador algoritmo. O arquivo de saída de patificador é a matriz de pontuação de desregulação da via, dentro da qual cada pontuação mede a desregulação de uma via específica para uma amostra específica. Etapa 2: construção do modelo. As amostras de plasma COH qualificadas são divididas em 80/20 para dados de treinamento e teste de validação. A seleção de recursos de correlação (CFS) é usada para seleção de recursos e o modelo de regressão logística é usado para classificação. Validação cruzada de dez vezes (CV 10 vezes) é aplicado com a seleção de recursos do CFS no conjunto de dados de treinamento de plasma. Dois modelos são construídos: um modelo de diagnóstico em todos os estágios e um modelo de diagnóstico em estágio inicial. Etapa 3: avaliação do modelo. O desempenho do modelo é avaliado usando curvas de características de operação do receptor (ROC) e várias métricas, incluindo AUC, MCC, sensibilidade, especificidade e estatística F1

Em primeiro lugar, os metabólitos são mapeados para seus IDs padronizados do Banco de Dados do Metabolome Humano (HMDB) e as relações via-metabólito são resumidas em um arquivo mestre de vários recursos, incluindo HMDB, Enciclopédia de Kyoto de Genes e Genomas (KEGG), Banco de Dados do Caminho de Pequenas Moléculas (SMPDB ), IPA, FLink, Recon 2 e PubChem. Em seguida, usamos o patificador algoritmo para converter a matriz de dados baseada em metabólitos brutos para a matriz baseada em vias que contém pontuações de desregulação de vias (PDS). Pathifier é um método não paramétrico para redução de dimensão, onde uma curva de princípio unidimensional é derivada de uma nuvem de pontos de dados no espaço de alta dimensão. O PDS é uma métrica para o grau de anormalidade da via por paciente e é a distância na curva principal do ponto inicial ao ponto projetado por uma via particular e individualizada [15, 22]. Um PDS varia de 0 a 1, onde uma pontuação mais próxima de 1 indica uma via mais aberrante. Em seguida, usamos a matriz PDS de 80% do conjunto de plasma qualificado para treinar modelos de classificação. Selecionamos o conjunto de plasma para treinar os modelos de classificação, pois possui um tamanho de amostra maior e informações mais completas dos estágios do tumor. Os detalhes de seleção e classificação de recursos para treinar os modelos e teste de modelo com três conjuntos de dados diferentes são descritos nas seções a seguir.

Modelo de diagnóstico em todos os estágios baseado na via metabólica para câncer de mama

Investigamos primeiro as vias baseadas na metabolômica como biomarcadores para prever cânceres de mama compostos por todos os estágios de tumores (Fig. 2). Para selecionar o melhor conjunto de recursos que são maximamente relevantes e minimamente redundantes, usamos CFS com validação cruzada de dez vezes no conjunto de dados de treinamento de plasma, que é composto por 80% do câncer de mama e 80% das amostras de controle saudáveis. Com esses recursos selecionados (Fig. 2c), avaliamos três métodos de classificação amplamente usados ​​(regressão logística, SVM e floresta aleatória) no conjunto de dados de treinamento de plasma. A métrica de desempenho resultante AUC (0,986) mostra que a regressão logística tem o melhor desempenho entre os três métodos (Arquivo adicional 3: Tabela S1). Assim, usamos o modelo logístico como o modelo de escolha para avaliar três outros conjuntos de dados de teste: as amostras de teste de plasma de 20%, todo o conjunto de amostra de soro e uma coorte de 98 pares de RNA-Seq de câncer de mama de mesma idade dados do TCGA. Observe para os dados TCGA que geramos o PDS e extraímos os valores para os mesmos recursos do conjunto de dados de treinamento. Embora esses três conjuntos de dados sejam gerados a partir de diferentes populações e plataformas de tecnologia, nossa hipótese é que as características baseadas na via devem representar a verdadeira biologia e o modelo baseado em dados metabolômicos deve, portanto, ser geralmente preditivo.

O desempenho do modelo de diagnóstico em todos os estágios do câncer de mama. Usamos 80% dos controles e casos no conjunto de dados de plasma COH para treinar o modelo. Os dados de plasma COH restantes (20%) e o conjunto de dados de soro COH foram usados ​​como conjunto de teste e conjunto de validação. uma Curvas de características de operação do receptor (ROC) para o diagnóstico de câncer de mama em todos os estágios de diferentes conjuntos de dados. b AUC, MCC, sensibilidade, especificidade e estatística F1 para medir o desempenho do modelo de diagnóstico em todos os estágios. c Informações mútuas para recursos de via selecionados pelo modelo de diagnóstico de todos os estágios. d. Mudança de registro de dobra de metabólitos associados com os recursos de via selecionados determinados pela comparação de casos e controles em diferentes conjuntos de dados

O modelo de diagnóstico baseado na via metabólica resultante tem um desempenho muito bom em todos os três conjuntos de dados de teste, com AUCs de 0,923, 0,995 e 0,9946 nas amostras de teste de plasma, amostras de soro e conjunto TCGA RNA-Seq, respectivamente (Fig. 2a). Além disso, outras métricas estatísticas, como a sensibilidade, especificidade, MCC e estatística F1, também são excelentes, confirmando a robustez e generalidade do modelo baseado em via (Fig. 2b). O desempenho superior do modelo na metabolômica do soro e conjuntos de dados TCGA RNA-Seq é surpreendente. Isso pode ser devido às listas mais completas de metabólitos no conjunto de dados séricos e genes no conjunto de dados RNA-Seq em comparação com as amostras de plasma. A boa AUC obtida a partir dos dados de TCGA RNA-Seq de mesma idade sugere que é improvável que a idade seja um fator determinante que leve à precisão da classificação do modelo de via baseado em metabolômica. No entanto, examinamos ainda se a idade é um fator de confusão dominante nos dados de treinamento metabolômico. For this, we divided the plasma data into two subsets: subset 1 with 35 pairs of age-comparable samples and subset 2 with 97 breast cancer and 41 age-incomparable controls. If diagnosis signals were driven by age, then a model trained on age-incomparable subset 2 would have very poor prediction on subset 1, where the ages among these samples are comparable. However, a new model on age-incomparable subset 2 still achieves a very high AUC of 0.913 on age-comparable subset 1. Thus, the pathway features (Fig. 2c) in the earlier model are predictive of breast cancer diagnosis.

These eight pathway features are listed in the following in descending order with regard to their relevance, as measured by Mutual Information (MI), for diagnosis: taurine and hypotaurine metabolism glutathione metabolism methionine metabolism glycine, serine, and threonine metabolism phospholipid biosynthesis propanoate metabolism cAMP signaling pathway and mitochondrial beta-oxidation of medium chain saturated fatty acids. Interestingly, none of the pathways has an MI greater than 0.5, indicating the complexity of the disease and the significance of pathways collectively. Among them, taurine and hypotaurine metabolism stands out as the most important pathway (MI = 0.386). Hypotaurine is a product of the enzyme cysteamine dioxygenase, which is involved in protecting against oxidative stress and cancer-induced membrane damage [28, 29]. The taurine and hypotaurine metabolic pathway has been shown to be relevant to multiple types of cancers, such as ovarian, lung, colon, and renal cancers [30–33]. Here, for the first time, we have discovered that taurine and hypotaurine metabolism is also dysregulated in the blood samples of breast cancer. In order to confirm the significance of each pathway at the transcriptome level, we crosschecked pathway-level expression results using TCGA RNA-Seq data. The pathway level results of two data types are consistent overall, as expected (Additional file 3: Table S2). For example, the taurine and hypotaurine metabolism pathway has a significant p value of 1.01E-25 for the differential test in the metabolomics data and it is also a top-ranked pathway with a p value of 7.40E-9 in the RNA-Seq data.

Next, we identified the measurable metabolites in these selected pathways from both plasma and serum samples and measured their average log fold changes in tumor versus control samples (Fig. 2d Additional file 3: Table S3a). Hypotaurine is the primary metabolite in the leading significant taurine and hypotaurine pathway, and it is increased by 2.41-fold (0.0086 vs. 0.0025) in the tumor sample compared with the normal plasma sample. Pyruvate, the most central metabolite in the cell and a common component of glycine, serine, and threonine metabolism and taurine and hypotaurine metabolism pathways, is consistently present at higher levels in breast cancer blood samples (Fig. 2d Additional file 3: Table S3a): it is increased by 1.82-fold in the plasma sample and 2.89-fold in the serum sample compared with control (Fig. 2d Additional file 3: Table S3a). Interestingly, several amino acids are present at lower levels in cancer samples compared with controls, including succinate (1.69-fold decrease in plasma, 4.58-fold decrease in serum), choline (1.23-fold decrease in plasma, 4.58-fold decrease in serum), serine (2.72-fold decrease in plasma, 1.13-fold decrease in serum), glycine (1.25-fold decrease in plasma, 1.83-fold decrease in serum) and alanine (1.11-fold decrease in plasma, 1.62-fold in serum) (Additional file 3: Table S3a). Decreased levels of glycine and alanine in plasma and serum of breast cancer patients have been reported before [34, 35]. Choline, serine, and glycine are the major components of glycine, serine, and threonine metabolism, glutathione metabolism, and methionine metabolism, whereas succinate is the major component of propanoate metabolism and the cAMP signaling pathway. Similarly, levels of glycerol-3-phosphate in phospholipid biosynthesis are significantly lower in the cancer samples, with a sixfold decrease in plasma. The comparisons between some key metabolites in our metabolomics study and the corresponding enzymes from TCGA RNA-Seq data are shown in Additional file 2: Figure S2. Overall, the directions of change in metabolite levels are consistent with those of corresponding enzymes.

Metabolic pathway-based early-stage diagnostic model for breast cancer

Early detection of breast cancer is critical to improve survival. Due to the small sample size (n = 16) of stage I tumors, we combined the samples in stages I and II as early-stage cancers and constructed a sub-model to diagnose early-stage breast cancer, similar to the previous all-stage diagnosis model. As expected, the pathway-based early-stage diagnostic model performs very well on the training data set, with an AUC of 0.995. Moreover, it also predicts very well on the three testing data sets, with AUCs of 0.905, 0.902, and 0.999 in the 20 % hold-out plasma testing, serum, and TCGA breast cancer samples (Fig. 3a). Other model performance metrics also yield satisfactory results in both data sets, supporting the excellence of the early diagnostic model (Fig. 3b).

The performance of the early-stage diagnosis model for breast cancer. We used 80 % of the controls and early-stage (stage I and II) cases in the COH plasma data set to train the model. The remaining controls and early stage cases in the COH plasma data set, as well as controls and early stage cases in the COH serum data set, were used as the testing and validation set. uma Receiver operating characteristic (ROC) curves for the early-stage breast cancer diagnosis from different data sets. b AUC, MCC, sensitivity, specificity, and F1-statistic to measure the performance of the early-stage diagnosis model. c Mutual information for pathway features selected by the all-stage diagnosis model. d Log fold change of metabolites associated with the selected pathway features determined by comparing cases and controls across different data sets

Eight key pathways are identified as diagnostic features for early-stage breast cancer detection (Fig. 3a), namely taurine and hypotaurine metabolism, alanine, aspartate, and glutamate metabolism, protein digestion and absorption, purine metabolism, malate-aspartate shuttle, cAMP signaling pathway, propanoate metabolism, and biosynthesis of unsaturated fatty acids (listed in descending order of significance). Similar to the all-stage diagnosis model, taurine and hypotaurine metabolism is again the top-ranked pathway (MI = 0.414 Fig. 3c), indicating its significance as a new signature for early-stage breast cancer detection. Alanine, aspartate, and glutamate metabolism is a new pathway feature selected by the early-stage diagnosis model, largely due to the increase of the intensity of aspartate from 0.063 to 0.182 and decrease of the intensity of asparagine from 0.091 to 0.038 in the cancer and control plasma samples, respectively. This implies a transformational relationship from aspartate to asparagine in cancer. The cAMP signaling pathway has been intrinsically linked to a variety of pathways, such as the PI3K pathway, and antibodies directed against the soluble adenylyl cyclase that catalyzes cAMP production have been shown to be highly specific markers for melanoma [36, 37]. To further confirm the significance of our finding, we calculated the differences in the above eight feature pathways between tumor and control samples using the metabolomics data and TCGA RNA-Seq data. The pathway-level results are significant for both metabolomics and RNA-Seq data sets (Additional file 3: Table S2).

At the metabolite level, some key metabolites are preserved in the early-stage diagnosis sub-model (Fig. 3d) compared with the all-stage model (Fig. 2d). These include cysteine, glutamine, and asparagine, which are present at higher concentrations in early-stage tumor samples, as well as alanine and aspartate, which are decreased during early tumorigenesis. The finding that aspartate, the precursor of beta-alanine [38], is significantly and robustly lower even in early-stage breast cancers is very interesting and further confirms that dysregulations of amino acid metabolism and metabolites are early events associated with breast cancer tumorigenesis [35]. We summarize the average expression of the key metabolites and the differential test p values in Additional file 3: Table S3b. We also compare the relationship between the expression of key metabolites from our study and the expression of genes encoding the enzymes that transform those metabolites from the TCGA RNA-Seq data in Additional file 2: Figure S3. Both sets of results show consistent trends in general.

Integrative analysis of key pathways and metabolites

Metabolic regulation is elaborately linked to cancer initiation and progression as proliferating cells demand nutrients for energy production as well as synthesis of genetic materials, proteins, and lipids [4, 14]. Although the feature pathways identified by the diagnostic and early diagnostic models are different, they are nevertheless interconnected in the cellular context (Fig. 4). Alanine, glutamine, and aspartate metabolism are interconnected and we observe consistent trends of decreasing alanine, glutamine, and aspartate levels in cancer vs. normal samples. Moreover, amino acid, glucose, and phospholipid metabolism can be interconnected through glutaminolysis, a process that supplies carbon and nitrogen resources to the growing and proliferating cancer cells [39]. We also summarize the overlap between metabolites from the pathways featured in the all-stage diagnosis and early-stage diagnosis models. Common metabolites important to the two models are beta-alanine, glycine, serine, lactate, succinate, oxoglutarate, alanine, 3-hydroxybutyrate, methionine, valine, cadaverine, and pyruvate, all functionally linked to glutaminolysis (Additional file 2: Figure S4).

Integrative analysis of pathway features and the associated metabolites. The key pathways and their intersections crucial for breast cancer diagnosis. Metabolites and enzymes are represented with nodes of different shapes and colors, and their relationships are represented by edges

Comparison of pathway-based and metabolite-based metabolomics models

To evaluate the pathway-based metabolomics diagnosis modeling approach compared with the commonly used metabolite-based approach, we constructed a “baseline” metabolite-based model using exactly the same CFS feature selection and logistic regression steps used in our pathway-based method. Since the AUC values indicate that the early-stage model is less likely to have over-fitting, we used the early-stage breast cancer data to compare the pathway-based and metabolite-based diagnosis models. In the training data set, the pathway-based approach performs slighter better, with an AUC of 0.995 compared with 0.988 in the metabolite-based approach (Fig. 5). A similar trend also exists in the testing data set, where the pathway-based model yields an AUC of 0.905 and the metabolite-based model has an AUC of 0.888 (Fig. 5).

Receiver operating characteristic (ROC) curves comparison of pathway-based model and metabolites-based model among data sets. The same 80 % of early stage (stage I and II) cases and controls from the COH plasma data set used in the early-stage diagnosis model were used for the plasma training set. The remaining 20 % of early stage (stage I and II) cases and controls represent the test set. The metabolite-based model is based on the same tenfold cross-validation CFS selection used for the plasma training set. ROC curves for training and test sets are compared between the plasma-based model and the metabolite-based model among data sets

US Food and Drug Administration approval of biomarkers requires the demonstration of the biomarker candidate functions [40]. We thus built single-variate logistic models to show the diagnostic potential of the individual pathway or metabolite features selected by the models. Comparatively, the top pathway features show better disease association than the top metabolite features (Additional file 3: Table S4). In the pathway-based model, taurine and hypotaurine metabolism is the most statistically significant (p < 2E-16, t-test) followed by the protein digestion and absorption pathway (p = 3.5E-10, t-teste). On the other hand, in the metabolite-based model, the most significant metabolite, cysteine (HMDB00192), has a significant p value of 2.22E-9. These results indicate that the top individual pathway feature may have better diagnostic performance than metabolites.

To investigate the effect of the number of pathways on the performance of the pathway-based model, we conducted sensitivity analysis as exemplified by the early-stage diagnosis model. We randomly selected half (51) of the initial 101 pathways within exactly the same training sample sets and applied the same CFS feature selection criteria with tenfold cross-validation. CFS selects six pathways for the early-stage model (Additional file 3: Table S5). We imposed logistic regressions on these selected features and compared the changes in AUCs due to changes in pathways. Reducing the initial number of pathways decreases the performance of the models, as expected. In the training data, the half-size pathway-based early stage diagnosis model has a slight decrease of AUC from 0.995 to 0.948. Such a decrease is more pronounced in the serum testing data, from 0.903 to 0.753. Similar trends are observed for the all-stage diagnosis model.


Implementação

System overview

3Omics is a platform-independent web application constructed with Perl and PHP scripts and running on a Linux-based Apache web server. A typical session workflow is illustrated in Additional 1: Figure S1. When users upload experimental data via the 3Omics web interface, the server immediately computes correlation coefficients, coexpression values and pathway enrichment scores. Related information from publicly accessible databases, such as iHOP (information hyperlinked over proteins) [27, 28], KEGG [19], HumanCyc [29], DAVID [30], Entrez Gene [31], OMIM and UniProt [32], are automatically incorporated and stored in an internal database. To maintain up-to-date information, the internal database is updated with new data each month (from KEGG, HumanCyc, Entrez Gene, OMIM, and UniProt) or queried immediately (iHOP and DAVID).

Users can export network images in SVG or SIF formats. SVG is an XML-based file format for describing two-dimensional vector graphics that is compatible with multiple platforms. Processed SIF files can be imported and edited in Cytoscape. 3Omics users can also download all of the processed data for further analysis. All analyzed data and network/pathway images can be downloaded in PNG or SVG format. Detailed descriptions of the supported data formats are found on the 3Omics online help page. All uploaded data files are temporarily stored during a 3Omics session and automatically deleted after processing to safeguard data confidentiality. In the following subsections, we briefly explain the methods used in 3Omics.

Summary of 3Omics features

3Omics offers four types of multiple omics analysis depending on the data provided by the user (see options a, b, c and d on the 3Omics homepage in Figure 1): Transcriptomics – Proteomics - Metabolomics (T – P - M) analysis, Transcriptomics - Proteomics (T - P) analysis, Proteomics - Metabolomics (P - M) analysis, and Transcriptomics - Metabolomics (T - M) analysis. 3Omics also offers analysis in single-omics mode to reveal “intra-omics” relationships (see options e, f, and g in Figure 1).

3Omics User interface. (UMA) 3Omics implements seven inter-omic analyses: (uma) Transcriptomics-Proteomics-Metabolomics, (b) Transcriptomics-Proteomics, (c) Proteomics-Metabolomics, (d) Treanscriptomics-Metabolomics, and intra-omics analyses, such as (e) Transcriptomics, (f) Proteomics, and (g) Metabolomics. Users select the desired analysis by selecting the corresponding icon. (B) Interface for the Transcriptomics-Proteomics analysis. (C) Interface for the Metabolomics analysis.

3Omics analysis requires the use of transcript, protein, or metabolite IDs and their corresponding variations (e.g., concentration or intensity levels) under specific experimental conditions (e.g., different times, nucleic magnetic resonance shifts (in parts per million) or mass spectrometry mass-to-charge ratios). Acceptable IDs include Entrez Gene IDs, UniprotKB IDs and PubChem CIDs [33]. Users can also utilize the 3Omics Name-ID Converter to match gene, protein and metabolite names with their corresponding IDs. Once users select an analysis method, a data input page is dynamically generated to upload the required data. For example, when a user would like to perform a T-P analysis, 3Omics loads the page shown in the upper-right corner of Figure 1. T and P data from large-scale biochemical experiments are then uploaded in a comma-separated value format. Where different data integrations may require different analyses, 3Omics, in general terms, provides correlation, coexpression, phenotype, pathway enrichment, and GO enrichment analyses.

Table 2 lists the various data integration methods and analyses incorporated into 3Omics. When a user possesses transcriptomics, proteomics and metabolomics data, all analyses are performed. When only two of the three omics datasets are available, 3Omics supplements missing transcript, protein and metabolite information related to the user-input data by text-mining biomedical literature from iHOP to generate literature-derived objects and relationships for correlation analysis (see the dotted line depicting the literature-derived relationship in Figure 2B). Coexpression analysis is available for all omics data types. For transcriptomic or proteomic datasets, phenotype- and GO-based enrichment analyses can be performed. In addition, pathway enrichment analysis can be employed to map metabolite data to a KEGG/HumanCyc pathway to determine significant or differentially expressed metabolites that may play vital roles in the corresponding biological pathway.

3Omics - generated Correlation network analysis. Features include the following: (UMA) toggling zoom/explore mode, saving as SVG format, downloading the full-size image and SIF files for Cytoscape import (B) literature-derived edges are presented as dotted lines (C) adjusting parameters to customize the correlation network.

Análise de correlação

3Omics incorporates the “corr” function from R [34] to compute the Pearson correlation coefficient (PCC). PCC is widely used and accepted as a measure of correlation in systems biology. Nodes and edges are stored in a Graph Description Language (GDL) format and sent to the network generator, aiSee3 (AbsInt, Angewandte Informatik GmbH, Saarbrücken, Germany). A force-directed layout algorithm is utilized to generate visualizations. The correlation coefficient threshold and the repulsion and attraction parameters can be adjusted for better visualization and are set by default to 0.9, 160 and 80, respectively (see the lower-left corner of Figure 2).

To generate a correlation network, the PCCs are calculated from two sets of expression values for two entities (inter- or intra-omics data). The PCC correlation matrix is calculated for the omics data, which are then used for visualization. Correlation networks can be generated automatically, and substances can be clustered according to similar behavior over time or into different experimental groups. Nodes denoted by squares, triangles and circles represent transcripts, proteins and metabolites, respectively. Transcript, enzyme and metabolite can be presented in the context of the correlation network. Correlated relationships (PCC > 0.9) are represented by solid lines, and the text-mining results between pairs of input molecules and literature-derived molecules are indicated by dotted lines. The results can be downloaded from the web interface. Navigation functions support visual exploration of the data-enriched networks (Figure 2A).

Literature-derived relationships in the correlation analysis

When only two of the three omics datasets are available for correlation network analysis, 3Omics supplies the missing omics information using the following approach. First, 3Omics identifies related transcript-protein, protein-metabolite, or transcript-metabolite pairs by incorporating 48,631 human genes from NCBI Entrez Gene, 20,370 human proteins from UniProt, and 16,339 metabolite entries from KEGG Compound [19] into an internal, relational database. Original data from the May 8, 2012 snapshot were downloaded using NCBI EFetch and UniProt as well as the KEGG FTP site. Each entity in the MySQL database should contain a transcript-protein-metabolite relationship. When an entity contains only transcript-protein, protein-metabolite, or transcript-metabolite pairs, 3Omics can rapidly identify the missing transcripts, proteins or metabolites and their potential relationships for correlation analysis.

Once the missing information is identified, 3Omics uses the transcripts or proteins to search iHOP. The missing omics data are supplied from the iHOP results. For example, transcriptomics and proteomics data are inputs, and 3Omics searches for protein-metabolite pairs. The missing metabolomics data are recovered by text mining of the iHOP results. Relationships described in the literature are depicted as dotted edges in the plot, as shown in Figure 2.

Coexpression analysis

Coexpression analysis is performed using the R statistical programming language [34]. Heatmaps are generated using the R language gplots package [35]. Rows display the expression of input molecules, and columns display the expression differences between experimental groups, such as treatment/control groups or time-series experiments. Each cell in the resulting image is “heat colorized” based on the input expression value. Cyan indicates the lowest expression value, and pink indicates the highest expression value. Row edges are color coded to indicate their omics data source types. Heatmap dendrograms are added to the top and left side of the heatmaps to display similarities among rows or columns. Dendrograms on the top and left side of the image display the similarities of the input molecules (each row represents a transcript, protein, or metabolite) or experimental groups (each column represents a treatment group or control group). Dissimilarity coefficients between rows and columns are computed as the Euclidean distance, where the closest rows/columns connected by dendrograms have the most similar expression profiles.

Phenotype analysis

A phenotype is defined as any observable characteristic or trait of an organism arising from gene expression, the influence of environmental factors, and interactions between gene expression and environmental factors. A total of 21,746 phenotypes listed in OMIM from the March 27, 2012 snapshot were downloaded from the OMIM website and stored in the internal 3Omics database. The OMIM data are used to identify genes and genetic disorders based on information that relates genes in the human genome with specific phenotypes.

Phenotype analysis is not available for metabolomics datasets alone because no transcriptomic or proteomics data are available.

Pathway enrichment analysis

A total of 499 human pathways from KEGG Pathway and 793 human pathways from HumanCyc were downloaded and stored in the internal 3Omics database (Release 62.0 and Version 16.0). HumanCyc provides more than 250 human pathways with literature-based curation for at least one year by experts. The pathways in HumanCyc are small and similar to biologically functional units. Therefore, enriched pathways from HumanCyc provide meaningful information from input metabolomics data. Two modes are available in 3Omics’ KEGG pathway enrichment analysis: normal and enrichment. The normal mode displays user-provided metabolites via simple metabolite mapping to a pathway from the KEGG Pathway database. The enrichment mode requires users to upload two datasets: (A) a metabolite set and (B) a significantly changed metabolite set. Significantly enriched pathways are identified with a hypergeometric test for a given list of metabolites. Por exemplo, existem N metabolites in set A and n metabolites in set B, and there are m metabolites in set A and eu metabolites in set B in a given KEGG human pathway. The probability of the occurrence of x or fewer metabolites within set B in a given pathway is calculated by hypergeometric distribution [36] according to the following formula:

The hypergeometric test is a standard method for calculating pathway enrichment. Note that when a large population (N) is selected and the total number of mapped metabolites in set A (m) is also large, the cumulative probability in the hypergeometric test will be very high.

The pathway enrichment analysis is available for proteomics-metabolomics, transcriptomics-metabolomics, transcriptomics-proteomics-metabolomics, and single metabolomics analyses.

Gene ontology-based enrichment analysis

GO-based functional enrichment analysis is performed through the DAVID knowledgebase Application Platform Interface (API). Three independent GOs are included: (i) biological processes, (ii) cellular components, and (iii) molecular functions. The input transcripts are used in 3Omics to calculate the p-value and FDR (False Discovery Rate) of each GO term using a modified Fisher’s exact test in the DAVID API. The enriched GO terms associated with the given Entrez Gene IDs are reported in 3Omics. By default, enriched terms with p-values less than 0.05 are presented in an interactive bar chart generated with Google Chart Tools [37].

Using GO enrichment analysis, only the enriched terms are displayed, thus avoiding the display of general terms, such as “cellular component” or “metabolic process”, which are of limited use because many transcripts and proteins can be mapped to them. GO-based enrichment analysis requires transcriptomics data to calculate the GO-term enrichment therefore, GO-based functional enrichment analysis is available for transcriptomics-proteomics, transcriptomics-metabolomics, transcriptomics-proteomics-metabolomics and single transcriptomics analyses. GO enrichment analysis allows users to explore genes represented by GO terms with automated organization functionality, thereby avoiding the need for manual editing.


SAM MCBRAYER LABORATORY

Alterations in whole-body metabolism, such as those that occur in obesity or diabetes, can increase the risk of developing certain forms of cancer. These findings indicate that external metabolic cues can trigger cancer formation and growth at the cellular level. However, we have limited knowledge of the internal metabolic changes that influence whether a cell becomes cancerous or not.

Our goal is to identify the metabolic mechanisms that push cells to become cancerous and find new ways to inhibit them. To identify these mechanisms, we study the biology of brain tumors driven by mutations in genes that regulate metabolism. Studying these mutations will help us discover fundamental connections between metabolism and other aspects of cell biology that are likely to control cancer formation in many different tissues. These insights hold great promise for the development of new therapies for patients with brain tumors and, by extension, for those with other types of cancer.

Research Projects

Dissecting the Molecular Cascade Linking IDH1 Mutations with Gliomagenesis

Understanding Mechanisms of Nitrogen Incorporation into the Glioma Metabolome

Exploiting Synthetic Lethality with IDH1 Mutations to Improve Brain Tumor Therapy

Dissecting the Molecular Cascade Linking IDH1 Mutations with Gliomagenesis

IDH1 mutations are the signature genetic feature of lower grade gliomas and secondary glioblastomas. They are thought to initiate gliomagenesis by causing accumulation of the oncometabolite (R)-2-hydroxyglutarate in neural progenitor cells. (R)-2-hydroxyglutarate, in turn, controls the activity of dioxygenase enzymes which regulate chromatin structure, hypoxia signaling, and other key aspects of neural cell biology. Collectively, these effects promote brain tumor initiation. Although this framework represents a significant advance in our understanding of the oncogenicity of IDH1 mutations, detailed characterization of the molecular cascades that link (R)-2-hydroxyglutarate accumulation with gliomagenesis has not been fully completed.

We are currently undertaking complementary top-down and bottom-up approaches to dissect specific oncogenic mechanisms engaged by IDH1 mutations. To systematically identify critical proximal effectors of (R)-2-hydroxyglutarate in glioma, we are performing CRISPR/Cas9 screens to uncover dioxygenases that control malignant transformation in cellular contexts that closely recapitulate glioma genetics. We are also using a novel genetically-engineered mouse model of glioma created in our laboratory to characterize the dynamics of the distal effects of mutant IDH1 on the epigenome and the transcriptome. Taken together, findings from these studies are expected to provide a comprehensive understanding of how (R)-2-hydroxyglutarate induces glial cell transformation na Vivo. These findings may reveal metabolic mechanisms of transformation with relevance beyond the setting of IDH1 mutant glioma. Furthermore, our findings may reveal unappreciated therapeutic opportunities to impede brain tumor progression.

Understanding Mechanisms of Nitrogen Incorporation into the Glioma Metabolome

The paradigm of malignant transformation by IDH1 mutations holds that (R)-2-hydroxyglutarate produced by IDH1 mutant enzymes directly modulates the activity of oncogenic or tumor suppressive dioxygenase enzymes to promote tumorigenesis. Recently, we showed that (R)-2-hydroxyglutarate can also regulate the activity of another class of enzymes known as transaminases (McBrayer et al, 2018). Specifically, we found that (R)-2-hydroxyglutarate directly inhibits the branched chain amino acid transaminases BCAT1 and BCAT2. These enzymes play central roles in nitrogen metabolism in glial cells and our work revealed that (R)-2-hydroxyglutarate accumulation impairs the BCAT-dependent synthesis of nitrogenous metabolites.

These findings provide a mechanistic explanation for metabolic differences observed between IDH1 mutant and wild-type brain tumors but, at the same time, prompt fundamental questions about nitrogen metabolism programs in cancer. How do tumor cells couple the catabolism of specific amino acids to the synthesis of key nitrogenous metabolites? How do tumor cells engage compensatory amino acid catabolism pathways to adapt to nitrogen limitation? The answers to these questions have been obscured by conventional depictions of metabolic pathways from carbon-centric standpoints. We aim to answer these questions using metabolomic profiling and isotope tracing approaches in em vitro e na Vivo glioma models to systematically map nitrogen metabolism pathways. These studies are expected to illuminate novel patterns of nitrogen incorporation in IDH1 mutant brain tumors as well as other cancers that display BCAT-independent metabolic phenotypes.

Exploiting Synthetic Lethality with IDH1 Mutations to Improve Brain Tumor Therapy

Malignant gliomas are notoriously refractory to therapy and there is a dire unmet need for new treatments. Discovery of the high prevalence of IDH1 mutations in lower grade gliomas and secondary glioblastomas has opened new avenues for therapeutic intervention, including the use of direct inhibitors of mutant IDH1 enzymes. An alternative approach to treating these brain tumors entails the exploitation, ao invés de inibição, of IDH1 mutant enzymes through the discovery of associated synthetic lethal interactions. Our previous work describing nitrogen metabolism reprogramming by IDH1 mutations led to the development of a new synthetic lethality-based treatment strategy that is currently being tested in a Phase I trial for glioma patients (NCT03528642).

We are pursuing both hypothesis-driven and unbiased approaches to identify additional synthetic lethal interactions with the canonical IDH1 R132H oncogene. Because radiation is a cornerstone of the standard-of-care treatment protocol for glioma, we are particularly interested in discovering collateral vulnerabilities induced by IDH1 mutations that impact radiosensitivity. To evaluate the translational relevance of our findings, we use patient-derived and genetically engineered mouse models of glioma to conduct preclinical efficacy studies. Our long-term goal is to lay the basic and translational scientific groundwork needed to support clinical testing of new glioma treatment strategies using IDH1 mutations as predictive biomarkers.


Assista o vídeo: Vias Metabólicas - (Agosto 2022).