Información

Diferencia entre KEGG Pathway y Module (del mapeo de KO)

Diferencia entre KEGG Pathway y Module (del mapeo de KO)


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

En la página de consulta de mapeo de otólogos de KEGG puedo mapear caminos y módulos. Parece que no puedo encontrar una descripción de nivel extremadamente bajo de la diferencia entre los dos. Creo que entiendo lo que es un camino. Parece que no puedo encontrar ninguna definición o descripción de lo que es un módulo.


Una ruta muestra todas las reacciones necesarias para la síntesis / metabolismo de un producto determinado. Un módulo es una unidad funcional que se puede utilizar en una ruta, y algunos módulos son comunes a muchas rutas. Por ejemplo, observe la vía de biosíntesis de tetraciclina 00253. Esta vía tiene una descripción en la parte superior que incluye este extracto:

Las tetraciclinas contienen un esqueleto tetracíclico lineal, que se forma a partir de una unidad de iniciación de malonamato y unidades de extensión de malonil-CoA a través de una ruta de policétidos común [MD: M00778].

Confusamente, esa "vía común de policétidos" es en realidad un módulo, Biosíntesis de la cadena principal de policétidos de tipo II, acil-CoA + malonil-CoA => policétido o M00778.

Tenga en cuenta que este módulo se incluye en otras vías:

mapa01056 mapa00253 mapa01100 mapa01130

Al observar el menú desplegable en la parte inferior de la página del módulo, vemos que el Módulo de referencia contiene varios Ortólogos KEGG diferentes que realizan la misma función en diferentes sistemas.

Al elegir un organismo del menú desplegable, se resaltan los ortólogos específicos utilizados por esa especie.

Por lo tanto, puede ver cómo la separación de las rutas en módulos puede ayudar a identificar estos componentes en otros organismos, incluso si la ruta completa no existe.


KEGGWatch, parte II

En el que no llego a escribir un analizador KGML y un módulo de visualización (¡todo muy Tristram Shandy, esto!), Con miras a enviarme a Biopython. Esta publicación describe algunas de las razones y opciones de diseño: sintonice la parte III para ver el código y los ejemplos de uso.

Entonces, si ha seguido desde la parte I, sabrá que he estado mirando paquetes para visualizar mapas de ruta de KEGG. Lo que puede no haber sido claro es por qué.

He estado trabajando en genómica comparativa de un par de géneros bacterianos diferentes y, para uno de ellos, con mucho más detalle en la construcción de modelos de metabolismo para varios aislamientos y combinándolos en una especie de panmetabolismo, análogo al pangenoma. Pero necesitaba una forma de visualizar y representar las similitudes y diferencias entre los aislados. Las rutas de KEGG, que están seleccionadas, estandarizadas y representadas con amor en sus mapas de rutas, son una opción natural para esto.

Entonces, como ejemplo de caso de uso, imagine que tengo alrededor de 30 genomas que representan aproximadamente seis especies de un solo género bacteriano, y que hemos pasado por el proceso de secuenciación, anotación y reconstrucción metabólica. Ahora quiero ver dónde se encuentran los genes metabólicos anotados de mi género en el mapa metabólico general de los ortólogos de KEGG: ko01100.

Mapa de KEGG ko01100
La forma en que quiero mostrar esto es mantener el bonito diseño de KEGG, incluidas las curvas (a diferencia de, digamos, kgmlreader), pero renderizar cualquier paso que no exista en mis anotaciones de una manera gráficamente silenciada mientras se conservan los colores de KEGG para esos pasos que están presentes. También me gustaría hacer que los anchos de las líneas para esos pasos representen el número de 'ortólogos' en mis anotaciones. La imagen final mostrará una brillante estructura de "mapa de tubos" del metabolismo común de mi género, con un indicador visualmente obvio del grado de representación de cada paso en la ruta. También me gustaría almacenar el mapa y los datos asociados en un formato de archivo común y transferible. Dado que KGML es el formato de datos natural de KEGG que estoy demandando como entrada, podríamos conservarlo para la salida, por lo que también quiero escribir KGML. Esto debería significar que puedo hacer mis cambios cosméticos (o quizás cambios estructurales) y aún pasar los datos a través de cualquier canalización posterior.

Ortólogos KEGG

Entonces, ¿de dónde obtengo mis datos? Comenzando con las características de nuestras bacterias, asuma por ahora que tengo los datos de mi organismo en una base de datos local SQLite3 porque, bueno, sí. Supongamos también, porque es cierto, que puedo obtener todas las características relevantes y sus ID de ortólogos de KEGG asociados en una tabla llamada ft_ko. El esquema de esta tabla es:

esquema de tabla ft_ko
y tiene dos columnas, una con ID de función y otra con ID de ortólogo KEGG.

Los identificadores de ortólogos de KEGG (KO, formato K [0-9] <5>) son la forma principal en la que los productos génicos se identifican en las rutas de KEGG, como miembros de grupos de "ortólogos" definidos manualmente. Estos están destinados a proporcionar una forma de anotar genes "equivalentes" en muchos organismos en términos de sus funciones en el metabolismo, en lugar de, digamos, en términos de similitud de secuencia. A los genes / características se les asignan identificadores KO durante la anotación, que los asocia con al menos un elemento de al menos una vía KEGG. En este caso, los identificadores KO de nuestro genoma se encontraron utilizando KAAS.

Entonces, le hemos dado a todas nuestras características KO ID para asociarlas con elementos de una ruta KEGG, pero ¿cómo obtenemos los datos de nuestra ruta? KEGG proporciona la información en KGML (KEGG Markup Language), un dialecto de XML, producido a partir del 'KGML +' interno de KEGG. Puede descargar KGML para cada uno de los mapas de organismos y ortólogos en KEGG. Sin embargo, no puede hacer esto para los mapas 'vacíos' que no contienen información de organismo / ortólogo (por ejemplo, map01100).

El formato de datos KGML se ha mantenido estable durante un par de años, y la especificación se proporciona aquí, con un diagrama de clases para la estructura de datos que se muestra a continuación:

Diagrama de clases KGML
Vale la pena familiarizarse un poco más con la estructura de datos, pero podemos resumirlo como "todo lo que tenga importancia visual para nosotros es un elemento de entrada". Lo principal que hay que saber es que los elementos de entrada son los únicos elementos con información gráfica asociada, y es esa información gráfica la que nos dice dónde se ubican las cosas en las imágenes del mapa de ruta de KEGG.

La otra cosa que debe saber es que esta especificación no siempre se corresponde con la forma en que KEGG le presenta KGML como usuario. El diagrama de clases sugiere que la reacción s, el sustrato sy el producto s generalizan una entrada y tienen los correspondientes ID de nodo "requeridos". El ID 'obligatorio' no suele estar presente, como muestra este extracto de ko00020:

Extracto de KGML de ko00020.xml
Todavía es posible hacer una referencia cruzada de estos elementos a una entrada correspondiente vía sus campos de nombre, pero la especificación KGML parece ser más una guía aquí. El archivo KGML para ko01100.xml que descargué de KEGG también falla en la validación XML (pruébelo usted mismo, aquí) sobre la base de un entry_type.type ("otro") no válido que no se especifica en la DTD.

La capacidad deseable, mencionada anteriormente, de poder realizar modificaciones en el modelo de ruta (incluidas las opciones de visualización) y luego escribirlas en KGML, permitiría un uso transparente en una tubería de procesamiento. Pero dado que varios archivos KGML de KEGG no se ajustan a su propia especificación, mi ambición de escribir KGML estrictamente válido se atenuó a una más pragmática no escriba ningún KGML que sea menos compatible que la entrada. Queremos, al menos, poder realizar un viaje de ida y vuelta (módulo el formato de texto XML).

Me gusta trabajar en Python y usar Biopython, pero Biopython no es un analizador KGML. Hay otros analizadores KGML para Python, como este de Giovanni Marco Dall'Olio. Lo escribió específicamente para representar el camino como un dígrafo de NetworkX (y pensó que esto lo hacía inadecuado para Biopython), lo cual es bastante justo y tiene sentido para muchos usos. Sin embargo, no se ha modificado durante un tiempo y no hace exactamente lo que quiero, que es capturar la información gráfica. También está el módulo de ruta / analizador similar de Eric Xu como parte de kegg-dfba, que tiene una usabilidad restringida similar. Entonces necesitamos un modelo de objetos, un analizador y también una visualización.

No siempre es una buena idea asumir que el mejor modelo de objetos es un clon servil de una estructura de base de datos relacional o un árbol DOM. En este caso, debido a que quería habilitar un uso relativamente transparente para tomar KGML y escribir KGML (tal vez con un pequeño ajuste), pensé que el enfoque perezoso de imitar el árbol DOM era apropiado.

Oye Ronald, ¿qué hay en la bolsa? ¿Me refiero a XML?

Al principio, esperaba que el archivo KGML para cualquier ruta me diera suficiente información para representar la ruta como la vi en KEGG sin demasiado esfuerzo. Me equivoqué.

Tomando ko01100 (vías metabólicas) como mi primer ejemplo, todo parecía prometedor. Cada elemento de entrada compuesto tenía un subelemento gráfico que describía un círculo. Todos los elementos de entrada del mapa tenían un subelemento de gráficos de rectángulo redondo. Y todos los elementos de entrada del ortólogo, que están asociados y describen reacciones, tenían un subelemento de gráficos de líneas. Las líneas de ortólogo conducen entre el sustrato (a veces múltiples) y los compuestos del producto. En conjunto, estos son de hecho todos los componentes que necesitamos para reproducir el mapa de ruta. Lo mismo ocurrió con los mapas ko01110 y ko01120. Hasta aquí todo bien. Siempre que pudiera controlar las propiedades de visualización de esos elementos individuales, sabía que podía obtener el efecto de 'mapa de tubo' que estoy buscando.

Pero luego eché un vistazo al primer mapa del módulo, ko00010: Glicólisis / gluconeogénesis. Ahora tenemos un modo de representación completamente diferente.

Mapa de ruta de KEGG para ko00010
Aquí los elementos de entrada compuestos tienen gráficos que describen círculos, y los elementos de entrada del mapa tienen subelementos gráficos de rectángulo redondo, como antes, pero nuestros elementos de entrada de ortólogo tienen subelementos gráficos que describen los rectángulos azules. No hay elementos gráficos en el archivo KGML para describir las flechas que conectan cualquiera de estos elementos. Aunque las coordenadas para representar las líneas aparentemente deben existir en algún lugar de KEGG, no están incluidas en esta salida.

Los paquetes que cubrí en la parte I manejan este problema de la misma manera: tenemos las ubicaciones del ortólogo, la reacción, el compuesto y los elementos del mapa, y podemos inferir las direcciones de cualquier flecha entre ellos a partir de los elementos de relación y reacción. Pensé que esto sería más fácil con un modelo de datos de ruta adecuado, a partir del cual podemos dibujar las flechas correspondientes como líneas rectas entre los componentes gráficos en cada ruta, con puntas de flecha que indican que el tipo de reacción es reversible o irreversible. Podemos dibujar líneas discontinuas para indicar que un tipo de relación es un vínculo de mapa, o líneas continuas para mostrar que tiene el tipo ECrel. Pero no podemos reproducir fácilmente el diseño de la ruta en el diagrama. Experimenté con arcos y líneas rectas en las primeras versiones del código, pero no estaba contento con ninguno de esos resultados, así que no los forcé.

Esto me dejó con una opción obvia si quería conservar el diseño de la ruta de KEGG: adoptar un enfoque similar a MapMan y usar el .png de KEGG indicado en el campo de imagen del elemento de la ruta como fondo, sobre el cual superponemos el ortólogo y los elementos gráficos compuestos. . Pero, ¿de dónde los sacamos? Bueno, si lo ha pensado con anticipación o tiene acceso al sitio FTP de KEGG, puede descargarlos en masa. Sin embargo, tenga en cuenta que los .png pueden cambiar con el tiempo, por lo que realmente desea el que acompaña al archivo KGML, lo que significa que también podríamos descargar el .png correspondiente a pedido para el KGML nuevo. cuando lo necesitemos. Entonces, ya que estamos en eso, también podríamos brindar la capacidad de obtener el KGML sobre la marcha. Algunas funciones de ayuda para obtener datos directamente de KEGG podrían ser agradables, entonces & # 8230

El etiquetado en KGML también difiere de la representación del mapa de ruta correspondiente. Los nombres de los elementos gráficos del mapa son los mismos que vemos en el mapa de ruta, pero los nombres de cada ortólogo en el archivo KGML son los identificadores KO, en lugar de números EC, y las etiquetas compuestas son identificadores compuestos (formato cpd: C [0 -9] <5>). Si queremos relacionarlos con los nombres comunes compuestos, los nombres de los genes o los números EC, necesitamos otra fuente de información. Felizmente, Biopython proporciona el módulo Bio.KEGG para ayudar con esto.

Entonces, finalmente, en la próxima publicación pondré un enlace al código y daré algunos ejemplos de uso.


Resumen del autor

Aunque solo hay una gran red biológica dentro de cualquier célula y todas las vías están conectadas hasta cierto punto, la partición de toda la red celular en unidades más pequeñas (por ejemplo, vías KEGG) es extremadamente importante para comprender los procesos biológicos. La reconstrucción de la vía biológica, por lo tanto, es esencial para comprender las funciones biológicas que codifica un genoma recién secuenciado y, recientemente, para estudiar la funcionalidad de un entorno natural a través de la metagenómica. La práctica común de reconstrucción de vías en metagenómica primero identifica las funciones codificadas por las secuencias metagenómicas y luego reconstruye las vías a partir de las funciones anotadas mapeando las funciones a las vías de referencia. Para abordar los problemas de los datos incompletos (p. Ej., Los metagenomas, a diferencia de los genomas individuales, son probablemente incompletos) y la redundancia de vías (p. Ej., La misma función está involucrada en múltiples unidades de vías), formulamos una versión parsimonia de la reconstrucción / inferencia de la vía. problema, llamado MinPath (Minconjunto imal de Senderovías): dado un conjunto de vías de referencia y un conjunto de funciones que se pueden asignar a una o más vías, MinPath tiene como objetivo encontrar un número mínimo de vías que puedan explicar todas las funciones. MinPath logra una estimación más conservadora, pero más fiel, de las vías biológicas codificadas por genomas y metagenomas.

Citación: Ye Y, Doak TG (2009) Un enfoque de parsimonia para la reconstrucción / inferencia de vías biológicas para genomas y metagenomas. PLoS Comput Biol 5 (8): e1000465. https://doi.org/10.1371/journal.pcbi.1000465

Editor: Christos A. Ouzounis, King's College London, Reino Unido

Recibió: 27 de mayo de 2009 Aceptado: 10 de julio de 2009 Publicado: 14 de agosto de 2009

Derechos de autor: © 2009 Ye, Doak. Este es un artículo de acceso abierto distribuido bajo los términos de la Licencia de Atribución Creative Commons, que permite el uso, distribución y reproducción sin restricciones en cualquier medio, siempre que se acredite el autor y la fuente originales.

Fondos: Esta investigación fue apoyada por la subvención del NIH 1R01HG004908-01 (desarrollo de nuevas herramientas para el análisis computacional de datos de proyectos de microbiomas humanos). Los patrocinadores no tuvieron ningún papel en el diseño del estudio, la recopilación y el análisis de datos, la decisión de publicar o la preparación del manuscrito.

Conflicto de intereses: Los autores han declarado que no existen intereses en competencia.


Resultados y discusión

Análisis de redes metabólicas integrado

La información combinada de varias fuentes de datos se utilizó en el contexto de una red de metabolitos para analizar los cambios en el metabolismo de los tardígrados. La fuerza de nuestro enfoque es la integración de datos distintos mediante un enfoque de red para identificar regiones importantes de interés en la red. Los datos utilizados para la integración consisten en perfiles de metabolitos de espectrometría de masas, datos EST de estudios anteriores con asignaciones a números EC, así como bibliotecas EST para el estado activo e inactivo de los tardígrados (denominados dEST).

El proceso de integración general se muestra en la Figura 2. Se divide en tres partes principales, (i) la generación de la red, (ii) el procesamiento de los datos del metabolito y EST para la puntuación de nodo y borde y (iii) el cálculo de un máximo -subredes de puntuación (módulo funcional).

Integración de datos. Se integran diferentes fuentes de datos para identificar un módulo funcional que explica los cambios metabólicos en Tardigradum de milnesio durante la deshidratación y la rehidratación. En el lado izquierdo, la red de metabolitos se crea a partir de las rutas de referencia de KEGG. En la parte superior del lado derecho se integran diferentes fuentes de datos moleculares: los perfiles de metabolitos y los dos conjuntos de tecnologías ecológicamente racionales. A partir de estas puntuaciones de nodo y borde se derivan que se utilizan posteriormente para puntuar la red metabólica. En el último paso, se calcula una subred de puntuación máxima utilizando el algoritmo de heinz.

Construcción de una red de reacciones metabólicas.

Se creó una red de reacciones metabólicas sobre la base de las rutas de referencia de KEGG [36] y se convirtió en un gráfico con metabolitos como nodos y reacciones como bordes (ver Métodos). Los gráficos resultantes de cada vía metabólica se combinaron en un supergráfico. Posteriormente, este gráfico se transformó en un gráfico no dirigido y se eliminaron los metabolitos del grupo que forman accesos directos no específicos en la red (consulte Métodos para metabolitos eliminados). La red resultante consta de 3.658 nodos que representan los metabolitos y 4.378 bordes que representan las reacciones. Los nodos y bordes de esta red se puntuaron a continuación con los datos integrados para identificar una subred específica para los cambios metabólicos en el tardígrado. M. tardigradum.

Análisis de perfiles de metabolitos

Los perfiles metabólicos contienen datos del curso temporal de 84 metabolitos después de la eliminación de metabolitos no identificados, que fueron medidos por GC-MS, pero no pudieron asignarse explícitamente a un metabolito específico en la red. Se midieron dos fases distintas de adaptación tardígrada, la fase de deshidratación (10 puntos de tiempo) y la fase de rehidratación (10 puntos de tiempo). Fellenberg [37] introdujo el análisis de correspondencia (CA) para identificar los factores principales en los datos de microarrays. De manera similar, aplicamos el CA a los perfiles de metabolitos con la varianza más alta (10% superior, 50% superior y todos) para obtener los factores principales que contienen más información (Figura 3). El primer eje separa claramente el proceso de deshidratación y rehidratación (Figura 3, verde a azul: deshidratación naranja a rojo: rehidratación), mientras que ambos primeros ejes capturan bien el patrón del curso del tiempo metabólico. El CA no solo permite visualizar los puntos de tiempo, sino también los metabolitos que son más específicos para el eje (Figura 3, los metabolitos grises superan el 10%). Los dos primeros ejes explican el 66% de la varianza total, lo que sugiere que la señal más fuerte en los datos del metabolito refleja su cambio secuencial a lo largo del tiempo.

Análisis de correspondencia. Análisis de correspondencia (CA) del 10% de los metabolitos con la mayor variación de 84 perfiles metabólicos medidos en total. Se muestran los veinte puntos de tiempo de medición durante la deshidratación (de verde a azul oscuro) y la rehidratación (de naranja a rojo). El primer componente separa claramente los dos procesos (deshidratación y rehidratación), mientras que el segundo componente separa los puntos de tiempo temprano y tardío.

Primero examinamos los datos de metabolitos probando diferencias en las medias de las medidas de deshidratación y rehidratación usando una prueba de Wilcoxon. A pesar de las diferencias significativas para unos pocos metabolitos, una mirada más cercana a los datos de los metabolitos mostró tendencias crecientes y decrecientes en el transcurso del tiempo.Esto puede explicarse por la lenta transición de la etapa activa a la inactiva con un cese del metabolismo en el punto de tiempo 10 (20 h), donde el 100% de los tardígrados se encuentran en la etapa tun. Por lo tanto, el diseño experimental requirió una prueba de tendencia para analizar los datos del curso temporal de los metabolitos para los metabolitos que más cambian. Posteriormente se utilizaron dos métodos, la prueba de Jonckheere-Terpstra (prueba JT [38, 39]) y la prueba Umbrella [40]. Ambas pruebas consideran valores relativos entre puntos de tiempo y un aumento o disminución en sus rangos.

Las diferencias entre las pruebas (Wilcoxon, prueba JT y prueba Umbrella) se muestran para series de tiempo simuladas en la Figura 4 con los valores p correspondientes. La prueba JT identifica una tendencia monótona creciente o decreciente en los datos. Por lo tanto, los valores p resultantes para la prueba JT solo son significativos para una tendencia ascendente monótona (Figura 4 B y F). Todos los demás casos no arrojan resultados significativos. En contraste con esto, la prueba Umbrella se usa para probar tendencias con un vértice hacia arriba o hacia abajo (Figura 4 C, D, G y H). Desde un punto de vista biológico, es más razonable considerar las tendencias con un pico, en lugar de las tendencias monótonas. Ya que se espera que el metabolismo cambie durante la fase de deshidratación (puntos de tiempo 1-10) y rehidratación (puntos de tiempo 11-20) y debería ser mínimo en el estado inactivo (puntos de tiempo 10-11). Se esperaría una forma de paraguas, p. para los metabolitos de almacenamiento o los metabolitos necesarios para la protección de las estructuras celulares, mientras que para los metabolitos implicados en la producción de energía y el crecimiento celular es probable una forma de paraguas inversa. Por lo tanto, aplicamos la prueba de Umbrella a los perfiles de metabolitos y calculamos la importancia de las tendencias máximas para todos los metabolitos. El punto de inflexión de la tendencia se estableció en el punto 10, donde todos los tardígrados completaron el proceso de deshidratación.

Simulaciones para prueba de Umbrella y JT. Se generaron series de tiempo sin tendencia, una tendencia al alza o un punto máximo / mínimo en el punto 11. ANUNCIO mostrar estas series de tiempo sin ruido y E-H para datos alterados. En estas series de tiempo se realizaron las pruebas de Wilcoxon, JT y Umbrella y se calcularon los valores p que se muestran en las leyendas de las figuras. Solo la prueba Umbrella es capaz de identificar tendencias máximas en los datos, como se espera del diseño experimental de los datos de metabolitos.

Puntuación de nodo a partir de datos de metabolitos

Los valores p de la prueba de Umbrella se utilizaron posteriormente para puntuar los nodos de la red de metabolitos. Para convertir los valores p en puntajes para la red y calcular los módulos funcionales, el enfoque de Dittrich et al. Se utilizó [21] (ver Métodos). Se ajustó un modelo de mezcla uniforme beta (BUM) a la distribución del valor p, donde la distribución beta modela la señal, mientras que el ruido está, por definición, distribuido uniformemente. Finalmente, las puntuaciones de los nodos se calcularon basándose en una relación logarítmica de señal a ruido. El modelo de mezcla uniforme beta ajustado se representa en la Figura 5 con el correspondiente diagrama de cuantiles-cuantiles, validando gráficamente el ajuste del modelo BUM, a pesar de algunos efectos de agrupamiento en los datos. los Π-El valor superior de 0,4448 mide la cantidad de ruido en los datos, y viceversa, lo que indica que el 55,52% de los metabolitos cambian significativamente en sus perfiles. Las puntuaciones de los nodos calculadas oscilan entre -0,871 y 4,122, por lo que los valores p significativos conducen a una puntuación positiva, mientras que los valores p no significativos dan lugar a una puntuación negativa del nodo. A los metabolitos no medidos se les asignó el promedio de las puntuaciones negativas (-0,473) que corresponde a una puntuación derivada del ruido en los datos. De manera similar, otros métodos manejan metabolitos no medidos mediante el cálculo de valores p aleatorios y el cálculo de puntuaciones a partir de estos [27, 34].

Modelo de mezcla beta-uniforme. El modelo de mezcla uniforme beta ajustado a la distribución del valor p de la prueba Umbrella en los datos de metabolitos se muestra en el lado izquierdo (A). La bondad del ajuste se muestra en el gráfico de cuantiles-cuantiles (B) de los valores p ajustados frente a los valores p observados. Π denota el Π-valor superior que estima la cantidad de ruido en los datos.

Puntuación de borde a partir de datos EST

Las tecnologías ecológicamente racionales se subdividieron en dos conjuntos de datos, datos EST con asignaciones numéricas de CE de estudios anteriores y tecnologías ecológicamente racionales diferenciales (dEST) para la etapa activa e inactiva (ver Métodos). El número CE permitió la identificación de las correspondientes enzimas específicas de los tardígrados y, por tanto, las reacciones. Los dEST se asignaron, como se describe a continuación, a los identificadores de KEGG ko utilizando KAAS [41] y, por lo tanto, a las reacciones. Las distribuciones de las reacciones cartografiadas a las tecnologías ecológicamente racionales se muestran en la Figura 6. Las dos fuentes de tecnologías ecológicamente racionales normales y diferenciales cubiertas por la cartografía del identificador ko y el número de CE son un total de 1.063 reacciones, 301 en común y 128 únicamente por dEST y 634 por tecnologías ecológicamente racionales. La presencia de tecnologías ecológicamente racionales mapeadas en un número de CE se utilizó para dar un peso mínimo de 0,01 a los bordes correspondientes (reacciones). Se dio un peso de -0,01 a los bordes sin mapeo enzimático identificado. Esto favoreció el uso de aristas para las que se sabe que existe una enzima, sobre reacciones que podrían no existir en tardígrados, durante la búsqueda del módulo.

EST mapeados a reacciones. El diagrama de Venn muestra la distribución de reacciones mapeadas a las tecnologías ecológicamente racionales. Las dos fuentes de tecnologías ecológicamente racionales normales y diferenciales cubren mediante el mapeo del identificador ko (ortología KEGG) y el número de CE un total de 1063 reacciones, 301 en común y 128 únicamente por dEST y 634 por tecnologías ecológicamente racionales, respectivamente.

Los dEST se agruparon en 4.422 grupos usando CD-HIT-EST (ver Métodos). De cada grupo, se utilizó un representante para mapear los identificadores de KEGG ko con el servidor de anotación automática de KEGG (KAAS) [41]. Se pueden anotar 898 grupos. El registro2 proporción de activo norte a a inactivo norte ILos recuentos de dEST se utilizaron para la puntuación de los bordes:

con umbral t≥0 para ajustar la sensibilidad / especificidad de S mide manera similar al FDR utilizado para la puntuación del nodo (ver Métodos, Ecuación 2).

Cálculo del módulo metabólico.

Se calculó un módulo funcional con un algoritmo exacto denominado heinz [21, 35] utilizando las puntuaciones de nodo y borde para encontrar una subred de puntuación máxima (ver Métodos). El módulo se calculó en un enfoque de dos pasos.

Primero, un paso de enriquecimiento redujo la red metabólica a una subred específica de tardígrado de 868 nodos y 1127 bordes. Dado que la red completa se creó a partir de las rutas de referencia de KEGG, contiene todas las posibles reacciones metabólicas y metabolitos, algunos de los cuales podrían no ocurrir en los tardígrados. Por lo tanto, se extrajo una subred basada únicamente en la presencia de enzimas y metabolitos medidos en tardígrados. Se utilizaron enzimas identificadas a partir de los datos de EST para puntuar los bordes y se utilizó una puntuación de nodo positivo (+1) para los metabolitos medidos. Usando estas puntuaciones, el algoritmo de Heinz identificó la subred de máxima puntuación, que agrega metabolitos y reacciones que probablemente estén presentes, sobre las puntuaciones positivas.

El segundo paso utilizó la subred enriquecida para puntuar el cambios en metabolitos y diferencialmente abundante EST. Se calculó un módulo metabólico funcional basado en la puntuación del nodo de los perfiles metabólicos con un FDR de 0,2 (ver Ecuación 2) y la puntuación de la relación logarítmica para los bordes de los dEST con t= 1 (ver Ecuación 1). La puntuación de borde resultante se encuentra entre -1 y 1, lo que le da a estos bordes un peso 100 veces mayor que con solo la información de la enzima (-0.01, 0.01). Al integrar las diferentes fuentes de información, se obtuvo un módulo que representa los cambios de tendencia significativos en los metabolitos entre el proceso de deshidratación y rehidratación, así como los cambios en la abundancia de EST, conectados por reacciones para las cuales se identificaron enzimas en los tardígrados.

Módulo metabólico inducido por estrés físico para M. tardigradum

Durante la deshidratación, el metabolismo de los tardígrados se reduce lentamente, hasta un cese completo del metabolismo medible en la etapa tun. El tiempo de recuperación durante la rehidratación es probablemente una función de las actividades metabólicas relacionadas con la reparación del daño causado por la deshidratación y con la restauración de las vías metabólicas. El módulo resultante (Figura 7) revela estos procesos mediante la acumulación de vías metabólicas involucradas en la glucólisis / gluconeogénesis y el metabolismo de los carbohidratos, la vía de las pentosas fosfato, el metabolismo / catabolismo de ciertos aminoácidos a partir del piruvato, incluyendo, por ejemplo, metionina, lisina, fenilalanina, valina, arginina. , tirosina, treonina. Además, se observan cambios de tendencia en la acumulación de glicerol, que se sabe que protege contra los efectos dañinos de la deshidratación al estabilizar la membrana, así como vías para las respuestas celulares al estrés osmótico. Los cambios significativos en estas vías muestran principalmente una tendencia en forma de paraguas en los perfiles metabólicos, que se asemeja a una reacción catabólica o degradación de los metabolitos seguida de una restauración y producción de aminoácidos y componentes celulares a partir de azúcares de un carbono como fuente de carbono y energía. Estos procesos también se identifican de manera consistente mediante el análisis de enriquecimiento de GO, realizado en los genes representados como enzimas en el módulo funcional (Tabla 1).

Modelo funcional de puntajes de nodo y puntajes de borde. Se muestra el módulo funcional basado en puntajes de nodo y borde de los dEST, calculados en una subred basada en puntajes de borde de los EST (A). Los círculos representan nodos con puntuaciones positivas, cuadrados con puntuación negativa. La coloración de los nodos muestra la estadística Z de la prueba de Umbrella (positivo: rojo, negativo: verde). Los puntajes positivos indican una forma de paraguas y los puntajes negativos una forma de paraguas inversa de los cursos de tiempo. Para los bordes, los colores indican la abundancia diferencial de la enzima (rojo), la presencia (naranja) o la ausencia (verde) de la enzima responsable de la reacción metabólica. Los metabolitos representativos con una tendencia significativa se muestran en el panel derecho (B). Los puntos de tiempo se representan igualmente espaciados para una mejor visualización.

La tendencia metabólica inversa con forma de pico es menos común y se esperaría para los metabolitos de almacenamiento o bioprotectores. El módulo incluye 6 metabolitos con cambios significativos en esta dirección: sn-glicerol 3-fosfato, putrescina, espermidina, aspartato, citrato y D-glicerato. El 3-fosfato de sn-glicerol podría aumentar potencialmente durante la deshidratación para producir triglicéridos como un almacenamiento de energía altamente eficiente o incluso más probablemente glicerol como estabilizador de membrana. La putrescina es una diamina creada por descarboxilación de ornitina. La adición de dos residuos de propilamina produce espermidina, un factor de crecimiento esencial. Otras funciones biológicas probables de la espermidina son la estabilización del ADN mediante la asociación de los grupos amino con los residuos de fosfato del ADN, el aumento de la síntesis de ARN y la mejora de la estabilidad de los ARNt y los ribosomas [42].

Especialmente la información sobre enzimas diferencialmente abundantes es valiosa, por lo que cambios en las reacciones entre metabolitos, p. ej. el vínculo entre la vía de la pentosa fosfato y la glucólisis mediante la reacción de transaldolasa: sedoheptulosa 7-fosfato + gliceraldehído 3-fosfato eritrosa 4-fosfato + fructosa 6-fosfato. Utilizando únicamente los datos de metabolitos (puntuaciones de los nodos) durante la identificación del módulo, estas reacciones no se tendrían en cuenta (datos no mostrados). Sin embargo, parecen ser muy importantes para el metabolismo de los tardígrados, ya que muestran fuertes diferencias en los recuentos de EST entre el estado activo y el inactivo. En la actualidad, solo se dispone de pocos datos sobre la abundancia de enzimas de dEST. El análisis integrado sin duda se beneficiará de la creación de datos adicionales específicos de la etapa para identificar otras reacciones y vías importantes.


Conclusión

En este estudio, informamos el genoma de la cepa original de H. erinaceus utilizando una sola molécula, tecnología de secuenciación en tiempo real y análisis multi-ómico se llevó a cabo entre las cepas mutantes obtenidas por mutagénesis ARTP y la cepa original. El análisis multiómico indicó que el aumento del metabolismo de los carbohidratos y la producción de glucosa-6P constituían la base del alto rendimiento de polisacáridos en la cepa mutada ARTP. Además, la actividad disminuida de la vía RAS-cAMP-PKA podría promover una alta producción de polisacáridos y β-glucanos a través del bloqueo de la progresión de la fase S. El estudio reveló el mecanismo del aumento de la síntesis de polisacáridos inducida por la mutagénesis de ARTP asociada con el metabolismo de los carbohidratos y la disfunción de la regulación de la señalización de la glucosa y proporcionó la base teórica y práctica crítica para la producción de polisacáridos en H. erinaceus.


Diferencia entre KEGG Pathway y Module (del mapeo KO) - Biología

HUMAnN 1.0: La red de análisis metabólico unificado de HMP

HUMAnN 1.0 es una tubería para determinar de manera eficiente y precisa la presencia / ausencia y abundancia de vías microbianas en una comunidad a partir de datos metagenómicos. La secuenciación de un metagenoma normalmente produce millones de lecturas cortas de ADN / ARN. HUMAnN 1.0 toma estas lecturas como entradas y produce resúmenes de genes y vías como salidas:

La abundancia de cada familia de genes ortólogos en la comunidad. Las familias ortólogas son grupos de genes que desempeñan aproximadamente las mismas funciones biológicas. HUMAnN 1.0 usa la Ortología KEGG (KO) por defecto, pero se puede emplear cualquier catálogo de ortólogos con cambios menores (COG, NOG, etc.). Para obtener más información, consulte la sección "Uso de alternativas a KEGG" a continuación.

La presencia / ausencia de cada vía en la comunidad. HUMAnN 1.0 se refiere a la presencia / ausencia de una vía como "cobertura" y define una vía como un conjunto de dos o más genes. HUMAnN 1.0 usa vías y módulos KEGG de forma predeterminada, pero nuevamente se puede modificar fácilmente para usar términos GO u otros conjuntos de genes.

La abundancia de cada vía en la comunidad, es decir, cuántas "copias" de esa vía están presentes.

Por tanto, HUMAnN 1.0 se puede utilizar junto con cualquier programa BLAST traducido para convertir las lecturas de secuencia en tablas de cobertura y abundancia que resumen las familias de genes y las vías en una comunidad microbiana. Esto le permite analizar una colección de metagenomas como una matriz de abundancias de genes / vías, al igual que podría analizar una colección de microarrays.

Si utiliza este software, cite nuestro artículo: Reconstrucción metabólica para datos metagenómicos y su aplicación al microbioma humano Sahar Abubucker, Nicola Segata, Johannes Goll, Alyxandria M. Schubert, Jacques Izard, Brandi L. Cantarel, Beltran Rodriguez-Mueller, Jeremy Zucker, Mathangi Thiagarajan, Bernard Henrissat, Owen White, Scott T.Kelley, Barbara Meth , Patrick D. Schloss, Dirk Gevers, Makedonka Mitreva, Curtis Huttenhower

Muchas gracias a los NIH y a todo el equipo del Proyecto del Microbioma Humano por hacer posible el HMP y por los numerosos colaboradores que ayudaron a hacer de HUMAnN 1.0 una realidad. Sahar Abubucker y Makedonka Mitreva (Universidad de Washington) codirigieron el grupo de Reconstrucción Metabólica, la tubería incorpora software de Yuzhen Ye (Universidad de Indiana), Beltran Rodriguez-Mueller (SDSU) y Pat Schloss (Universidad de Michigan), y los contribuyentes específicos incluyen Alyx Schubert (Universidad de Michigan), Jeremy Zucker (Broad Institute), Brandi Cantarel (UMD), Qiandong Zeng (Broad Institute), Johannes Goll (JCVI) y muchos otros.

HUMAnN 1.0 usa el sistema de compilación scons para impulsar su flujo de trabajo científico (ver PRERREQUISITOS). scons funciona de manera muy similar a make, convirtiendo un conjunto de entradas en un conjunto de salidas paso a paso y ejecutando solo los pasos necesarios para producir la salida deseada. Así, para analizar sus propios datos:

Coloque uno o más resultados BLAST traducidos utilizando identificadores de genes KEGG en el directorio "input" (opcionalmente con gzip o bzip).

Edite el archivo "SConstruct" en particular, asegúrese de que los procesadores de entrada incluyan uno configurado para sus nombres y formatos de archivo BLAST.

Ejecute el comando "scons", opcionalmente paralelizando múltiples análisis usando el indicador "-j". Los resultados se colocarán en el directorio "salida".

HUMAnN 1.0 es altamente configurable para realizar una colección de tareas muy intensivas en computación de manera eficiente y flexible. Consulte los archivos de entrada de muestra, los archivos de metadatos y la configuración de SConstruct incluidos para obtener una descripción general de la configuración del software y los formatos de archivo que consume y produce.

HUMAnN 1.0 no tiene instalación per se, pero depende de los siguientes elementos:

Una conexión de red. HUMAnN 1.0 descarga una serie de datos y componentes de software de los repositorios estándar durante la ejecución. Asegúrese de que haya una conexión de red disponible al menos durante la primera ejecución. HUMAnN 1.0 usará "curl" por defecto para descargar archivos, y esto se puede cambiar (por ejemplo, para usar "wget") editando el archivo humann.py.

Mucha RAM. Procesar un carril de Illumina de lecturas metagenómicas puede llevar tanto como

8-10GB de memoria, aunque a menudo se necesitará mucho menos dependiendo de los datos. Considérese advertido.

Python & gt = 2.7. En el momento de escribir este artículo, usamos exactamente una característica exclusiva de Python 2.7, math.gamma. Si está dispuesto a editarlo, la dependencia es Python 2.6 para varios módulos y sintaxis.

Tenga en cuenta que HUMAnN 1.0 no ejecuta blastx por usted. En su lugar, consume resultados tabulares de BLAST como entrada. Recomendamos la configuración predeterminada "-outfmt 6" como se describe a continuación y en la configuración de SConstruct proporcionada. Alternativamente, también se proporcionan procesadores de entrada para implementaciones BLAST aceleradas como mapx, mblastx o usearch.

BioCyc (opcional, descargado automáticamente)

maq (opcional, descargado automáticamente)

R (opcional, para evaluación sintética del desempeño)

Paquete R ROCR (opcional, para evaluación sintética del desempeño)

Uno o más de los siguientes:

Archivos de salida BLAST (blastx) traducidos tabulares que coinciden con ID de lectura de secuencia con ID de gen.

Salida de mapeo (pajarita, bwa, etc.) en formato BAM.

Texto delimitado por tabuladores que contiene una o más abundancias de genes cuantificados previamente.

Coloque (o enlace simbólico) cada archivo con una extensión .txt, .txt.gz, .txt.bz, .bam, .csv, .tsv o .pcl según corresponda en el directorio de "entrada" antes de ejecutar HUMAnN 1.0. La canalización incluye procesadores para tres formatos de texto delimitados por tabulaciones de forma predeterminada (a continuación) y formato binario BAM y se puede modificar fácilmente para aceptar más.

Como ejemplo, las entradas predeterminadas proporcionadas con HUMAnN 1.0 se generaron utilizando:

Donde "28_kegg_genomes" es una base de datos de las secuencias de aminoácidos de 28 ORF de organismos KEGG bien caracterizados (archivos .pep de ban, bbr, bqu, bsu, cbo, cdf, cje, eco, efa, ftu, hin, hpy, hsl, lmo, mbo, mtu, ngo, nme, pae, rso, sau, sco, sgo, spn, vch, xfa, yen y yps).

Modifique el archivo SConstruct según sea necesario para especificar el formato exacto de sus datos de entrada:

Además, se pueden utilizar archivos delimitados por tabulaciones (.csv, .tsv o .pcl) de abundancias de genes tabulados (identificadores KEGG KO de forma predeterminada), donde cada columna representa una muestra y cada fila una familia de genes. Cualquiera de estos archivos colocados en el directorio de entrada se dividirá por columna y cada muestra se ejecutará a través de la canalización de HUMAnN 1.0 por separado.

Tres o más archivos por entrada, incluidos:

Las abundancias relativas de cada gen en el metagenoma de entrada. Por defecto etiquetado como tipo "01". Dos columnas de texto delimitado por tabulaciones: abundancia geneid.

Las coberturas de cada vía, expresadas como una fracción entre 0 y 1 inclusive. Por defecto etiquetado como tipo "04a". Dos columnas de texto delimitado por tabulaciones: cobertura de pathid.

Las abundancias relativas de cada vía. Por defecto etiquetado como tipo "04b". Dos columnas de texto delimitado por tabulaciones: abundancia de pathid.

Opcionalmente, una tabla de abundancias de genes individuales apropiada para cargar en METAREP. Por defecto etiquetado como tipo "99". Cinco columnas de texto delimitado por tabuladores: puntaje electrónico de abundancia genética% idénticos idénticos. La abundancia es relativa y se calcula como en las abundancias de la familia de genes de HUMAnN, el puntaje electrónico, el porcentaje de identidad y la longitud de identidad se promedian sobre todas las lecturas que se asignan a cada gen en los resultados de BLAST traducidos de entrada.

También se generan tres o más archivos combinados, todo texto delimitado por tabulaciones:

Una tabla que contiene las abundancias relativas de todos los genes en cualquier metagenoma de entrada. Por defecto llamado "01 - *. Txt".

Una tabla que contiene las coberturas de todas las rutas en cualquier archivo de entrada. Por defecto llamado "04a - *. Txt".

Una tabla que contiene las abundancias relativas de todas las rutas en cualquier archivo de entrada. Por defecto llamado "04b - *. Txt".

Una tabla que contiene las abundancias relativas de todos los genes individuales en cualquier archivo de entrada. Por defecto llamado "99 - *. Txt".

Consulte a continuación para obtener una descripción detallada de las formas en que estos archivos se producen y nombran.

Puede reproducir la evaluación de desempeño completa utilizando comunidades sintéticas en el manuscrito HUMAnN 1.0 con las herramientas del subdirectorio "sintetizador". Este paso opcional se omite durante la operación predeterminada de HUMAnN 1.0, pero se incorporará automáticamente en la salida de HUMAnN 1.0 si se crean una o más comunidades sintéticas. Para hacer esto:

Coloque un par de archivos .fa / .qual o un archivo .fastq en el directorio "sintetizador / salida" y edite el archivo "sintetizador / SConstruct" en consecuencia. Puede ser cualquier dato de secuencia representativo a partir del cual se construirá un modelo de error con el que sintetizar lecturas artificiales.

Descongele los datos sintéticos cambiando c_fFrozen a False en SConstruct. Ejecute "scons" y espere bastante. Los genomas de alta calidad se descargarán de KEGG, se triturarán en lecturas artificiales utilizando maq y se mezclarán en una comunidad sintética.

Por defecto, se construyen cuatro comunidades: dos con abundancias de organismos escalonadas (stg, usando una distribución logarítmica normal) y dos con abundancias pares (par), y dos con 20 organismos (baja complejidad, lc) y dos con 100 (alta complejidad, hc ).

Las abundancias / coberturas de genes y vías verdaderas se colocarán en archivos con el nombre correspondiente en el directorio "sintetizador / salida". Estos se detectarán automáticamente la próxima vez que se ejecute HUMAnN 1.0 utilizando scons. Se fusionarán en los archivos de salida generales, y si los archivos de entrada con el nombre correspondiente ("mock_stg_lc *", "mock_even_hc *", etc.) están disponibles, su rendimiento se trazará automáticamente como archivos de salida PDF utilizando R.

HUMAnN 1.0 también puede agregar un nivel de especificidad de organismo a la salida. Para hacer esto:

Active la función cambiando c_fOrg a True en SConstruct.

Ejecute "scons" como lo haría en sus muestras sin la especificidad del organismo

El flujo de trabajo scons de HUMAnN se ejecuta asumiendo que cada archivo de entrada se convertirá en uno o más archivos de salida mediante la combinación de una serie de módulos de procesamiento canalizables. También está configurado para permitir una fácil configuración y comparación de los ajustes de salida, así que considérelo como un árbol: cualquier procesador de salida que pueden procesar un archivo de entrada voluntad. Esto permite, por ejemplo, la comparación rápida y fácil de los resultados de la reconstrucción metabólica utilizando muchos ajustes de parámetros ligeramente diferentes para determinar cuál es el óptimo.

Tenga en cuenta que, si bien HUMAnN 1.0 utiliza principalmente identificadores de KO de ortología KEGG para genes e identificadores de vía (ko) o módulo (M) de KEGG para vías, esto se puede modificar fácilmente para adaptarse a sus necesidades de análisis. Por ejemplo, el código para procesar identificadores de reacciones MetaCyc (para familias de genes) e identificadores de vías también se incluye de forma predeterminada. Cualquier identificador rastreable (CE, NOG, etc.) puede usarse para genes y para las vías en las que están contenidos.

El archivo SConstruct incluye un conjunto configurable de módulos de procesamiento que se utilizan para convertir cada archivo de entrada en una o más salidas. Los módulos de procesamiento se definen utilizando la clase CProcessor con siete argumentos:

Un sufijo de archivo (para archivos de entrada) o tipo (para archivos de salida). Puede tener el formato ".txt.gz" para archivos de entrada o "##" para archivos de salida. Este patrón debe coincidir con el nombre del archivo consumado por el procesador.

Un tipo de archivo. Tiene el formato "##" por defecto y puede ser cualquier etiqueta corta (numérica o de texto) utilizada para identificar un tipo de archivo generado. Los tipos de archivo se utilizan para encadenar módulos de procesamiento juntos, los archivos de tipo ## solo y siempre serán procesados ​​posteriormente por módulos que pueden ingresar el tipo ##.

Un identificador. Tiene el formato "xyz" de forma predeterminada y puede ser cualquier etiqueta corta (numérica o de texto) utilizada como un identificador legible por humanos para el módulo de procesamiento y sus opciones de configuración específicas. Se adjunta al archivo de salida resultante y proporciona una forma mínima de procedencia de los datos.

Un programa. Por lo general, se trata de una secuencia de comandos de Python que consume un archivo de entrada en stdin, produce una salida en stdout y, opcionalmente, puede incluir argumentos de línea de comando adicionales (ver más abajo).

Cero o más archivos de soporte como argumentos de línea de comando. Esta matriz de nombres de archivo se pasa al programa de procesamiento como argumentos de línea de comando (y los scons lo entenderán como dependencias, reconstruyendo así la salida cuando cambien).

Cero o más argumentos de línea de comando adicionales. Esta matriz de cadenas arbitrarias se pasa al programa de procesamiento como argumentos de línea de comando (y los scons lo ignorarán). Esto se puede utilizar para producir varios archivos de salida a partir de los mismos scripts de procesamiento utilizando argumentos de línea de comandos.

Una bandera booleana, Verdadero si el procesador debe usarse para los archivos de entrada iniciales y Falso (u omitido) en caso contrario. En el último caso, el procesador solo se utilizará en archivos intermedios que coincidan con su tipo de entrada.

Una bandera booleana, Verdadero si la salida debe ser comprimida con gzip y Falso (u omitido) en caso contrario. Los procesadores posteriores descomprimirán automáticamente los archivos de entrada comprimidos.

De forma predeterminada, se generan los siguientes tipos de archivos de salida:

Generado a partir de resultados BLAST sin procesar.

Una representación binaria condensada de los resultados BLAST traducidos, abstraídos e independientes del formato específico (blastx / mblastx / mapx) en el que se proporcionan.

Abundancias de genes relativas calculadas a partir de los resultados de BLAST en los que cada lectura se ha asignado a cero o más identificadores de genes en función de la calidad de coincidencia. El peso total de cada lectura es 1.0, distribuido entre todas las coincidencias de genes (KO) por calidad.

Abundancias relativas de genes distribuidas en todas las vías en las que se prevé que ocurra el gen.

Abundancias de genes relativas con asignaciones de vías, taxonómicamente limitadas para eliminar vías que solo podrían ocurrir en organismos de baja abundancia / ausentes.

Abundancias relativas de genes con asignaciones de vías, suavizadas de modo que cero significa cero y valores distintos de cero se imputan para tener en cuenta las secuencias no observadas.

Abundancias relativas de genes con asignaciones de vías, rellenas de huecos de modo que las combinaciones de genes / vías con una frecuencia sorprendentemente baja se imputan para contener un valor más plausible.

Medida de cobertura de la vía (presencia / ausencia), es decir, confianza relativa de que cada vía está presente en la muestra. Los valores están entre 0 y 1 inclusive.

Medida de la abundancia de la vía, es decir, "número de copias" relativo de cada vía en la muestra. En la misma escala de abundancia relativa (0 en adelante) que las abundancias de genes originales _01 - *. Txt.

Tablas de abundancia de genes por muestra formateadas para cargar en METAREP. En la misma escala de abundancia relativa (0 en adelante) que las abundancias de genes originales _01 - *. Txt.

Matriz de cobertura de ruta combinada para todas las muestras.

Matriz de abundancia de ruta combinada para todas las muestras, normalizada por columna.

Información de ruta formateada para ingresar a LefSe (exportada)

Información de ruta formateada como un árbol que refleja la jerarquía de KEGG BRITE para trazar en GraPhlAn.

Abundancias de ruta formateadas para sobretrazar en la jerarquía de KEGG BRITE usando GraPhlAn.

Matriz de abundancia de KO combinada para todas las muestras, normalizada por columna.

Abundancia genética calculada como la suma ponderada de confianza (valor e / valor p) de todos los aciertos para cada lectura.

La asignación de genes a vías se realiza mediante MinPath.

La asignación de gen a vía se realizó ingenuamente utilizando todas las vías.

Las abundancias de la ruta se ajustaron en función de A) la limitación taxonómica y B) el número de copias esperado de cada gen en los organismos detectados.

Suavizado realizado mediante el descuento de Witten-Bell, que cambia la masa de probabilidad sum_observed / (sum_observed + num_observed) a cero recuentos y reduce los demás en la misma fracción.

Suavizado realizado ingenuamente agregando un valor constante (0.1) a las combinaciones de genes / vías faltantes.

Sin relleno de huecos (sin operación, abundancias dejadas como están).

Relleno de huecos sustituyendo cualquier valor por debajo de la mediana de cada vía con el valor de la mediana en sí.

Cobertura de la vía calculada como la fracción de genes en la vía en o por encima de la abundancia media global.

La cobertura de la ruta se calcula como la fracción de genes en la ruta en o por encima de la abundancia media global, con las rutas de baja abundancia establecidas en cero con Xipe.

Abundancia de la vía calculada como la abundancia media de la mitad más abundante de los genes de la vía.

Desde el desarrollo de HUMAnN, KEGG se ha vuelto comercial. Este es un gran golpe para la comunidad académica en general y un inconveniente lamentable para HUMAnN en particular. Para lograr un compromiso entre la interrupción mínima del funcionamiento de HUMAnN y el respeto de la propiedad intelectual de KEGG, se han seguido las siguientes pautas:

Los archivos derivados de KEGG necesarios para el funcionamiento normal de HUMAnN se incluyen en el directorio de datos. Estos incluyen la estructura básica de las vías y los módulos de KEGG, las longitudes de los genes y las asignaciones de ID / nombre.

Los archivos más detallados de KEGG necesarios para la construcción y evaluación del metagenoma sintético son no incluido, lo que hace que el subproyecto de sintetizador no funcione sin acceso a las entradas de KEGG. Pedimos disculpas por este inconveniente e instamos a los usuarios afectados a que se pongan en contacto directamente con KEGG para informarles del problema. Háganos saber si está interesado en información sobre soluciones alternativas adicionales para permitir la evaluación del metagenoma sintético.

Usando alternativas a KEGG

El proceso de utilizar HUMAnN con una base de datos que no sea KEGG (por ejemplo, COG, NOG, etc.) requiere:

Un archivo FASTA de secuencias de nucleótidos contra el cual se busca el meta'oma, cada una etiquetada con un ID de gen (para KEGG, el archivo genes.pep distribuido con KEGG).

Un archivo de longitudes de secuencia de nucleótidos, cada una etiquetada con un ID de gen (para KEGG, datos / genes).

Un archivo de asignaciones de genes a OG (para KEGG, data / koc).

Un archivo de asignaciones de OG a ruta (para KEGG, data / keggc).

Cada uno de esos cuatro archivos debe reemplazarse para que HUMAnN se ejecute en la base de datos alternativa.

Algunos usuarios han informado bloqueos durante el proceso de instalación de maq del metagenoma sintético que están fuera del control de HUMAnN. Si maq se bloquea durante la compilación o instalación, no dude en instalarlo directamente desde el paquete de Sourceforge apropiado en maq-0.7.1 / maq (como esperaba HUMAnN 1.0) y reemplace la función funcUntarMAQ en synth / SConstruct con

Tenga en cuenta que los metagenomas sintéticos son un componente opcional que no es necesario para el funcionamiento normal de HUMAnN 1.0.

Minpath viene con una versión de glpk que solo se ejecutará en Linux. HUMAnN 1.0 no puede reemplazarlo fácilmente "sobre la marcha". Para solucionar el problema y ejecutar HUMAnN 1.0 en MacOS X, después de que se produzca este error, elimine la carpeta glpk de MinPath y reemplácela con una versión compilada para Mac desde aquí:


Conclusiones

Las asociaciones encontradas entre las actividades del módulo metabólico y la supervivencia del paciente confirman que los módulos metabólicos pueden modelarse de manera realista dentro del marco propuesto 21 implementado en el software Metabolizer. Además, las actividades del módulo metabólico obtenidas con el método de modelado propuesto superan a otros métodos utilizados para inferir la actividad metabólica, como GSEA, 8 SPIA 37 o CBM 38 (como se implementa en la herramienta IMAT 39). Y, además, hemos validado la mayoría de las predicciones realizadas por el método en un conjunto de datos independiente. Estos resultados muestran que los módulos metabólicos pueden considerarse un tipo relevante de módulo funcional en el cáncer y probablemente también en otras enfermedades relacionadas con el metabolismo. El programa Metabolizer permite a los investigadores estimar fácilmente las actividades metabólicas de los módulos a partir de medidas de expresión génica y utilizarlas para diferentes propósitos. Por tanto, la comparación entre dos condiciones puede arrojar luz sobre los mecanismos moleculares subyacentes que las hacen diferentes. De esta manera, los mecanismos de la enfermedad o los mecanismos de acción de los fármacos se pueden interpretar fácilmente dentro del contexto del metabolismo. Estas comparaciones también se pueden utilizar para derivar predictores multigénicos con un significado mecanicista, que han demostrado ser útiles para predecir rasgos complejos. 4

Las estrategias de diagnóstico están cambiando rápidamente en el cáncer y otras enfermedades debido a la disponibilidad de análisis genómicos cada vez más asequibles. 63 Las terapias que se dirigen específicamente a las alteraciones genéticas están probando ser más seguras y más efectivas que las quimioterapias tradicionales cuando se utilizan en la población de pacientes adecuada. 64 Quizás, uno de los aspectos más relevantes del modelado es que los modelos permiten predecir el efecto de los perfiles de expresión génica simulados sobre la actividad de los módulos metabólicos, abriendo la puerta para anticipar el efecto de la intervención sobre los genes. En este sentido, Metabolizer constituye una herramienta extremadamente útil para encontrar supuestos objetivos accionables para una condición específica. 65 Esto es muy relevante en el contexto de la medicina personalizada y puede ayudar a encontrar intervenciones terapéuticas individualizadas para los pacientes. 66 De hecho, informes recientes indican que los genes implicados en las vías metabólicas muestran una notable heterogeneidad entre los diferentes pacientes con cáncer. 67 Esto sugiere que las terapias personalizadas probablemente podrían tener éxito siempre que el contexto de las intervenciones se pueda explorar y comprender adecuadamente con una herramienta como Metabolizer. Por ejemplo, la letalidad sintética, definida como mutaciones genéticas o alteraciones de la expresión génica con un efecto individual pequeño o nulo sobre la viabilidad celular, pero que da como resultado la muerte celular cuando se combina, ofrece una gama prometedora de posibles intervenciones terapéuticas 68 que solo pueden explotarse adecuadamente en un marco. como el proporcionado por Metabolizer.

Por tanto, Metabolizer puede considerarse una herramienta innovadora que permite el uso de medidas estándar de expresión génica en el contexto de la complejidad de la red metabólica, con una aplicación directa tanto en la clínica como en la investigación en modelos animales.


NUEVOS DESARROLLOS EN KEGG

Visión general

KEGG es una base de datos integrada que consta de dieciocho bases de datos originales en cuatro categorías, como se muestra en la Figura 1. Las bases de datos en la categoría de información de salud junto con dos bases de datos externas de etiquetas de medicamentos se denominan colectivamente KEGG MEDICUS. Todas las bases de datos originales se curan manualmente, excepto la base de datos SSDB generada computacionalmente. El contenido cubre una amplia gama de objetos biológicos, incluidos genes y proteínas (información genómica), sustancias y reacciones químicas (información química), redes de interacción / reacción / relación molecular (información de sistemas) y enfermedades y medicamentos humanos (información de salud). Cada objeto biológico, cuando se representa en KEGG, recibe un identificador único principalmente en forma de un prefijo seguido de un número de cinco dígitos, como hsa05010 para el mapa de vías de la enfermedad de Alzheimer en la base de datos PATHWAY y K04505 para el ortólogo funcional de presenilina 1 en la base de datos de KO. Para las bases de datos GENES, SSDB, ENZYME y VARIANT, el identificador toma la forma de entrada db:, como hsa: 5663 para presenilina 1 humana (PSEN1) en la base de datos GENES y hsa_var: 5663v1 para la mutación PSEN1 en la base de datos VARIANT.

KEGG consta de dieciocho bases de datos originales en cuatro categorías. La categoría de información de salud, llamada KEGG MEDICUS, se complementa con dos bases de datos externas de etiquetas de medicamentos: etiquetas de medicamentos japonesas obtenidas de JAPIC (http://www.japic.or.jp) y etiquetas de medicamentos de la FDA vinculadas a la base de datos DailyMed (https: //dailymed.nlm.nih.gov). El identificador de cada entrada en la base de datos KEGG generalmente toma la forma de un prefijo seguido de un número de cinco dígitos y se llama, por ejemplo, número de mapa, número M y número K para las bases de datos PATHWAY, MODULE y KO, respectivamente.

KEGG consta de dieciocho bases de datos originales en cuatro categorías. La categoría de información de salud, llamada KEGG MEDICUS, se complementa con dos bases de datos externas de etiquetas de medicamentos: etiquetas de medicamentos japonesas obtenidas de JAPIC (http://www.japic.or.jp) y etiquetas de medicamentos de la FDA vinculadas a la base de datos DailyMed (https: //dailymed.nlm.nih.gov). El identificador de cada entrada en la base de datos KEGG generalmente toma la forma de un prefijo seguido de un número de cinco dígitos y se llama, por ejemplo, número de mapa, número M y número K para las bases de datos PATHWAY, MODULE y KO, respectivamente.

Un principio importante de la organización de objetos biológicos en la base de datos KEGG es la distinción de datos de referencia (clases) y datos de variación (instancias). Por ejemplo, K04505 es una clase de presenilina 1 y hsa: 5663 es una instancia en humanos. El mapa de la ruta de la enfermedad de Alzheimer se dibuja manualmente como una ruta de referencia, map05010, donde los nodos (recuadros) se vinculan a los identificadores KO (números K). El mapa de vías humanas hsa05010 es una vía específica de organismo generada computacionalmente a partir de la vía de referencia mediante la conversión de identificadores de KO en identificadores de genes humanos y coloreando los nodos (recuadros) en verde.

Camino, módulo y red

La base de datos PATHWAY es la base de datos central en KEGG, que consta de mapas de vías de KEGG dibujados manualmente, cada uno identificado por un número de cinco dígitos precedido por 'mapa' (para la vía de referencia), código de organismo de tres o cuatro letras (para un organismo -vía específica) o uno de los otros prefijos definidos. Los mapas de vías representan los diagramas de cableado molecular de los sistemas biológicos, categorizados en metabolismo, procesamiento de información genética, procesamiento de información ambiental, procesos celulares, sistemas de organismos y enfermedades humanas. La base de datos MODULE es una colección de unidades funcionales definidas manualmente en vías metabólicas, tanto en términos de conjuntos de genes enzimáticos conservados como módulos KEGG como de pasos de reacción bioquímicos conservados como módulos de reacción. Los identificadores de módulos y módulos de reacción son números M y números RM, respectivamente.

La base de datos NETWORK es una base de datos específica para humanos que consta de elementos de red, simplemente llamados redes, definidos como segmentos funcionalmente significativos de señalización y otras vías e identificados por N números. Hay tres tipos de redes: redes de referencia, redes de variantes (perturbadas) relacionadas con enfermedades y relaciones entre el fármaco y el objetivo.Las redes variantes se dividen además en tres tipos de perturbadores: variantes de genes humanos, patógenos y factores ambientales. La base de datos de RED también puede verse como una colección de mapas de variación de red (ver más abajo) identificados por nt números, que muestran conjuntos alineados de redes de referencia y variantes. Las redes de referencia están vinculadas a mapas de vías de referencia (no relacionadas con enfermedades) y las redes variantes están vinculadas a mapas de vías de enfermedades.

El nuevo visor de mapas de rutas de KEGG lanzado en julio de 2020 viene con un panel lateral para operaciones del lado del cliente e integra módulos, módulos de reacción y redes en las rutas. La Figura 2 muestra un ejemplo del mapa de la ruta humana hsa00600 para el metabolismo de esfingolípidos. El panel lateral se puede utilizar para cambiar la escala del mapa, para buscar objetos de mapa de cajas (genes y KOs) y círculos (sustancias químicas) por identificadores o alias, y para mostrar selectivamente las ubicaciones de módulos y redes en el mapa. En la Figura 2, se seleccionan y muestran el módulo M00094 para la biosíntesis de ceramidas y la red N00642 para la estimulación con saposina de GBA y GALC. Se sabe que la PSAP (prosaposina) es un gen causante de la esfingolipidosis, pero en los mapas de vías metabólicas de KEGG no suele incluirse dicho elemento regulador. El nuevo visor de mapas de rutas permite mostrar elementos adicionales y habilitar enlaces adicionales cuando se realiza la selección de ciertas redes. En la Figura 2, la selección de N00642 muestra el nodo adicional de PSAP y enlaces regulatorios a 3.2.1.45 (GBA / GBA2) y 3.2.1.46 (GALC), que no están presentes en el mapa original.

El nuevo visor de mapas de rutas con un panel lateral para operaciones del lado del cliente. Aquí se muestra el mapa de la vía humana hsa00600 para el metabolismo de esfingolípidos con el módulo M00094 para la biosíntesis de ceramidas en rojo y la red N00642 para la estimulación de saposina (PSAP) de GBA (3.2.1.45) y GALC (3.2.1.46) en violeta. El nodo de saposina y los enlaces regulatorios no están presentes en el mapa original y solo se muestran cuando se selecciona esta red.

El nuevo visor de mapas de rutas con un panel lateral para operaciones del lado del cliente. Aquí se muestra el mapa de la vía humana hsa00600 para el metabolismo de esfingolípidos con el módulo M00094 para la biosíntesis de ceramidas en rojo y la red N00642 para la estimulación de saposina (PSAP) de GBA (3.2.1.45) y GALC (3.2.1.46) en violeta. El nodo de saposina y los enlaces regulatorios no están presentes en el mapa original y solo se muestran cuando se selecciona esta red.

Para los mapas globales (números de mapa 01100s) y los mapas de vista general (01200s), el nuevo visor de mapas permite seleccionar opciones adicionales. La opción de coloración en el mapa global distingue si se utilizan colores múltiples de acuerdo con los códigos de color de las categorías de vías o una única coloración de verde cuando se muestra una vía específica de un organismo. La opción de enlace en los mapas globales y generales es si se usa el modo normal o el modo de módulo, este último trata el mapa como si estuviera compuesto por módulos en lugar de genes individuales o KO. El modo de enlace de módulo es útil para caracterizar la capacidad metabólica de un genoma o un metagenoma, ya que los módulos se definen como unidades funcionales de genes enzimáticos para procesos metabólicos específicos, lo que permite la evaluación automática de si las unidades están completas. La Figura 3 muestra el mapa global de vías metabólicas en el modo de enlace de módulo para una muestra ambiental (T30798_01100) del proyecto Tara Oceans (3), donde los módulos completos mostrados en marrón indican la presencia de procesos metabólicos específicos. El modo de enlace de módulo también se implementa en la herramienta Reconstruir ruta de KEGG Mapper (4).

El mapa global de las vías metabólicas ahora se puede ver en dos modos: modo de enlace normal y modo de enlace de módulo, este último trata el mapa como si estuviera compuesto por módulos en lugar de genes individuales o KO. Aquí, el mapa global de una muestra de Tara Oceans (T30798_01100) se muestra en el modo de enlace de módulo con el color rosa para el fondo de todos los módulos, verde para los genes mapeados y marrón para los módulos completos identificados en la muestra.

El mapa global de las vías metabólicas ahora se puede ver en dos modos: modo de enlace normal y modo de enlace de módulo, este último trata el mapa como si estuviera compuesto por módulos en lugar de genes individuales o KO. Aquí, el mapa global de una muestra de Tara Oceans (T30798_01100) se muestra en el modo de enlace de módulo con el color rosa para el fondo de todos los módulos, verde para los genes mapeados y marrón para los módulos completos identificados en la muestra.

Mapa de variación de la red

El mapa de variación de red es un diagrama dibujado computacionalmente de variaciones de red que contiene conjuntos alineados de redes relacionadas involucradas en la misma ruta. El mapa también se puede crear mediante la recopilación de todos los tipos de redes variantes involucradas en la misma enfermedad. Como se muestra en la Figura 2, la red (norte number) enlaces en el nuevo visor de mapas de ruta está agrupado por el mapa de variación de red (nt número), vinculando directamente a variaciones conocidas que no están representadas en el mapa de ruta de KEGG. La figura 4 es un ejemplo del mapa de variación de red, nt06131 para apoptosis (virus y bacterias). Como se muestra aquí, el mapa de variación generalmente contiene bloques de redes alineadas, cada bloque consiste en una red de referencia en verde y redes variantes con codificación de colores de variantes de genes en rojo, proteínas patógenas en violeta y factores ambientales en azul. Las redes variantes están vinculadas a enfermedades asociadas, infecciones virales y bacterianas en la Figura 4, lo que permite un análisis comparativo de las perturbaciones de la red.

El mapa de variación de red nt06131 para apoptosis (virus y bacterias) que muestra conjuntos alineados de redes de referencia en verde y redes variantes con proteínas virales o bacterianas en violeta. Las redes variantes están vinculadas a tipos de enfermedades, principalmente infecciones virales pero que incluyen cinco infecciones bacterianas.

El mapa de variación de red nt06131 para apoptosis (virus y bacterias) que muestra conjuntos alineados de redes de referencia en verde y redes variantes con proteínas virales o bacterianas en violeta. Las redes variantes están vinculadas a tipos de enfermedades, principalmente infecciones virales pero que incluyen cinco infecciones bacterianas.

Se sabe que los virus inhiben o activan las vías de apoptosis dependiendo del tipo de virus, que se muestran en el mapa de variación nt06131, pero se pueden ver más claramente en los mapas de vías correspondientes. La Figura 5 muestra partes de los dos mapas de ruta: hsa05167 para la infección por KSHV (virus del herpes asociado al sarcoma de Kaposi) y hsa05170 para la infección por VIH-1 (virus de inmunodeficiencia humana 1). Los segmentos resaltados de las vías de apoptosis en cada mapa corresponden a las redes variantes incluidas en nt06131. La anti-apoptosis es uno de los sellos distintivos del cáncer (5), y los virus oncogénicos, como el KSHV, inhiben las vías de la apoptosis. Por el contrario, el VIH evade el sistema inmunológico del huésped activando la apoptosis de las células T auxiliares CD4 +.

Las redes seleccionadas en el mapa de variación nt06131 se muestran en los mapas de ruta: (A) inhibición de la apoptosis por KSHV en el mapa de la ruta de hsa05167 para la infección por herpesvirus asociada al sarcoma de Kaposi y (B) activación de la apoptosis por VIH en el mapa de la ruta de hsa05170 para la infección por el virus de inmunodeficiencia humana 1.

Las redes seleccionadas en el mapa de variación nt06131 se muestran en los mapas de ruta: (A) inhibición de la apoptosis por KSHV en el mapa de la ruta de hsa05167 para la infección por herpesvirus asociada al sarcoma de Kaposi y (B) activación de la apoptosis por VIH en el mapa de la ruta de hsa05170 para la infección por el virus de inmunodeficiencia humana 1.

La base de datos KEGG NETWORK contiene actualmente redes variantes asociadas a enfermedades para cánceres, enfermedades neurodegenerativas, enfermedades endocrinas y metabólicas, incluidos errores innatos del metabolismo, infecciones virales y algunas infecciones bacterianas. La adición más reciente consta de seis enfermedades neurodegenerativas, enfermedad de Alzheimer, enfermedad de Parkinson, esclerosis lateral amiotrófica, enfermedad de Huntington, ataxia espinocerebelosa y enfermedad priónica, para las cuales se han definido redes variantes a partir de mapas de vías mejorados. Se ha encontrado que las características comunes de la neurodegeneración (6) están vinculadas a redes moleculares, incluida la acumulación de agregados de proteínas anormales, deterioro del sistema ubiquitina-proteasoma, estrés del retículo endoplásmico, deterioro de la autofagia, disfunción mitocondrial y defecto de transporte axonal. El mapa de variación de red nt06410 para la señalización de calcio es la vía de señalización más característica involucrada en muchas de estas características comunes.

Anotación y taxonomía de KO

Los grupos de ortología de KEGG o KO se definen como ortólogos funcionales para los nodos de los mapas de vías de KEGG y las jerarquías BRITE. En principio, los KO se crean como grupos de similitud de secuencia para hacer posible la asignación de KO a partir de datos de secuencia. En septiembre de 2020, hay alrededor de 24 000 KO, y el 82% tiene enlaces a datos de secuencia caracterizados experimentalmente. Desafortunadamente, sin embargo, todavía hay KO heredados que comenzaron como grupos de números EC y contienen diversos conjuntos de datos de secuencia. Los KO heredados se están dividiendo gradualmente en KO más pequeños considerando grupos taxonómicos.

Los datos de taxonomía de KEGG para organismos celulares y virus se toman de la base de datos de taxonomía de NCBI (7) y se muestran con un marco predefinido del sistema de clasificación. Para los organismos celulares, el orden entre el mismo rango taxonómico no es alfabético, sino que se define manualmente. Esta es la razón por Homo sapiens siempre aparece en la parte superior de la taxonomía KEGG. Para los virus, se utiliza la clasificación tradicional de Baltimore (8) en el nivel superior e integrada en el sistema de clasificación ICTV (Comité Internacional de Taxonomía de Virus) (9), de acuerdo con la correspondencia que se muestra en la Figura 6.

La correspondencia entre los siete grupos de la clasificación de Baltimore (coloreados) y la jerarquía de la clasificación de virus ICTV que consiste en reino (-viria), reino (-virae), filo (-viricota), clase (-viricetes) y familia (-viridae) .

La correspondencia entre los siete grupos de la clasificación de Baltimore (coloreados) y la jerarquía de la clasificación de virus ICTV que consiste en reino (-viria), reino (-virae), filo (-viricota), clase (-viricetes) y familia (-viridae) .

Para la anotación interna de la base de datos KEGG GENES, se ha desarrollado una nueva herramienta llamada KoAnn (Anotación de KO) para asignar KO a genes individuales. La herramienta KoAnn utiliza la base de datos SSDB y las tablas GFIT de forma similar a la herramienta KOALA desarrollada anteriormente (10). La base de datos SSDB se genera computacionalmente a partir de la base de datos GENES y contiene puntuaciones de similitud de secuencia y relaciones de mejor resultado para todos los pares de genes en comparaciones de genomas por pares. La tabla GFIT es una tabla de resumen para cada gen de cada organismo que enumera los genes de puntaje superior en otros organismos con atributos que incluyen puntaje de similitud, identidad, indicador de mejor acierto, longitud de secuencia y superposición de alineación. Debido a que KoAnn hace predicciones más seguras utilizando un esquema de ponderación diferente que supera los problemas de KOALA, la asignación de KO ahora es más estable y confiable.

A partir de septiembre de 2020, los KO se asignan al 52% de los más de 31 millones de genes (en su mayoría proteínas pero incluidos los ARN) para organismos celulares, pero solo al 22% de los 460 mil genes para virus. Las variaciones de secuencia de las proteínas virales parecen ser muy grandes y será imposible descomponer las proteínas virales en KO. Nuestro enfoque es definir grupos específicos de secuencias cuando surge la necesidad de la representación de mapas de ruta KEGG, jerarquías BRITE y otras características funcionales. La agrupación a menudo se realiza extrayendo un grupo más pequeño de un grupo más grande, como se muestra a continuación para las glicoproteínas de pico de coronavirus.

K19254 S Coronaviridae (excluyendo betacoronavirus) glicoproteína de pico

K24325 S betacoronavirus (excluyendo SARS y MERS) glicoproteína de pico

K24152 S Glicoproteína de pico de coronavirus del SARS

K24324 S MERS glucoproteína de pico de coronavirus

K24152 actualmente contiene glicoproteínas de pico de SARS-CoV, SARS-CoV-2 (virus COVID-19) y un coronavirus de murciélago.

Información sobre medicamentos

La categoría de información de salud de KEGG (Figura 1) contiene etiquetas de medicamentos para todos los medicamentos recetados y de venta libre en Japón y EE. UU. Las etiquetas de los medicamentos japoneses se obtienen de JAPIC (Centro de información farmacéutica de Japón) todos los meses y se procesan (i) para asignar números KEGG DRUG D a los productos farmacéuticos de acuerdo con el ingrediente activo, (ii) para asignar números D / C / E a los aditivos farmacéuticos de cada producto farmacéutico, (iii) extraer y estandarizar las interacciones fármaco-fármaco asociadas con contraindicaciones y precauciones utilizando identificadores KEGG y códigos ATC, (iv) extraer y estandarizar los datos del metabolismo farmacológico utilizando identificadores KEGG y (v) vincular las indicaciones a KEGG ENFERMEDAD H números. Todos los meses se realiza un procesamiento similar en las etiquetas de los medicamentos de la FDA, excluidos los aditivos y las interacciones entre medicamentos. Además, KEGG DRUG incorpora la información sobre medicamentos más actualizada de EE. UU., Japón y Europa, y realiza un seguimiento de las nuevas aprobaciones de medicamentos por parte de la FDA, PMDA y EMA, y de los nuevos nombres de medicamentos incorporados en USAN, JAN e INN.

Como resultado de estos esfuerzos, KEGG se ha convertido ahora en uno de los recursos de información sobre drogas más utilizados por la sociedad japonesa en general, al que se accede en gran medida a través de búsquedas en la web de nombres de drogas. Aunque el contenido en japonés puede no ser de utilidad para los usuarios que no son japoneses, el procesamiento de todo el conjunto de etiquetas de medicamentos ha hecho que las anotaciones de KEGG sean más precisas y completas. La base de datos de FÁRMACOS contiene, entre otros, datos seleccionados manualmente para dianas de fármacos con vías asociadas, enzimas metabolizadoras de fármacos y transportadores con sus interacciones e información sobre la eficacia y la enfermedad. Además, las variantes de genes como objetivos o marcadores de fármacos se incorporan en las bases de datos de DROGAS y REDES.

Interacción virus-célula

Hasta ahora, los virus se han tratado en KEGG como perturbadores que causan enfermedades humanas. Hay once mapas de rutas para infecciones virales y se han desarrollado sus correspondientes redes y mapas de variación de redes. También se han realizado comparaciones de proteínas virales con proteínas efectoras bacterianas como perturbadores en los mapas de variación de la red. Sin embargo, el conocimiento de las proteínas virales representadas en KEGG es todavía muy limitado. Con el fin de aumentar el número de proteínas virales caracterizadas experimentalmente y definir ortólogos funcionales (KO), comenzamos a acumular diferentes tipos de datos de interacción virus-célula, como las interacciones de proteínas de entrada viral y receptores celulares, independientemente de si las vías de señalización internas las células se conocen o no. Esperamos que un mayor número de KO virales con funciones conocidas permita predicciones basadas en el genoma viral de perturbaciones virales y posiblemente conduzca a aplicaciones prácticas. Sin embargo, con el fin de comprender mejor los virus, puede ser necesario tratar a los organismos celulares y los virus como un ecosistema coevolucionante en lugar de como relaciones individuales de perturbación del sistema.


VINCULACIÓN DE GENOMAS CON FENOTIPOS

Descripción general de KEGG

KEGG es un recurso de base de datos integrado que consta de 15 bases de datos principales mantenidas en la base de datos interna de Oracle. Como se muestra en la Tabla 1, se clasifican en información de sistemas (PATHWAY, BRITE y MODULE), información genómica (ORTOLOGÍA, GENOMA y GENES), información química (COMPOUND, GLYCAN, REACTION, RPAIR, RCLASS y ENZYME) e información de salud (ENFERMEDAD, DROGA y MEDIO AMBIENTE). Las categorías de información química y de salud se denominan colectivamente KEGG LIGAND y KEGG MEDICUS, respectivamente. KEGG MEDICUS contiene dos bases de datos externas para etiquetas de medicamentos (prospectos) de todos los medicamentos comercializados en Japón y EE. UU., Que se mantienen como parte de la base de datos KEGG Oracle. Hay bases de datos adicionales que no se enumeran en la Tabla 1, que se generan y mantienen computacionalmente fuera de la base de datos Oracle de KEGG. Incluyen la base de datos de similitud de secuencias SSDB para la anotación del genoma y las bases de datos auxiliares del catálogo de genes DGENES, MGENES y VGENES para los borradores de genomas, metagenomas y genomas virales, respectivamente.

El recurso de KEGG, incluidas las etiquetas de los medicamentos

Categoría. Nombre de la categoría . Nombre de la base de datos . Contenido .
Información de sistemas CAMINO KEGG Mapas de ruta de KEGG
KEGG BRITE Jerarquías funcionales BRITE
MÓDULO KEGG Módulos KEGG
Información genómica ORTOLOGÍA KEGG Grupos de KEGG Orthology (KO)
GENOMA DE KEGG Organismos KEGG con genomas completos
GENES KEGG Catálogos de genes en genomas completos
Información química KEGG LIGAND COMPUESTO KEGG Metabolitos y otras moléculas pequeñas.
KEGG GLICAN Glicanos
REACCIÓN KEGG Reacciones bioquímicas
KEGG RPAIR Pares de reactivos
KEGG RCLASS Clase de reacción
ENZIMA KEGG Nomenclatura de enzimas
Información de salud KEGG MEDICUS ENFERMEDAD DE KEGG Enfermedades humanas
DROGA KEGG Drogas
ENTORNO KEGG Drogas crudas y sustancias relacionadas con la salud
JAPICO a Etiquetas de medicamentos en Japón
DailyMed b Etiquetas de medicamentos en los EE. UU. (Vinculadas a través de NDC c)
Categoría. Nombre de la categoría . Nombre de la base de datos . Contenido .
Información de sistemas CAMINO DE KEGG Mapas de ruta de KEGG
KEGG BRITE Jerarquías funcionales BRITE
MÓDULO KEGG Módulos KEGG
Información genómica ORTOLOGÍA KEGG Grupos de KEGG Orthology (KO)
GENOMA DE KEGG Organismos KEGG con genomas completos
GENES KEGG Catálogos de genes en genomas completos
Información química KEGG LIGAND COMPUESTO KEGG Metabolitos y otras moléculas pequeñas.
KEGG GLICAN Glicanos
REACCIÓN KEGG Reacciones bioquímicas
KEGG RPAIR Pares de reactivos
KEGG RCLASS Clase de reacción
ENZIMA KEGG Nomenclatura de enzimas
Información de salud KEGG MEDICUS ENFERMEDAD DE KEGG Enfermedades humanas
DROGA KEGG Drogas
ENTORNO KEGG Drogas crudas y sustancias relacionadas con la salud
JAPICO a Etiquetas de medicamentos en Japón
DailyMed b Etiquetas de medicamentos en los EE. UU. (Vinculadas a través de NDC c)

El recurso de KEGG, incluidas las etiquetas de los medicamentos

Categoría. Nombre de la categoría . Nombre de la base de datos . Contenido .
Información de sistemas CAMINO KEGG Mapas de ruta de KEGG
KEGG BRITE Jerarquías funcionales BRITE
MÓDULO KEGG Módulos KEGG
Información genómica ORTOLOGÍA KEGG Grupos de KEGG Orthology (KO)
GENOMA DE KEGG Organismos KEGG con genomas completos
GENES KEGG Catálogos de genes en genomas completos
Información química KEGG LIGAND COMPUESTO KEGG Metabolitos y otras moléculas pequeñas.
KEGG GLICAN Glicanos
REACCIÓN KEGG Reacciones bioquímicas
KEGG RPAIR Pares de reactivos
KEGG RCLASS Clase de reacción
ENZIMA KEGG Nomenclatura de enzimas
Información de salud KEGG MEDICUS ENFERMEDAD DE KEGG Enfermedades humanas
DROGA KEGG Drogas
ENTORNO KEGG Drogas crudas y sustancias relacionadas con la salud
JAPICO a Etiquetas de medicamentos en Japón
DailyMed b Etiquetas de medicamentos en los EE. UU. (Vinculadas a través de NDC c)
Categoría. Nombre de la categoría . Nombre de la base de datos . Contenido .
Información de sistemas CAMINO KEGG Mapas de ruta de KEGG
KEGG BRITE Jerarquías funcionales BRITE
MÓDULO KEGG Módulos KEGG
Información genómica ORTOLOGÍA KEGG Grupos de KEGG Orthology (KO)
GENOMA DE KEGG Organismos KEGG con genomas completos
GENES KEGG Catálogos de genes en genomas completos
Información química KEGG LIGAND COMPUESTO KEGG Metabolitos y otras moléculas pequeñas.
KEGG GLICAN Glicanos
REACCIÓN KEGG Reacciones bioquímicas
KEGG RPAIR Pares de reactivos
KEGG RCLASS Clase de reacción
ENZIMA KEGG Nomenclatura de enzimas
Información de salud KEGG MEDICUS ENFERMEDAD DE KEGG Enfermedades humanas
DROGA KEGG Drogas
ENTORNO KEGG Drogas crudas y sustancias relacionadas con la salud
JAPICO a Etiquetas de medicamentos en Japón
DailyMed b Etiquetas de medicamentos en los EE. UU. (Vinculadas a través de NDC c)

Base de conocimientos de referencia

El concepto original de KEGG era crear una base de conocimientos de referencia del metabolismo y otros procesos celulares, de modo que se pueda utilizar para inferir funciones de nivel superior a partir de los datos de la secuencia del genoma. Este concepto no ha cambiado después de una expansión significativa de la base de conocimientos, que ahora contiene sistemas de organismos, enfermedades humanas y medicamentos y una variedad de datos, que ahora incluyen metagenomas, transcriptomas, metabolomas y otros datos de alto rendimiento. La base de conocimientos de referencia consta de las bases de datos KEGG PATHWAY, BRITE y MODULE (categoría de información de sistemas en la Tabla 1). Durante los últimos 2 años, implementamos mejoras en las bases de datos KEGG MODULE y PATHWAY para automatizar la interpretación de características fenotípicas, especialmente capacidades metabólicas, a partir de secuencias del genoma y metagenoma.

Genes a números K

Los mapas de vías de KEGG, las jerarquías funcionales de BRITE y los módulos de KEGG están representados de forma genérica para ser aplicables a todos los organismos que utilizan el sistema de ortología KEGG (KO). Por ejemplo, cuando se dibuja un mapa de ruta basado en evidencia experimental en organismos específicos, se realiza trabajo adicional para generalizar genes y proteínas en esos organismos específicos a otros organismos convirtiéndolos en entradas KO (grupos de ortólogos) y, si es necesario, creando nuevos KO entradas (Figura 1). Cada entrada KO (identificada por el número K) se define como un grupo de similitud de secuencia, aunque el grado de similitud depende del contexto (vía). Esto permite que las rutas de referencia creadas manualmente se expandan computacionalmente a rutas específicas del organismo, una vez que los genes en el genoma se anotan con números K basados ​​en la similitud de secuencia.

Un diagrama esquemático de la anotación del genoma en KEGG. Consta de dos partes: definir entradas KO representadas por números K (derecha) y asignar números K a genes en genomas completos (izquierda). La definición de KO se realiza manualmente, pero la asignación de números K está altamente informatizada (ver texto).

Un diagrama esquemático de la anotación del genoma en KEGG. Consta de dos partes: definir entradas KO representadas por números K (derecha) y asignar números K a genes en genomas completos (izquierda). La definición de KO se realiza manualmente, pero la asignación de números K está altamente informatizada (ver texto).

La anotación del genoma en KEGG está altamente computarizada como se ilustra en la Figura 1. SSDB es un enorme gráfico de genes, cuyos bordes están ponderados por las puntuaciones de similitud de secuencia y dirigidos por las relaciones de mejor resultado. Se actualiza continuamente a partir de la base de datos KEGG GENES mediante comparaciones de genomas por pares utilizando el programa SSEARCH. El grupo de similitud de secuencia de cada entrada KO corresponde a un subgrafo similar a una camarilla en el gráfico SSDB, y la anotación del genoma implica ampliar y modificar este subgrafo. Esto se logra mediante el programa KOALA (KEGG Orthology And Links Annotation), que evalúa las puntuaciones de similitud de secuencias, las relaciones de los mejores resultados, los dominios de proteínas y los grupos de taxonomía para cada gen en cada genoma utilizando la tabla GFIT (Gene Function Identification Tool) creada a partir de SSDB . Las asignaciones computacionales de KOALA (actualmente realizadas tres veces por semana) para un conjunto limpio (claramente definido) de números K (actualmente 73%) se utilizan para anotar automáticamente genes en un genoma recién determinado y también en los genomas existentes que cumplen con ciertos criterios. Las discrepancias entre las asignaciones de KOALA y las anotaciones actuales son examinadas por los anotadores con la versión manual de las herramientas KOALA y GFIT (las copias de solo lectura están disponibles en las páginas web de KO y GENES), que están vinculadas a herramientas adicionales que incluyen el grupo de genes, la tabla de ortólogos y las herramientas filogenéticas. herramientas de análisis. Las herramientas manuales también se utilizan ampliamente para agrupar y reagrupar entradas de KO para aumentar el conjunto limpio de números K (Figura 1).

Números K a números M

M números a fenotipos

La anotación de fenotipos basada en el genoma, en su mayoría capacidades metabólicas, se está agregando al campo Palabra clave de la página de entrada Genoma. La evidencia experimental tomada de la literatura se agrega a su campo Comentario como parte de la anotación de metadatos de genomas completos. Ahora que el número de organismos KEGG (genomas completos) llega a 3000, se desarrollarán nuevas herramientas para examinar las relaciones entre los grupos de organismos y las capacidades metabólicas mediante el uso de la anotación a nivel de organismo de los módulos de firma.

Módulos de reacción

Los módulos KEGG se definen mediante números K, lo que significa que representan características de genes y genomas. Por el contrario, los módulos de reacción que se han introducido recientemente para las vías metabólicas se definen mediante números RC (Clase de reacción) que describen secuencias conservadas de patrones de transformación de estructuras químicas de moléculas pequeñas. La figura 2 muestra cómo se procesan los datos de reacción en KEGG. La clase de reacción es como un grupo ortólogo de reacciones que representan cambios estructurales locales funcionalmente importantes y se adaptan a las diferencias estructurales globales. Los módulos de reacción se extraen de propiedades puramente químicas sin utilizar ninguna información sobre enzimas y genes de enzimas (3). Sin embargo, los módulos de reacción tienden a corresponder a los módulos KEGG. Por ejemplo, el módulo KEGG M00010 de oxaloacetato (cuatro carbonos o C4) a 2-oxoglutarato (C5) coincide con el módulo de reacción RM001 para "extensión de la cadena del ácido 2-oxocarboxílico por vía del ácido tricarboxílico". Además, como se ilustra en la Figura 3, RM001 se encuentra en otras rutas en combinación con otros módulos de reacción para sintetizar aminoácidos básicos, aminoácidos de cadena ramificada, coenzima B y glucosinolatos. Hay cuatro módulos KEGG diferentes actualmente definidos para el mismo módulo de reacción RM001, y los genes constituyentes para los pasos de reacción correspondientes son similares o parálogos en estos casos. Por tanto, los módulos de reacción se han utilizado para mejorar la agrupación de números K y las anotaciones asociadas.

Procesamiento de datos de reacción en KEGG. La fórmula de reacción se descompone en un conjunto de pares de reactivos, relaciones uno a uno de pares sustrato-producto. Cada par de reactivos se caracteriza por el patrón de transformación de la estructura local, llamado patrón RDM de cambios de tipo de átomo KEGG. Entre los pares de reactivos que aparecen en los mapas de la vía de KEGG, se utilizan distintos patrones de RDM para definir las entradas de clases de reacción identificadas por números de RC. El módulo de reacción es una secuencia conservada de números de RC observados en diferentes vías. Este ejemplo muestra el patrón RDM (R para los átomos del centro de reacción en rojo, D para los átomos de la región de diferencia en verde y M para los átomos de la región combinada en azul) de RC00067, que aparece en el módulo de reacción RM001 variante 01 (ver detalles en http: / /www.kegg.jp/kegg/reaction/rmodule.html).

Procesamiento de datos de reacción en KEGG. La fórmula de reacción se descompone en un conjunto de pares de reactivos, relaciones uno a uno de pares de sustrato-producto. Cada par de reactivos se caracteriza por el patrón de transformación de la estructura local, llamado patrón RDM de cambios de tipo de átomo KEGG. Entre los pares de reactivos que aparecen en los mapas de la vía de KEGG, se utilizan distintos patrones de RDM para definir las entradas de clases de reacción identificadas por números de RC. El módulo de reacción es una secuencia conservada de números de RC observados en diferentes vías. Este ejemplo muestra el patrón RDM (R para los átomos del centro de reacción en rojo, D para los átomos de la región de diferencia en verde y M para los átomos de la región combinada en azul) de RC00067, que aparece en el módulo de reacción RM001 variante 01 (ver detalles en http: / /www.kegg.jp/kegg/reaction/rmodule.html).

Un ejemplo de la arquitectura modular de la red metabólica. El módulo de reacción RM001 para la extensión de la cadena de ácidos 2-oxocarboxílicos (círculos grandes con el número de carbonos) se utiliza en combinación con otros módulos de reacción para generar aminoácidos (círculos rojos), glucosinolatos (círculos verdes) y coenzima B (círculo azul). (ver detalles en http://www.kegg.jp/pathway/map01210).

Un ejemplo de la arquitectura modular de la red metabólica. El módulo de reacción RM001 para la extensión de la cadena de ácidos 2-oxocarboxílicos (círculos grandes con el número de carbonos) se utiliza en combinación con otros módulos de reacción para generar aminoácidos (círculos rojos), glucosinolatos (círculos verdes) y coenzima B (círculo azul). (ver detalles en http://www.kegg.jp/pathway/map01210).

Los módulos de reacción contienen características interesantes, posiblemente principios de diseño de una serie de reacciones orgánicas (2, 3), incluyendo cómo lograr un estado de transición activado (por ejemplo, fosforilación), cómo introducir un grupo protector (por ejemplo, N-acetilación), cómo aumentar la especificidad (por ejemplo, usando una proteína transportadora) y cómo aumentar la eficiencia (por ejemplo, cambiando una fuente de carbono de acetil-CoA a malonil-CoA). Un ejemplo se encuentra en las dos vías para la biosíntesis de ácidos grasos: la vía menor en las mitocondrias (RM020) que utiliza acetil-CoA como fuente de carbono, que es una inversión de la beta-oxidación (RM018), y la vía principal (RM021) que utiliza proteína transportadora de acilo y malonil-CoA como fuente de carbono. El RM021 parece estar más avanzado que el RM020 en la posible evolución de los módulos de reacción.

Mapas de descripción general del metabolismo

Los mapas de vías similares a la Figura 3 ahora están disponibles bajo la categoría de mapas de descripción general del metabolismo (números de mapa 01200s). A diferencia de los mapas globales desarrollados previamente (números de mapa 01100s), que omiten los pasos de reacción intermedios, los mapas de descripción general contienen todos los pasos de reacción como en los mapas de vías metabólicas de KEGG regulares. Además, se anotan manualmente con módulos KEGG y módulos de reacción. Estos mapas representan nuestros esfuerzos por presentar los principios de diseño de la red metabólica en lugar de las vistas tradicionales de las vías individuales. La arquitectura modular de la red metabólica es evidente en el metabolismo del ácido 2-oxocarboxílico (map01210), el metabolismo de los ácidos grasos (map01212) y la degradación de compuestos aromáticos (map01220), pero el metabolismo central del carbono (map01200) parece contener un principio de diseño diferente. Es un uso extensivo de las mismas vías con modificaciones menores (2), como la vía reductora de la pentosa fosfato que contiene dos pasos de reacción clave catalizados por RuBisCO y PRK. Los mapas generales, junto con los módulos KEGG y los módulos de reacción, se ampliarán para comprender los principios básicos de las redes metabólicas.

Tenga en cuenta que para estos nuevos mapas de descripción general, las rutas de referencia de números EC (números de mapa con el prefijo ec) ya no son compatibles. Los números de CE se dan a enzimas y reacciones enzimáticas bien caracterizadas bioquímicamente en la Nomenclatura de Enzimas (4), pero hay muchas reacciones que no califican para los números de CE, como las identificadas por experimentos genéticos o inferidas de vías metabólicas. Menos de la mitad de las reacciones en la base de datos de REACCIÓN de KEGG están asociadas con números de CE, y esta relación se vuelve más pequeña para aquellas reacciones que aparecen en los mapas de la vía de KEGG (3). También hay muchos números EC cuya información de secuencia se desconoce (5). Dado que los números EC se dan como atributos de entradas KO (números K) y entradas de reacción (números R), se desaconseja su uso como identificadores en KEGG Mapper y otras aplicaciones.


Información del autor

Afiliaciones

Centro RIKEN para el Proyecto de Inteligencia Avanzada, Edificio Nihonbashi 1-chome Mitsui, piso 15, 1-4-1 Nihonbashi, Chuo-ku, Tokio, 103-0027, Japón

Escuela de Ingeniería, Departamento de Ingeniería de Sistemas Químicos, Universidad de Tokio, 7-3-1 Hongo, Bunkyo-ku, Tokio, 113-8656, Japón

Departamento de Biociencia y Bioinformática, Facultad de Ciencias de la Computación e Ingeniería de Sistemas, Instituto de Tecnología de Kyushu, 680-4 Kawazu, Lizuka, Fukuoka, 820-8502, Japón


Ver el vídeo: KEGG (Noviembre 2022).