Información

¿Enfermedad humana y base de datos de fenotipos asociados?

¿Enfermedad humana y base de datos de fenotipos asociados?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

¿Alguien sabe de alguna buena base de datos que contenga síntomas de enfermedades y otras dolencias en humanos? He intentado trabajar con UMLS, pero ha sido imposible trabajar con él. También intenté trabajar con el sitio web de ontología de enfermedades (http://www.disease-ontology.org/), pero eso no parece ser muy… completo… en términos de síntomas de las enfermedades que tienen.

Intenté buscar en la base de datos de enfermedades (http://www.diseasesdatabase.com/), pero son reacios a entregar los datos sin procesar, si los entiendo correctamente.

¿Alguien tiene mejores ideas?


Me parece que efectivamente desea hacer una matriz de decisiones.

Entonces ... Como se dijo anteriormente, ICD y SNOMED CT tendrán códigos para sus enfermedades y síntomas. Me inclinaría por SNOMED CT debido a la forma en que organiza los conceptos. Esencialmente de amplio a específico. De esa manera, los usuarios pueden ingresar síntomas muy específicos, y su matriz solo necesita tener síntomas tan específicos como sea necesario. Por ejemplo, puede decir que "vomitar" es un síntoma de "intoxicación por alcohol" en su base de datos. Y si un usuario entra en "proyectil de vómito", la estructura de SNOMED lo reconoce como un tipo de vómito.

Sin embargo - Los síntomas no producen la enfermedad, y la mayoría de las enfermedades tienen una gran variedad de "posibles síntomas" (razón por la cual SNOMED CT no tiene tales relaciones). Entonces no es una empresa fácil. De ahí por qué aquellos que han creado esas bases de datos (a las que se ha vinculado) son reacios a compartir su IP, al menos sin $$$.

Si vas a hacer el tuyo propio, aquí tienes algunos consejos. Considerar:

  • solo enfermedades relevantes para su caso de uso, por ejemplo. El cuidado de ancianos no requiere trastornos pediátricos;
  • excluir síntomas inespecíficos;
  • Clasifique sus síntomas por frecuencia, p. ej. El 60% de las mujeres embarazadas tienen náuseas matutinas, mientras que el 100% tiene una HCG> 10 *

Espero que esto ayude. Y buena suerte.

editar- hay un hilo similar en LinkedIn

*estadística fabricada :).


Base de datos de enfermedades genéticas

En bioinformática, un Base de datos de enfermedades genéticas es una colección sistematizada de datos, típicamente estructurada para modelar aspectos de la realidad, de manera que comprenda los mecanismos subyacentes de enfermedades complejas, mediante la comprensión de múltiples interacciones compuestas entre las relaciones fenotipo-genotipo y los mecanismos gen-enfermedad. [1] Las bases de datos de enfermedades genéticas integran asociaciones de enfermedades genéticas humanas de varias bases de datos curadas por expertos y asociaciones derivadas de la minería de textos, incluidas las enfermedades mendelianas, complejas y ambientales. [2] [3]

Base de datos de enfermedades genéticas
ClasificaciónBioinformática
SubclasificaciónBases de datos
Tipo de bases de datosBiológico
Subtipo de bases de datosEnfermedad genética


Abstracto

Las bases de datos de genotipo-fenotipo proporcionan información sobre la variación genética, sus consecuencias y sus mecanismos de acción con fines de investigación y atención médica. Las bases de datos existentes varían mucho en tipo, áreas de enfoque y modos de operación. A pesar de conjuntos de datos cada vez más grandes e intrincados, que han sido posibles gracias a los avances en la secuenciación del ADN, los métodos ómicos y las tecnologías de fenotipado, se está logrando un progreso constante hacia la integración de estas bases de datos en lugar de usarlas como entidades separadas. El consiguiente cambio de enfoque de las variantes de un solo gen hacia grandes paneles de genes, exomas, genomas completos y una miríada de características observables crea nuevos desafíos y oportunidades en el diseño de bases de datos, la interpretación de la patogenicidad variante y los modos de representación y uso de datos.


Introducción

Nuestra comprensión de la función de los genes a menudo se basa en la comparación de las consecuencias fenotípicas de la mutación con el "tipo salvaje" canónico en un solo organismo, así como entre mutantes de genes ortólogos en diferentes organismos. En particular, los organismos modelo han proporcionado una gran comprensión de la función de los genes en los seres humanos. La importancia y la necesidad de automatizar estas comparaciones entre especies se ha vuelto imperativa a medida que se realizan cribados de mutagénesis a gran escala en organismos modelo. Un obstáculo fundamental para el análisis es, sin embargo, la falta de un método computacionalmente manejable para describir fenotipos que sea aplicable en múltiples dominios de conocimiento biológico y especies (por ejemplo, ver [1]). Cada organismo modelo no solo tiene su propio vocabulario para describir las consecuencias fenotípicas de la mutación, sino que estos vocabularios suelen estar vinculados a las anatomías o fisiologías particulares del organismo. A menudo, estas descripciones se registran como texto libre y, aunque maravillosamente expresivas, el texto libre sigue siendo difícil de comparar de forma fiable con los métodos computacionales. Por ejemplo, un programa de computadora no sería capaz de reconocer el hecho de que existe una similitud significativa entre PAX6 mutaciones que dan como resultado ratones de "ojos pequeños", "córnea opaca" en los humanos, una "retina malformada" en el pez cebra y "sin ojos" Drosophila (Figura 1).

Fenotipos de tipo salvaje (arriba) y PAX6 Las mutaciones ortholog (abajo) en humanos, ratones, peces cebra y moscas pueden describirse con el método EQ. Las anotaciones EQ de los fenotipos anormales se enumeran debajo de cada conjunto de imágenes por organismo. Tenga en cuenta que las entidades anatómicas son de ssAO y las cualidades son de la ontología PATO. Estas PAX6 los fenotipos se han descrito textualmente como sigue. Las mutaciones humanas pueden resultar en aniridia (ausencia de iris), opacidad corneal (queratopatía relacionada con aniridia), cataratas (opacidad del cristalino), glaucoma y degeneración retiniana a largo plazo. Para el ratón, los mutantes exhiben microftalmia extrema con opacidad del cristalino / corneal y anomalía del iris, y hay un gran tapón de células epiteliales persistentes que permanece adherido entre la córnea y el cristalino. Para el pez cebra, los mutantes expresan un fenotipo variable y modificable que consiste en una disminución del tamaño del ojo, una reducción del tamaño del cristalino y una malformación de la retina. Drosophila ey (a PAX6 ortholog) provocan la pérdida del desarrollo ocular. Los genotipos mostrados son de ratón E15. Pax6 14Neu / 14Neu [68], pez cebra de 5 días pax6b tq253a / tq253a [69], humano PAX6 + / - [70], y Drosophila ey - / - [71].

Las metodologías actuales identifican tradicionalmente modelos animales sobre la base de la ortología de secuencia entre el modelo animal mutante y un gen humano. Por ejemplo, Schuhmacher et al. desarrolló recientemente un modelo de ratón del síndrome de Costello humano (OMIM: # 218040), que es un síndrome de desarrollo neuro-cardio-facio-cutáneo resultante de mutaciones en el H-RAS gen [2]. El ratón H-Ras gen se mutó en la posición ortóloga como en los pacientes de Costello, y el fenotipo resultante recapitula la enfermedad. Ocasionalmente, los modelos espontáneos pueden identificarse mediante la observación de síntomas que recuerdan a las enfermedades humanas, por ejemplo, la gordo australiano el ratón desarrolla obesidad, diabetes tipo 2 e infertilidad masculina. Este fenotipo es similar al síndrome de Alström humano, que es causado por una mutación en el ALMS1 gen [3]. Secuenciación y caracterización adicional de gordo australiano reveló una mutación en Limosna1, y gordo australiano está emergiendo como un buen modelo animal para comprender el síndrome de Alström y la función de los cilios localizados Limosna1 [4]. Estos ejemplos para identificar modelos animales de enfermedad se basaron en el conocimiento de la base genética de la enfermedad humana, pero hay muchas enfermedades humanas de las que aún no se conoce. Si un investigador pudiera comparar el organismo modelo humano, e incluso los fenotipos ancestrales directamente, tendría un mecanismo para identificar más rápidamente genes candidatos y modelos de enfermedad.

Las comunidades de organismos modelo se benefician de colecciones centralizadas de investigación curada, donde un científico puede buscar datos genómicos, fenotípicos y de expresión génica con referencias cruzadas extensivas, lo que se conoce como "bases de datos de organismos modelo" (MOD). La investigación en el campo de la biología humana sufre porque no existe un recurso equivalente para la comunidad de investigación humana, y vincular estos diversos conjuntos de datos requiere buscar muchos recursos separados. Sin embargo, existen varios recursos de datos valiosos para los datos fenotípicos humanos, incluido el Herencia mendeliana en línea en el hombre (OMIM) [5] publicado por el Centro Nacional de Información Biotecnológica (NCBI). OMIM contiene más de 19.000 registros, divididos entre genes y fenotipos / enfermedades. Aproximadamente el 53% de los registros de genes tienen descripciones detalladas de variantes alélicas y / o sinopsis clínicas generales, mientras que el 43% de los registros de fenotipos / enfermedades tienen una base molecular conocida. OMIM es un recurso basado en texto, y la recuperación de información adolece de este hecho, como muestran las búsquedas de Entrez en la Tabla 1. Para un investigador individual que desea saber qué mutaciones humanas pueden resultar en un aumento en el tamaño de los huesos, o un script de computadora que extrae datos OMIM, las anotaciones de texto libre no brindan el rigor necesario para realizar consultas. Si bien se ha demostrado que la extracción exitosa de la literatura para relacionar genes con fenotipos [6], no proporciona un mecanismo para comparar fenotipos directamente.

Una de las herramientas más revolucionarias para el biólogo ha sido la capacidad de comparar secuencias utilizando algoritmos como BLAST [7], que permite evaluar cuantitativamente la similitud entre una o más secuencias. Sin embargo, la base genética de una enfermedad a menudo se desconoce y, en este caso, una herramienta de comparación de secuencias no sirve para identificar mutaciones de secuencia. Si las descripciones de fenotipos se basaran en un vocabulario controlado común, una ontología- estarían estructurados de manera que se pudieran escribir algoritmos para comparar fenotipos computacionalmente. Uno de los beneficios de usar ontologías es la capacidad de usar herramientas de inferencia lógica de propósito general llamadas razonadores (por ejemplo, ver [8]). Los razonadores pueden ayudar en la respuesta y el análisis de consultas. Como ejemplo, considere dos consultas diferentes, una para encontrar genes expresados ​​en ZFA: gut, y la otra para encontrar genes expresados ​​en el epitelio ZFA: (escribimos términos de ontología con el prefijo del nombre de la ontología; consulte Materiales y métodos para obtener más información explicación). Es de esperar que ambas búsquedas devuelvan anotaciones a la ZFA: epitelio intestinal, porque los intestinos son un parte de el intestino y el epitelio intestinal es un tipo de epitelio (Figura 2). De manera análoga a los alfabetos nucleicos y de aminoácidos y las matrices de distancia utilizadas en el algoritmo BLAST, los términos de ontología y sus relaciones entre sí se pueden utilizar para agrupar y comparar datos de expresión genética y fenotípica y se pueden utilizar para el análisis de fenotipos de especies cruzadas.

Este ejemplo muestra las relaciones del término "epitelio intestinal" con otras entidades anatómicas dentro de la ontología ZFA. Las flechas grises con una "i" indican una es un relación, y las flechas azules con una "p" indican una parte de relación. Los números indican IC del nodo, que es el logaritmo negativo de la probabilidad de que esa descripción se use para anotar un gen, alelo o genotipo (denominado colectivamente una característica). A medida que los términos se vuelven más generales, leyendo de abajo hacia arriba, tienen una puntuación IC más baja porque los términos más generales subsumen las anotaciones hechas a términos más específicos.

Un fenotipo se puede definir como el resultado de un genotipo dado en un entorno particular (para una revisión, ver [9]) y se puede describir utilizando ontologías para facilitar las comparaciones. Se puede registrar una descripción de un carácter fenotípico individual usando un método bipartito "EQ" (Entidad + Calidad), donde una entidad portadora (como una parte anatómica, proceso celular, etc.) se describe por una cualidad (como pequeño, aumento de temperatura, redondo, longitud reducida, etc.). El método EQ es suficiente para la descripción de muchos fenotipos, siempre que las ontologías de origen sean lo suficientemente ricas. Los términos de entidad pueden ser estructuras de cualquier ontología anatómica, o procesos biológicos, componentes celulares o funciones moleculares de la Ontología Genética (GO) [10]. Los términos de calidad provienen de la Ontología de Fenotipo y Rasgo (PATO), que está diseñada para ser utilizada en combinación con ontologías anatómicas específicas de especie u otras ontologías de entidades entre especies (ver, por ejemplo, [11] - [13]). Por ejemplo, un Drosophila El fenotipo "enrojecimiento de los ojos" podría describirse utilizando los términos "rojo" de PATO y "ojo" de la ontología Fly Anatomy (FBbt) en la declaración EQ EQ = FBbt: ojo + PATO: rojo. El método EQ se ha ampliado para incluir cualidades relacionadas y entidades adicionales, y con un enfoque posterior a la composición para describir entidades más granulares. Muchos MOD ya utilizan ontologías de anatomía específicas de la comunidad, además de GO, para la anotación de la expresión génica y / o datos de fenotipo [14], [15], y estos métodos se describen en detalle en otra parte [16], [17]. El razonamiento ontológico también se puede aplicar a las descripciones de EQ, al igual que para una sola ontología, porque también representan nodos en una estructura gráfica. Por ejemplo, consultas para posición del cartílago craneal debe devolver los genotipos que tienen el fenotipo ZFA: ceratohyal + PATO: mislocalised_ventrally. Del mismo modo, las consultas de superestructuras del cartílago ceratohial, como el cartílago craneal, también deberían devolver estos genotipos (Figura 3).

Se muestra la relación entre una descripción de EQ y sus ontologías contribuyentes (paneles laterales). Las entidades son de la ontología ZFA en azul y las cualidades de PATO en verde. Se muestra la jerarquía completa de EQ (todas las posibles combinaciones de EQ) entre ZFA: cartílago ceratohial + PATO: mal ubicado ventralmente y ZFA: cartílago craneal + PATO: posición, lo que ilustra la subsunción a través de los nodos del gráfico compuestos por múltiples términos de ontología. Las relaciones son como se indica en la Figura 2. Al igual que con la ontología única en la Figura 2, las puntuaciones de CI se pueden calcular para los nodos de EQ, donde los nodos de EQ más generales tienen una puntuación más baja que los EQ más específicos.

Cualquier descripción de EQ se puede combinar con otras descripciones y datos de EQ, como identificadores de genotipo, entorno y etapa de otras bases de datos u ontologías, para expresar completamente el estado fenotípico de un individuo o grupo. Por ejemplo, se podría registrar el fenotipo del pez cebra EQ = ZFA: pliegue de la aleta mediana + PATO: atenuar en la etapa embrionaria ZFS: 26-somita con genotipo fbn2b gw1 / gw1 (AB) (definido en Zebrafish Information Network, ZFIN). Con este método, los fenotipos se pueden registrar usando múltiples ontologías de una manera altamente expresiva y finamente detallada mientras se mantiene la lógica y la computabilidad correctas.

Las herramientas computacionales existentes son inadecuadas para almacenar y analizar estos datos de anotación de fenotipo basados ​​en ontología de una manera genérica y neutral en cuanto a especies. En particular, hay una falta de herramientas para las comparaciones entre especies necesarias para identificar genes candidatos y modelos animales de enfermedad. Se han desarrollado y probado muchos algoritmos existentes utilizando el GO para medir la similitud semántica de las anotaciones y proporcionar un buen punto de partida para el análisis (por ejemplo, consulte [18] - [21]). No estaba claro qué tan bien funcionarían estos algoritmos para analizar conjuntos de datos utilizando una combinación de ontologías. Además, las comparaciones entre especies no serían posibles porque no había vínculos entre las diversas ontologías anatómicas. Schlicker y Albrecht [22] sugieren un enfoque basado en el contenido de información (IC) para analizar los perfiles fenotípicos hechos con múltiples ontologías, aunque solo probaron sus resultados con anotaciones hechas con el GO de especie neutral. Su herramienta FunSimMat requiere una lista específica de proteínas para comparar y, por lo tanto, no proporciona un medio para buscar de manera exhaustiva genes fenotípicamente similares. PhenomicDB [23] es un recurso de especies cruzadas que ha reunido anotaciones de diversos recursos y fenotipos de texto libre extraídos para proporcionar "fenoclusters" de genes relacionados con el fenotipo. Sin embargo, su análisis no hizo uso de las relaciones en las ontologías fuente. Aunque las proteínas que interactúan conocidas se agruparon juntas, señalan que sus "fenoclusters" resultantes tendían a ser específicos de la especie debido en gran parte a las terminologías específicas de la comunidad que se usaron en las anotaciones, y no necesariamente debido a la biología subyacente. Estos métodos existentes eran insuficientes para nuestras necesidades porque estaban basados ​​en texto libre o usaban un conjunto limitado de ontologías para la anotación, y porque carecían de un marco para integrar y comparar entidades anatómicas entre organismos. También carecían de métricas para determinar la importancia en los cálculos de similitud. Por último, aparte del aspecto de la consulta, ninguno incluyó un método de especie neutral para registrar fenotipos de novo.

Al anotar fenotipos utilizando este método de EQ, junto con las herramientas de análisis computacional adecuadas, tenemos una oportunidad única de estandarizar y consultar datos fenotípicos de una manera rigurosa y esclarecedora. En este estudio, probamos la hipótesis de que la anotación EQ de los fenotipos de enfermedades facilitará el descubrimiento de nuevas relaciones genotipo-fenotipo dentro y entre especies. Hemos anotado con EQ 11 genes de enfermedades humanas de descripciones OMIM de texto libre con el software Phenote [24] para proporcionar un conjunto de datos para la comparación entre especies. Comparamos estas anotaciones con las anotaciones de los ortólogos de ratón y pez cebra, que requirieron el desarrollo de una ontología unificadora de especies cruzadas (UBERON) para proporcionar un puente entre las diferentes ontologías de anatomía. También desarrollamos métricas nuevas y ampliadas para medir la similitud fenotípica entre genes. Evaluamos su rendimiento relativo mediante el análisis de vías de señalización conocidas e interacciones genéticas y demostramos que estos datos pueden consultarse y compararse por fenotipo. solo para identificar similitudes biológicamente significativas. Además, estas anotaciones proporcionan un recurso para una mejor comprensión de los fenotipos de enfermedades existentes. Concluimos que este método puede facilitar el descubrimiento de nuevas asociaciones genotipo-fenotipo dentro y entre especies.


Discusión

Trabajo relacionado

Las asociaciones entre fenotipos, signos y síntomas por un lado y enfermedades por el otro se han utilizado para comprender la naturaleza modular y la estructura de red de las enfermedades humanas y las indicaciones de fármacos 12,26,27. En trabajos anteriores, la minería de texto basada en etiquetas de enfermedades y etiquetas de fenotipos (signos y síntomas) 27, o los identificadores del Tesauro de Medical Subject Headings (MeSH) 28 que están asociados con citas de artículos en Pubmed, se han utilizado para identificar asociaciones entre enfermedad y fenotipo. En general, las asociaciones enfermedad-fenotipo resultantes se han evaluado en función de su capacidad para revelar o explicar grupos de enfermedades percibidos 12, o agrupar enfermedades con etiología común conocida 26,27, basándose en la comparación del estándar de oro y la agrupación de objetivos farmacológicos comunes 27 .

Una pregunta fundamental que no ha sido respondida por ninguno de los enfoques anteriores ha sido qué tipo de evidencia o apoyo se requeriría para considerar una asociación de enfermedad-fenotipo como “correcta”. Este es un desafío fundamental en cualquier tipo de caracterización de la enfermedad basada en el fenotipo o los síntomas. La mayoría de las enfermedades tienen signos y síntomas cardinales que siempre estarán asociados con una enfermedad. Sin embargo, una gran cantidad de signos y síntomas de una enfermedad no siempre están presentes, sino que ocurren con frecuencia variable e incluso las manifestaciones muy raras pueden resultar de gran utilidad en el contexto del diagnóstico diferencial. En nuestra evaluación, proporcionamos una medida cuantificable a través de la comparación con datos experimentales que se pueden utilizar para determinar y maximizar el rendimiento de nuestras asociaciones fenotipo-enfermedad extraídas del texto en la predicción de genes candidatos para enfermedades humanas. Por lo tanto, proporcionamos una medida objetiva que se puede utilizar para determinar qué tan aplicable es un conjunto de asociaciones de enfermedad-fenotipo a una cuestión científica particular, en nuestro caso, la identificación de genes candidatos para enfermedades de origen genético. Si bien diferentes aplicaciones pueden requerir diferentes conjuntos de fenotipos asociados con una enfermedad, creemos que esta estrategia de evaluación también proporciona una indicación de la utilidad potencial de estos fenotipos extraídos del texto para futuras investigaciones científicas, es decir, cómo se pueden utilizar estas asociaciones de enfermedad y fenotipos. para apoyar estudios adicionales sobre los mecanismos subyacentes a las enfermedades.

Una limitación principal de nuestra evaluación es que se limita a las enfermedades genéticas en OMIM, mientras que la mayoría de las enfermedades en el DO son complejas, comunes o adquiridas a través de los efectos del medio ambiente o agentes infecciosos. Otros enfoques, como la agrupación de enfermedades en función de la similitud y la identificación de agrupaciones significativas y bien conocidas 12,26, o la comparación con indicaciones de fármacos conocidas 27, pueden evaluar la validez biológica de las asociaciones generadas, pero a menudo no pueden cuantificar los resultados.

Nuevos genes candidatos basados ​​en fenotipos extraídos del texto

A través de nuestro enfoque, no solo obtenemos la caracterización fenotípica de enfermedades comunes e infecciosas, sino que también hemos obtenido nuevas asociaciones fenotípicas para enfermedades de base genética en OMIM para las que actualmente no existe una caracterización fenotípica ni en las anotaciones HPO ni como una sinopsis clínica en OMIM. .

La base de datos HPO contiene anotaciones fenotípicas para 9.286 entradas OMIM (genes y enfermedades). A través de los mapeos DO-OMIM y nuestro método, obtenemos fenotipos para 1.683 entradas OMIM, 115 de las cuales no tienen anotaciones fenotípicas en HPO o una sinopsis clínica asociada en OMIM. Por ejemplo, Halo Nevi (Leukoderma adquisitum centrifugum de Sutton, OMIM: 234300), una afección dermatológica en la que los melanocitos son destruidos por los linfocitos T citotóxicos CD8 + 29, no presenta actualmente sinposis clínica en OMIM y, en consecuencia, no tiene fenotipos asociados en la base de datos HPO, mientras que identificamos varios fenotipos, entre ellos despigmentación variable (MP: 0010016), morfología anormal de los melanocitos (MP: 0002877) y Vitiligo (HP: 0001045) como fenotipos, todos los cuales se sabe que están asociados con halo nevi 30.

Para estas 115 enfermedades, se conocen 167 modelos de enfermedades en el ratón. Podemos priorizar el modelo correcto con ROCAUC de 0,926 ± 0,049 para este conjunto de 115 enfermedades (Fig. 7).

Curva ROC para la recuperación clasificada de modelos de enfermedad MGI por similitud semántica con fenotipos de enfermedades extraídas del texto sin sinopsis clínica en OMIM (ROCAUC: 0,926 ± 0,049).

Explorando las similitudes entre enfermedades

La red de similitud enfermedad-enfermedad (Fig. 6) muestra relaciones de similitud fenotípica entre enfermedades comunes, genéticas, infecciosas y ambientales. Cada nodo de la red representa una enfermedad y está coloreado de acuerdo con su correspondiente clase de enfermedad de nivel superior en OD. Con base en esta red de similitudes, observamos que las enfermedades de diferentes sistemas y procesos patológicos pueden separarse sobre la base de la relación fenotípica. DO clasifica tanto por sitio o sistema anatómico como por patología general y para cada una de las clasificaciones, a pesar de estos diferentes criterios, encontramos que las enfermedades dentro de una categoría suelen estar muy próximas entre sí sobre la base de la relación fenotípica únicamente. Esto está respaldado por nuestro análisis de conglomerados, en el que encontramos una fuerte similitud entre los conglomerados producidos en función de la similitud fenotípica y las distinciones de alto nivel realizadas por DO (índice Rand 0,828).

También podemos identificar similitudes entre grupos de enfermedades relacionadas etiológicamente que muestran fenotipos superpuestos. Un ejemplo de estos grupos son las enfermedades por almacenamiento lisosómico. Todas las células contienen lisosomas que contienen hidrolasas ácidas solubles cuya función es procesar una amplia gama de sustratos. El incumplimiento de esta función da como resultado la acumulación lisosómica de proteínas, lípidos y carbohidratos no metabolizados, que son la principal causa de enfermedad a través de sus efectos sobre el metabolismo celular. Las vías por las que estas acumulaciones ejercen sus efectos patológicos apenas se están entendiendo, pero muestran una amplia gama de síntomas de enfermedad con afectación neurológica central y una amplia gama de fenotipos periféricos con manifestación individual muy variable 31. La Figura 8 muestra las relaciones fenotípicas entre las esfingolipidosis, que reúne las enfermedades de Niemann-Pick, Gaucher y Tay-Sachs junto con las leucodistrofias, la leucodistrofia metacromática y la enfermedad de Krabbe, el síndrome del histocito azul marino y la enfermedad de Farber. Curiosamente, encontramos dos formas de atrofia muscular espinal en la vecindad fenotípica de estas enfermedades que generalmente no se considera que sean causadas por un trastorno de almacenamiento lisosómico. Sin embargo, recientemente se ha informado que en FIG4-individuos deficientes (enfermedad de Charcot-Marie-Tooth tipo 4J), que presentan degeneración de la motoneurona espinal, debilidad y atrofia muscular, neuronas y células gliales que acumulan lípidos y proteínas, que recuerdan a la mucolipidosis de Niemann-Pick, Tay-Sachs y tipo IV. Este patrón de acumulación se asocia con degeneración neuronal y desmielinización de nervios periféricos en las gangliosidosis GM2 32,33 y probablemente sea el caso de la neuropatía en la enfermedad de Charcot-Marie-Tooth tipo 4J. Por tanto, la inclusión de las atrofias musculares espinales en la vecindad fenotípica de la esfingolipidosis probablemente se deba al impacto de los trastornos de almacenamiento lisosómico del sistema motor que se manifiestan como atrofia muscular neurogénica. Esta sorprendente similitud fenotípica es similar en tipo a la observada en las ciliopatías 34, donde una variedad de fenotipos relacionados reflejan lesiones en una colección de moléculas involucradas en diferentes aspectos del ensamblaje o función del cilio, que, junto con otros ejemplos, conducen a Oti y Brunner 35. postular la existencia de módulos funcionales comunes subyacentes a los perfiles fenotípicos de las enfermedades.

Izquierda: la subred alrededor de la enfermedad de Tay-Sachs, que muestra una variedad de enfermedades de almacenamiento lisosómico.Derecha: Dermatológicos y otros trastornos fenotípicamente similares a Alopecia areata.

Las enfermedades tegumentarias (Fig. 8) también forman un grupo de enfermedades con alta similitud fenotípica y con una clara demarcación entre diferentes tipos de enfermedades. Por ejemplo, la alopecia, el efluvio telógeno, la alopecia areata, la alopecia universalis y la mucinosis folicular, todas las cuales son enfermedades que involucran a los folículos pilosos y causan la caída del cabello, se encuentran en estrecha proximidad fenotípica entre sí. Curiosamente, esta región contiene tricotilomanía, la depilación obsesiva del cabello, y el síndrome de Cronkhite-Canada, un síndrome esporádico recientemente reconocido que comprende la poliposis hamartomatosa gastrointestinal y la tríada dermatológica de alopecia, onicodistrofia e hiperpigmentación 36. La inclusión de queratosis folicular caracterizada por hiperqueratosis folicular y alopecia cicatricial progresiva en este vecindario fenotípico muestra de manera similar la riqueza de los datos fenotípicos recopilados por la minería de textos.

Como era de esperar, también encontramos (ver Tabla 1) que las enfermedades clasificadas por sistema o sitio anatómico (por ejemplo, enfermedades del sistema reproductivo, enfermedades respiratorias) exhiben una mayor homogeneidad fenotípica que las enfermedades clasificadas por su mecanismo patológico (por ejemplo, enfermedades infecciosas, enfermedades genéticas). En particular, observamos que categorías de enfermedades definidas de manera estricta, como enfermedad del sistema reproductivo, enfermedad del sistema respiratorio o enfermedad del sistema urinario exhiben una alta homogeneidad fenotípica, categorías amplias como todas las enfermedades infecciosas o enfermedades de proliferación celular, por otro lado, son relativamente heterogéneas. Sin embargo, todas las categorías de alto nivel de DO se agrupan significativamente en función de su similitud fenotípica y las enfermedades que caen en categorías de DO más específicas (como las enfermedades de almacenamiento lisosómico) también se agrupan de cerca, lo que demuestra que no solo las enfermedades mendelianas forman módulos de enfermedad 12,35, sino que también enfermedades comunes.


Conclusiones

Los fenólogos reflejan la modularidad innata de los sistemas genéticos e identifican la reutilización adaptativa de esos sistemas, creando un marco rico para comparar fenotipos mutacionales con potencial para encontrar modelos no obvios de enfermedades humanas. Las pruebas con validación cruzada indican que los fenólogos muestran utilidad para aproximadamente entre un tercio y la mitad de las enfermedades genéticas humanas probadas (Fig. S2). Dada una fenología para una enfermedad humana, cualquier enfoque para asociar más genes con el rasgo del organismo modelo (por ejemplo, un cribado genético) sugerirá nuevos genes candidatos para enfermedades humanas adicionales. Además de asociar genes únicos con enfermedades modeladas, estos modelos pueden proporcionar comprensión mecanicista en organismos modelo simplificados para comprender aspectos de enfermedades humanas más complejas.

Por lo tanto, Phenologs une las definiciones moleculares de genes homólogos y ortólogos (34) con las definiciones clásicas de estructuras homólogas de Owen (35) y Darwin (36), derivadas de consideraciones tanto de la herencia genética como de los rasgos / estructuras afectados por la perturbación de los genes, conceptos que caen dentro del campo general de la biología evolutiva del desarrollo (evo-devo) (37). Los sistemas de genes conservados revelados por los fenólogos planta-vertebrado ilustran una homología más antigua que la "homología profunda" de los metazoos que es actualmente un foco de la biología del desarrollo evolutivo (26). Estos fenólogos deberían llamar la atención sobre el conjunto de herramientas moleculares potencialmente extenso dentro del último ancestro eucariota común, que facilitó la evolución paralela de organismos multicelulares complejos. Este enfoque comparativo proporciona una visión simultáneamente más profunda y más amplia de la evolución de la vida y señala el camino hacia una mayor síntesis de la biología del desarrollo evolutivo y la medicina moderna.


los Saccharomyces Genome Database (SGD http://www.yeastgenome.org) es una base de datos curada por expertos de información funcional derivada de la literatura para la levadura en ciernes del organismo modelo, Saccharomyces cerevisiae. SGD se esfuerza constantemente por sinergizar nuevos tipos de datos experimentales y predicciones bioinformáticas con los datos existentes, y organizarlos en un recurso de información completo y actualizado. La misión principal de SGD es facilitar la investigación sobre la biología de la levadura y proporcionar esta gran cantidad de información para avanzar, de muchas formas, en la investigación de otros organismos, incluso aquellos tan distantes evolutivamente como los humanos. Para construir un puente de este tipo entre los reinos biológicos, SGD está curando datos sobre la complementación levadura-humano, en la que un gen humano puede reemplazar con éxito la función de un gen de levadura, y / o viceversa. Estos datos se seleccionan manualmente de la literatura publicada, están disponibles para su descarga y se incorporan en una variedad de herramientas de análisis proporcionadas por SGD.

los Saccharomyces Genome Database (SGD http://www.yeastgenome.org) es un recurso en línea disponible de forma gratuita que sirve a la comunidad de investigación mediante la curación de conocimientos sobre genes y proteínas de la levadura en ciernes del organismo modelo, Saccharomyces cerevisiae. La levadura había sido objeto de estudios en los campos de la genética, la bioquímica y la biología celular durante décadas antes de convertirse en la primera eucariota con un genoma completamente secuenciado (1). La disponibilidad de la secuencia del genoma, respaldada por toda la información recopilada previamente y ayudada por el desarrollo de un poderoso arsenal de técnicas de biología molecular, ha llevado a la acumulación de una enorme cantidad de conocimiento, haciendo de la levadura, posiblemente, una de las más caracterizadas. organismos modelo. The constant development of new techniques that are validated and refined on yeast promises that this status will continue into the future.

The mission of SGD is to collect gene- and protein-related information from all publicly available sources. Research articles in scientific journals, expertly curated by SGD biocurators, remain the primary source of data. Large-scale datasets are also collected both manually and with automated scripts from publications, and also from repositories such as the Gene Expression Omnibus (GEO https://www.ncbi.nlm.nih.gov/geo) and Sequence Read Archive (SRA https://www.ncbi.nlm.nih.gov/sra). The goal is to extract, validate, and organize the data coming from various sources into a uniform, comprehensive and up-to-date compendium that researchers can rely on in their work.

The wealth of information provided by SGD can also be leveraged outside of the research into yeast biology. Understanding the functions of a yeast gene may shed light on functions of an orthologous gene in another organism, even one as evolutionary distant as humans. It is often assumed that over the course of evolution, orthologous genes from different organisms retain at least some of their characteristics. Even though this ‘ortholog-function conjecture’ has many known exceptions, it remains a valuable and widely used method for predicting gene functions based on sequence similarity ( 2). Yeast and humans are separated by a billion years of evolution ( 3), yet there are thousands of recognizable orthologs between the two species ( 4). Moreover, there are hundreds of genes from one species that can functionally replace (complement) their orthologs in the other ( 5). Such functional complementation between genes from evolutionarily distant species indicates a significant conservation of function, opening up endless research possibilities to explore. A researcher can, for example, try to identify yeast metabolic pathways, regulatory circuits, or protein complexes the gene of interest is involved in, as well as mutant phenotypes and their potential disease links, and then start looking for similar connections in humans. Moreover, a human gene that functions in yeast cells gives access to all the power of yeast genetics that can be readily utilized. For example, by establishing functional assays, researchers can experimentally dissect functional conservation to study the impact of human disease-associated variants on protein function ( 6).


Human disease and associated phenotype database? - biología

MGD is updated on a weekly basis by biologists on our curatorial staff who scan the current scientific literature, extract relevant data, and enter it in MGD. Increasingly, MGD acquires data through large scale electronic transfer. Such data include sequence data from GenBank, gene models from NCBI, Ensembl, VEGA, mutant alleles from ENU-mutagenesis groups and the International Knockout Mouse Consortium (IKMC). The data interface is intended to be flexible and comprehensive so that each view of particular records in MGD provides links to any related data throughout MGD and, where possible, to other databases on the Internet.

  • Gene, DNA marker, QTL and Cytogenetic marker descriptions
  • Mouse genetic phenotypes, genetic interrelationships, and polymorphic loci
  • Human disease ontology data (DO)
  • Polymorphic loci related to specified strains
  • SNPs and other sequence polymorphisms
  • Vertebrate homology data
  • Sequence data
  • Molecular probes and clones (probes, clones, primers and YACs)
  • Genetic and physical mapping data
  • Information on inbred strains (M. Festing's listing)
  • References supporting all data in MGD

Data Links to External Databases

MGD provides links to relevant information in external databases wherever possible.

Through. MGD links to.
MarkersEC, Ensembl, Entrez, InterPro, NCBI, PDB, UniGene, VEGA
PhenotypesOn-line Mendelian Inheritance in Man (OMIM) for human disease data
SNPs and sequence polymorphisms dbSNP
Homologies Entrez, HGNC, HomoloGene, NCBI, Ensembl Gene Tree, Uniprot, VEGA, VISTA
SequencesGenBank, RefSeq, Uni-PROT, and TrEMBL mouse gene indices
Molecular probes and clonesGenBank, EMBL, DDBJ, IMAGE and RIKEN
ReferenciasPubMed

Genes and Markers

MGD contains information on mouse genes, DNA segments, cytogenetic markers and QTLs (see Genes and Markers). Each record may include the marker symbol, name, other names or symbols and synonyms, nomenclature history, alleles, STSs, chromosomal assignment, centimorgan location, cytogenetic band, EC number (for enzymes), phenotypic classifications, human disease data, Gene Ontology (GO) terms, MGD accession IDs and supporting references. See Interpreting a Genes and Markers Summary and Interpreting Gene Details for more information about the content of the display of a marker record as it appears in the query results.

Information on alleles , formerly embedded in phenotype descriptions, is stored as a separate data set (see Phenotypic Alleles). Links to alleles are provided in gene detail records. In addition, there is an Phenotypes, Alleles, and Disease Models Query Form for direct queries against the allele data set. See Details for the content of an allele record as displayed in query results.

Phenotypic Alleles

MGD contains information on mutant alleles, transgenes, QTLs, strain characteristics, phenotype vocabularies, human disease models, and comparative phenotypes. Integrated access to phenotype and disease model data is accessible via four query forms (Genes and Markers, Phenotypes and Alleles, Human&mdashMouse: Disease Connection, and Batch Query). These forms provide genetic, phenotypic, and computational approaches to displaying phenotypic variation sources (single-gene, genetic mutations, QTLs, strains), as well as data on human disease correlation, and mouse models. The Human Disease Ontology (DO) Browser enables you to browse and search diseases, conditions, and syndromes directly. Phenotypic allele summary and detail reports provide detailed information about the content of phenotype records including observed phenotypes in mouse and genetic background. The Human Disease and Mouse Model Detail page lists homologous mouse and human markers where mutations in one or both species have been associated with phenotypes characteristic of this disease as well as any mouse models.

Sequence Data

  • Vast amounts of sequence data are integrated with the biological information in MGD. These include mouse sequences from GenBank, RefSeq, and .
  • MGD contains sequence attributes such as length and provider data about the clones the sequences were derived from and the genes the sequences have been associated to. Because of our curated associations between mouse markers and sequences, you can search using nomenclature, map position, function (GO annotation, InterPro domain), expression (tissue and developmental stage), and phenotypes of mutant alleles.
  • Source information about the clones that the sequences are derived from, such as strain, tissue, or library, is carefully translated into controlled vocabularies (see Vocabulary Browsers). This adds enormous power to sequence queries, since authors often use multiple terms to specify a strain or tissue.

Vocabulary Browsers

  • The MGD Vocabulary Browsers provide access to restricted sets of defined terms representing complex information.
  • These vocabularies (known as DAGs o directed acyclic graphs) have a tree (or hierarchical) structure: terms are organized primarily by their relationship to other terms.
  • The MGD Vocabulary Browsers currently available are:

Browser NameUse this browser to search for .
GO (Gene Ontology) Browser GO term details and relationships.
Links to genes associated with your term or with any sub terms.
Mouse Developmental Anatomy Browser Anatomical structures.
Links to associated expression results.
Disease Ontology (DO) BrowserHuman disease terms.
Links to detail pages containing genotypes annotated with these terms.
Links to Disease Model web pages.
Mammalian Phenotype Browser Mammalian phenotype terms.
Term details and relationships among terms.
Links to genotypes annotated with each term or any sub terms.
Human Phenotype Browser Human phenotype terms.
Term details and relationships among terms.
Links to human diseases and the high-level human phenotype terms associated with the term.

SNP Data

  • MGD provides comprehensive information about reference SNPs including the reference flanking sequence, assays that comprise the SNP, gene/marker associations with their corresponding function class annotations, and links to popular gene browsers including Mouse Genome Browser and its transcript, gene model, and MGD-curated phenotype and allele tracks.
  • The Mouse SNP Query Form lets you search for RefSNPs by strains, strain comparisons, RefSNP attributes, map position, marker range, or associated genes.

Molecular Probes and Clones

Probes, clones, primers, antibodies, etc. associated with MGI data for a gene or genome feature are available via a Molecular reagents link on Gene (or genome feature) Detail pages or from a link on References -- Query Results Detail pages to Molecular Probes and Clones.

Information on genetic polymorphisms is extracted from probe/clone records in MGD.

Vertebrate Homology

MGD contains homology information for mouse, human, rat, cattle and other vertebrate organisms.

MGI provides a curated set of vertebrate homologs for the research community. MGI focuses on integration of homology sets from sequenced vertebrate genomes (e.g., human, rat, dog, chimp). MGI loads sequence based vertebrate homology assertions from NCBI HomoloGene. HomoloGene programmatically detects homologs among the genome features of several completely sequenced eukaryotic genomes. In addition, we continue to work with the research community to carefully curate gene family sets, usually at the instigation of the research community.

Homologous genes associated with a mouse gene or genome feature are available from via links from the Vertebrate Homology section a Detail page for a gene/genome feature. Performing a Quick Search using a non-mouse gene or sequence accession ID returns a link to the Vertebrate Homology Class page.

Mapping Data

MGD contains genetic mapping and linkage data, including haplotype data for linkage crosses, en el lugar hybridization data, deletion mapping information, translocation breakpoint mapping, somatic cell hybrids, concordance tables, congenic strains information, and physical mapping information.

Centimorgan positions for genes and markers in MGI are based on linear interpolation using the standard genetic map described in Cox et al. (2009) (PMID).

"Recombinant Congenic Strains - A New Tool for Analyzing Genetic Traits Determined by More Than One Gene," Immunogenetics 24: 416-422, 1986.

DNA Mapping Panel Data Sets

    Copeland-Jenkins:(C57BL/6J x M. spretus)F1 x C57BL/6J
    JAX Mouse Mutant Resource BCB: (C57BL/6J x CAST/Ei)F1 x C57BL/6J
    JAX Mouse Mutant Resource BSS: (C57BL/6J x SPRET/Ei)F1 x SPRET/Ei
    Kozak FvC58: (NFS/N x M. spretus)F1 x C58/J Kozak FvSpr: (NFS/N x M. spretus)F1 x M. spretus
    Kozak Skive: (NFS/N or C58/J x M. m. musculus)F1 x M. m. musculus
    Seldin: (C3H/HeJ-Fasl<gld> x M. spretus)F1 x C3H/HeJ-Fasl<gld>
    UCLA (BSB): (C57BL/6J x M. spretus)F1 x C57BL/6J

DNA Mapping Panel data may appear in tabular format, where each column represents a single offspring of the cross, and each row indicates, for each locus, which allele is present in each of the offspring. The order of rows is determined by linkage on the chromosome, and the locus nearest the centromere appears at the top of the display. Centimorgan locations for loci in the cross are determined by the provider of the cross. ->

Graphical Map Displays

Mapas genéticos

Where available, gene/genome feature detail pages provide a link to a Detailed Genetic Map that shows all markers within one cM of the marker.


Cite this

  • APA
  • Autor
  • BIBTEX
  • Harvard
  • Estándar
  • RIS
  • Vancouver

The Human Phenotype Ontology project : linking molecular biology and disease through phenotype data. / Köhler, Sebastian Doelken, Sandra C Mungall, Christopher J Bauer, Sebastian Firth, Helen V Bailleul-Forestier, Isabelle Black, Graeme C M Brown, Danielle L Brudno, Michael Campbell, Jennifer Fitzpatrick, David R Eppig, Janan T Jackson, Andrew P Freson, Kathleen Girdea, Marta Helbig, Ingo Hurst, Jane A Jähn, Johanna Jackson, Laird G Kelly, Anne M Ledbetter, David H Mansour, Sahar Martin, Christa L Moss, Celia Mumford, Andrew Ouwehand, Willem H Park, Soo-Mi Riggs, Erin Rooney Scott, Richard H Sisodiya, Sanjay Vooren, Steven Van Wapner, Ronald J Wilkie, Andrew O M Wright, Caroline F Vulto-van Silfhout, Anneke T Leeuw, Nicole de de Vries, Bert B A Washingthon, Nicole L Smith, Cynthia L Westerfield, Monte Schofield, Paul Ruef, Barbara J Gkoutos, Georgios V Haendel, Melissa Smedley, Damian Lewis, Suzanna E Robinson, Peter N.


Afiliaciones

Raymond G. Perelman Center for Cellular and Molecular Therapeutics, Children’s Hospital of Philadelphia, Philadelphia, PA, 19104, USA

James M. Havrilla, Xiangchen Dong & Kai Wang

Department of Biomedical Informatics, Columbia University Irving Medical Center, New York, NY, 10032, USA

Department of Pathology and Laboratory Medicine, University of Pennsylvania Perelman School of Medicine, Philadelphia, PA, 19104, USA

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

Contribuciones

JH and KW conceived and designed the project. XD provided help with the initial site design. CL helped JH integrate Doc2HPO and Elasticsearch. JH wrote the draft manuscript and created all the figures and case studies. JH designed the site and algorithms and gathered resources. Todos los autores leyeron y aprobaron el manuscrito final.

Autor correspondiente