Información

Validación biológica de la interacción gen-gen determinada computacionalmente

Validación biológica de la interacción gen-gen determinada computacionalmente


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

¿Cómo se puede validar biológicamente una interacción genética de tres vías determinada computacionalmente? ¿Qué tipo de ensayos o pruebas se deben realizar utilizando modelos basados ​​en células / tejidos y / o ratones para demostrar que los tres genes pueden tener un efecto conjunto?

Digamos que es más fácil identificar y validar las interacciones de genes que involucran factores de transcripción como FOXM1. Considere una interacción genética de tres vías en el cáncer de mama, FOXM1-BUB1-CHEK1, que se puede probar para detectar interacciones directas a través de Western blot y ensayos informadores. Pero tales interacciones pueden ser interesantes o no, dado el hecho de que los factores de transcripción pueden estar afectando los niveles de expresión de otros genes. La mayoría de los estudios computacionales se centran en identificar interacciones genéticas basadas en la coexpresión o co-ocurrencia. Existe literatura sobre la identificación computacional Y / O de las relaciones entre genes que interactúan. No tengo un ejemplo específico que proporcionar pero, por el bien del argumento, si sospecháramos que tres genes están interactuando de una manera similar a Y, ¿cómo validamos biológicamente este hallazgo? También agradecería que hiciera comentarios sobre la utilidad de tales hallazgos, en particular, con respecto al diseño de terapias combinadas más eficaces contra una enfermedad ".

Gracias


Aguanta, esta respuesta crecerá con el tiempo.

En la parte superior de mi cabeza, creo que podríamos escribir un libro pequeño (o un artículo de revisión muy largo) para cubrir tanto la profundidad como la amplitud de su (s) pregunta (s).

Primero, necesitamos definir y / o aclarar algunos términos. El término Interacción probablemente signifique cosas diferentes para diferentes autores en diferentes momentos. De hecho, un autor puede usar este término para significar diferentes cosas en diferentes momentos. Así que me gustaría proponer que hagamos algunas distinciones. Por ejemplo, haría una distinción entre una interacción genética entre dos genes (que normalmente se detecta en uno de los organismos modelo, usando una prueba genética entre dos alelos de pérdida de función) versus una interacción proteína-proteína (a veces llamada PPI) entre las dos proteínas codificadas por esos mismos dos genes. Los IBP se han detectado clásicamente por co-sedimentación en un gradiente de densidad de sacarosa, o por co-inmunoprecipitación (co-IP), o por cromatografía de afinidad. Más recientemente, los IBP se han detectado mediante espectrometría de masas (MS) (a veces junto con cromatografía de afinidad). Los IBP se han inferido mediante el uso de ensayos proxy, como el ensayo de dos híbridos de levadura (Y2H).

Los IBP también pueden detectarse mediante ensayos de resonancia de plasmón superficial (SPR), y bien puede haber otros.

Entonces, cuando dices interacciones gen-gen, ¿a qué te refieres exactamente?


Intentaré cubrir todos los escenarios que pueda imaginar:

  • Interacción genética (= coexpresión):
    Este es probablemente el más fácil de validar (por ejemplo, mediante western blot como mencionaste) pero el más difícil de interpretar. Sin un análisis más detallado de las funciones de los genes, no se tiene idea del efecto que podría tener su actividad concurrente. Si los genes son enzimas metabólicas o forman parte de una cascada de señales, sería una buena idea comprobar sus papeles individuales en estas vías, pero también comprobar los posibles efectos sinérgicos. En principio, lo mismo es cierto también para los factores de transcripción, pero en ese caso, las 'vías' a menudo no se comprenden igualmente bien, en su lugar, opte por:

  • Interacción genética (= en los mismos objetivos):
    En el caso de factores de transcripción (pero también, por ejemplo, quinasas / fosfatasas) que se coexpresan, puede ser razonable que también afecten a los mismos objetivos. Aquí debe volver a comparar ambos efectos individuales (lista de genes regulados hacia arriba / hacia abajo) con efectos sinérgicos (p. Ej., El genA previene la función normal del gen B, el gen C aumenta la función del gen B de forma múltiple). Para el análisis del factor de transcripción, generalmente debe analizar la expresión a nivel de ARNm (a través de qPCR) ya que el nivel de proteína introduce (al menos) otra capa de regulación.

  • Interacciones de protrein:
    Una buena forma de demostrarlo de forma experimental es mediante el uso de experimentos de co-IP (inmunoprecipitación): se utiliza un anticuerpo para retener una proteína específica y todos sus compañeros de unión (directos). Luego muestras la presencia de los socios que te interesan con un western blot.
    Una advertencia para este método con interacciones de 3 vías (o de orden superior) es que, dependiendo de la fuerza de unión de las proteínas, puede ser muy difícil evitar que se co-purifique cualquier cosa que no sean los socios de interacción directa. Si desea demostrar absolutamente que dos proteínas interactúan directamente, un experimento de levadura-2-híbrido (y2h) es más adecuado.


Otros han cubierto mucho más terreno, pero incluiré un par de enfoques desde el lado de la espectroscopia, ya que los he estado analizando recientemente.

El transer de energía resonante bioluminiscente (BRET) muestra si las proteínas se unen in vivo: "BRET mide la interacción de proteínas utilizando un donante bioluminiscente fusionado a una proteína de interés y un receptor fluorescente fusionado a su pareja de unión. El donante bioluminiscente, generalmente una luciferasa, no no excita el fluoróforo usando luz, sino que transfiere energía de resonancia a través del acoplamiento dipolo-dipolo. Para transferir energía de resonancia, el donante debe estar a 10 nm del receptor y en la orientación adecuada, lo que hace que la técnica sea útil para medir proteínas en las proximidades ". (De https://www.promega.com/resources/pubhub/features/bret-nanoluc-luciferase-and-protein-protein-interactions/)

La resonancia de plasmón de superficie (SPR) también muestra si las proteínas se unen, pero in vitro: "La SPR es sensible a los cambios en el índice de refracción dentro de unos 150 nm desde la superficie del sensor. Para estudiar la interacción entre dos socios de unión, uno de los socios se une a la superficie y el otro pasa sobre la superficie en un flujo continuo de solución de muestra. La respuesta de SPR es directamente proporcional al cambio en la concentración de masa cerca de la superficie. Los sistemas Biacore se pueden usar para estudiar interacciones que involucran (en principio) cualquier tipo de molécula , desde candidatos a fármacos orgánicos hasta proteínas, ácidos nucleicos, glicoproteínas e incluso virus y células completas ". (Del manual del ensayo Biacore)

Ambas son formas de considerar la interacción directa, es decir, la vinculación. La interacción funcional es una historia completamente diferente.


Métodos computacionales para la reconstrucción de haplotipos a escala cromosómica

Las secuencias de haplotipos a escala cromosómica de alta calidad de genomas diploides, genomas poliploides y metagenomas proporcionan información importante sobre la variación genética asociada con la enfermedad y la biodiversidad. Sin embargo, la secuenciación de lectura corta de genoma completo no produce información de haplotipos que abarque cromosomas completos directamente. Se requiere el ensamblaje computacional de fragmentos de haplotipos más cortos para la reconstrucción de haplotipos, lo que puede ser un desafío debido a las longitudes limitadas de los fragmentos y la alta variabilidad de haplotipos y repeticiones en los genomas. Los avances recientes en las tecnologías de secuenciación a escala cromosómica y de lectura larga, junto con las innovaciones computacionales, están mejorando la reconstrucción de haplotipos a nivel de cromosomas completos. Aquí, revisamos y discutimos avances metodológicos y perspectivas recientes en estas áreas.


Identificación del objetivo

Identificar una diana biológica que es "farmacológica": una diana se denomina "farmacológica" si su actividad (comportamiento o función) puede ser modulada por un tratamiento, ya sea un fármaco de molécula pequeña o biológico. Las proteínas y los ácidos nucleicos son ejemplos de dianas biológicas. 2

Pero, ¿qué hace que un objetivo sea "bueno"?

  1. El objetivo tiene un papel confirmado en la fisiopatología de una enfermedad y / o modifica la enfermedad.
  2. La expresión objetivo no se distribuye uniformemente por todo el cuerpo.
  3. La estructura 3D del objetivo está disponible para evaluar la drogadicción.
  4. El objetivo es fácilmente "ensayable", lo que permite un cribado de alto rendimiento.
  5. El objetivo posee un perfil de toxicidad prometedor, los efectos adversos potenciales se pueden predecir utilizando datos fenotípicos.
  6. El objetivo propuesto tiene un estatus de propiedad intelectual (PI) favorable. (relevante para empresas farmacéuticas)

Opciones de acceso

Obtenga acceso completo a la revista durante 1 año

Todos los precios son precios NETOS.
El IVA se agregará más adelante en el proceso de pago.
El cálculo de impuestos se finalizará durante el pago.

Obtenga acceso a artículos por tiempo limitado o completo en ReadCube.

Todos los precios son precios NETOS.


Resultados

Análisis 1, pruebas de interacción entre los SNP de CVRF

A partir de las fuentes bibliográficas descritas anteriormente, identificamos 242 SNP independientes que, según se informó, están estrechamente asociados con FRCV o criterios de valoración cardiovasculares, estos SNP, los fenotipos informados y los valores p para la asociación con MI en el estudio MIGen se muestran en el archivo S1, en la tabla de apoyo 1. Utilizando la Prueba A, realizamos 29,161 pruebas de interacción por pares entre estos 242 factores de riesgo SNP (Figura 2 de apoyo del archivo S1), cuyos resultados no se desviaron significativamente de su distribución empírica esperada (Figura 2b). La interacción más significativa (p & # x0200a = & # x0200a5.54 & # x000d710 & # x022126 ver Archivo S1 Tabla de apoyo 1) ocurrió entre SNPs originalmente reportados como asociados con niveles de colesterol LDL (rs2072183, en NPC1L1) e iniciación al tabaquismo (rs1013442, cerca de BDNF). Este resultado no excedió el umbral de significación para este Análisis (p & # x0200a = & # x0200a1.51 & # x000d710 & # x022126 Figura 2a Archivo S1 Tabla de apoyo 2). Bajo un modelo de interacción con efectos aditivos & # x000d7 aditivos, estimamos que este análisis tenía un alto poder (80%) para detectar una razón de probabilidades (OR) para la interacción entre & # x0223c1.6 y & # x0223c1.3 cuando ambos SNP tienen un MAF de & # x0223c0.2 y & # x0223c0.5, respectivamente (Figura 2c Tabla 3 de soporte del archivo S1, Figura 4 de soporte del archivo S1).

Análisis 2, pruebas de interacción entre los SNP de CVRF y los SNP marginales (p & # x0226410 & # x022123)

Seleccionamos 656 SNP independientes que mostraban una asociación marginal moderada (p & # x0226410 & # x022123) con MI en el estudio MIGen y excluimos 13 que habían sido capturados en el Análisis 1. Usando la Prueba A, realizamos 155,606 pruebas de interacción entre los 643 SNP restantes y los 242 CVRF SNP (archivo S1 que respalda la figura 2), cuyos resultados no se desviaron significativamente de su distribución empírica esperada (archivo S1 que respalda la figura 3). El resultado más significativo para la interacción fue p & # x0200a = & # x0200a9.48 & # x000d710 & # x022127, entre los SNP asociados con los niveles de colesterol HDL (rs3136441, en LRP4) y MI (rs9990208, ubicado cerca RFTN1 y DAZL en el cromosoma 3, p & # x0200a = & # x0200a1.2 & # x000d710 & # x022124 en MIGen). Este resultado no excedió el umbral de significación para este Análisis (p & # x0200a = & # x0200a3.13 & # x000d710 & # x022127 Archivo S1, Tabla 2, Archivo S1, Figura 3). Bajo un modelo de interacción aditivo & # x000d7 aditivo, se estimó que este análisis tiene un alto poder para detectar efectos de interacción entre & # x0223c1.7 y & # x0223c1.4 para SNPs con MAF de & # x0223c0.2 y & # x0223c0. 5, respectivamente (Tabla de soporte de archivo S1 3, Figura 4 de soporte de archivo S1).

Análisis 3a, pruebas de interacción entre SNP marginales (p & # x0226410 & # x022123)

Para los 643 SNP independientes que alcanzaron un valor p de & # x0226410 & # x022123 para la asociación con MI en el estudio MIGen y que no se capturaron en el Análisis 1, realizamos 201.537 pruebas de interacción por pares utilizando la Prueba B (de un posible prueba de 206,403 pares no factible para 4,866 pares (& # x0223c2.35%) debido a bajas frecuencias alélicas, consulte la Sección 3.3 del Archivo S1, Figura 2 de apoyo del Archivo S1). Los resultados de estas pruebas no se desviaron significativamente de su distribución empírica esperada (archivo S1 que respalda la figura 3). El valor p más significativo para la interacción fue 3,49 & # x000d710 & # x022126, entre rs761174 (dentro de HHAT en el cromosoma 1, p & # x0200a = & # x0200a1.75 & # x000d710 & # x022125 en MIGen) y rs167490 (dentro CHST11 en el cromosoma 12, p & # x0200a = & # x0200a5.92 & # x000d710 & # x022124 en MIGen), que no excedió el umbral de significación para este análisis (p & # x0200a = & # x0200a2.93 & # x000d710 & # x022127 Archivo S1 de apoyo Figura 3c). Bajo un modelo de interacción aditivo & # x000d7 aditivo, se estimó que este análisis tiene un alto poder para detectar efectos de interacción entre & # x0223c1.75 y & # x0223c1.4 para SNPs con MAF de & # x0223c0.2 y & # x0223c0. 5, respectivamente (Tabla de soporte de archivo S1 3, Figura 4 de soporte de archivo S1).

Análisis 3b, pruebas de interacción entre SNP marginales (p & # x0226410 & # x022122)

Relajando el umbral mínimo de los efectos marginales observados de los supuestos SNP interactuantes, seleccionamos 6.066 SNP independientes que alcanzaron un valor p de & # x0226410 & # x022122 para la asociación con MI en el estudio MIGen y que no fueron capturados en los Análisis anteriores, y realizó 17.470.706 pruebas de interacción, de un posible 18.180.305 pares (se descartaron 214.840 pruebas ya capturadas por la prueba de Análisis anterior no factible para otros 709.599 (& # x0223c3.9%) pares debido a bajas frecuencias alélicas, consulte el Archivo S1 Sección 3.3, Archivo S1 Figura de apoyo 2). Los resultados de estas pruebas no se desviaron significativamente de su distribución empírica esperada (archivo S1 que respalda la figura 3). El valor p más significativo para la interacción fue 5.51 & # x000d710 & # x022128, entre rs194243 (entre CYP26B1 y EXOC6B en el cromosoma 2, p & # x0200a = & # x0200a3.97 & # x000d710 & # x022123 en MIGen) y rs4589969 (dentro CACNA2D3 en el cromosoma 3, p & # x0200a = & # x0200a7.75 & # x000d710 & # x022123 en MIGen), que no excedió el umbral de significación para este análisis (p & # x0200a = & # x0200a3.57 & # x000d710 & # x022129 Archivo S1 de apoyo Figura 3d). Bajo un modelo de doble aditivo, se estimó que este análisis tiene un alto poder para detectar efectos de interacción entre & # x0223c1.85 y & # x0223c1.45 para SNP con MAF de & # x0223c0.2 y & # x0223c0.5, respectivamente (Tabla 3 de soporte del archivo S1, Figura 4 de soporte del archivo S1).

Validación de los resultados principales de los análisis 1 & # x020133 en una muestra independiente

Si bien los valores p mínimos observados en cada análisis fueron & # x0223c3 & # x0201315 veces mayores que el umbral de significancia correspondiente, es posible que los efectos de interacción real estén presentes pero no puedan declararse estadísticamente significativos debido a la exigente carga de pruebas múltiples. Por lo tanto, buscamos validar nuestros hallazgos para todos los pares de SNP que lograron un valor p para la interacción dentro de 3 órdenes de magnitud del umbral de significancia requerido en cada Análisis (Archivo S1 Sección 3.8). En una gran muestra de casos de cardiopatía coronaria y controles del WTCCC (archivo S1, sección 1), replicamos nuestro análisis para 47, 49, 45 y 50 pares de SNP (de 48, 52, 54 y 55 pares que cumplían con este criterio ) en los Análisis 1, 2, 3a y 3b, respectivamente. Después de corregir para múltiples pruebas, ninguno de estos pares mostró evidencia nominalmente significativa de interacción en los datos del WTCCC (Tabla 2 de soporte del archivo S1) para los pares SNP del Análisis 1 (p.min& # x0200a = & # x0200a0.0041 & # x003b1 & # x022480.05 / 47 & # x022480.0011), Análisis 2 (p.min& # x0200a = & # x0200a0.0392 & # x003b1 & # x022480.05 / 49 & # x022480.001), Análisis 3a (pmin& # x0200a = & # x0200a0.006 & # x003b1 & # x022480.05 / 45 & # x022480.001) o Análisis 3b (p.min& # x0200a = & # x0200a0.012 & # x003b1 & # x022480.05 / 50 & # x022480.001). De manera similar, no observamos evidencia adicional de interacción después de realizar un metanálisis de ambos estudios (consulte la Sección 3.8 del Archivo S1 para conocer los métodos y la Tabla de respaldo del Archivo S1 2 para los resultados del Análisis 1, p.min& # x0200a = & # x0200a1.49 & # x000d710 & # x022125 Análisis 2, pmin& # x0200a = & # x0200a1.41 & # x000d710 & # x022125 Análisis 3a, pmin& # x0200a = & # x0200a1.01 & # x000d710 & # x022124 Análisis 3b, pmin& # x0200a = & # x0200a7.01 & # x000d710 & # x022127 umbrales de significación iguales a los correspondientes a los Análisis de descubrimiento, p & # x0200a = & # x0200a1.51 & # x000d710 & # x022126, p & # x0200a = & # x0200a3.13 & # x000d710 & # x022127, p & # x0200a = & # x0200a2.93 & # x000d710 & # x022127, p & # x0200a = & # x0200a3.57 & # x000d710 & # x022129, respectivamente).


Resultados

Un ejemplo motivador.

Un desafío importante de los análisis de todo el genoma es cómo extraer señales escasas de conjuntos de datos a gran escala, que tienden a ser heterogéneos y ruidosos. Para ilustrar cómo el nivel de ruido en los datos aumenta la complejidad de la detección de genes involucrados en un proceso biológico específico, realizamos un estudio simple del proceso metabólico del colesterol utilizando medidas transcriptómicas de 426 LCL (líneas celulares linfoblastoides) derivadas de participantes del CAP. (Colesterol y farmacogenética) ensayo clínico de estatinas (13) (CAP-LCL). Este es uno de los principales conjuntos de datos que utilizamos en este documento para demostrar el rendimiento de nuestro método GeneFishing.

De Ensembl BioMart (https://www.ensembl.org/biomart/martview/7f44660a1147fceb60a6845325da0ca5), extrajimos 120 genes que están anotados con el término GO BP (proceso biológico de Ontología de genes) "GO: 0008203 proceso metabólico del colesterol", de los cuales 82 se expresan en el conjunto de datos CAP-LCL. Primero medimos la coexpresión de todos los pares de genes como el valor absoluto de la correlación de rango de Spearman de los valores de expresión génica entre sujetos. Por lo tanto, nuestros datos pueden considerarse como una matriz de coexpresión del gen T × T (aquí, T = 82). A continuación, realizamos un análisis espectral basado en la matriz de coexpresión para proyectar cada gen en el espacio de los primeros 2 vectores propios distintos de 0 de la matriz laplaciana normalizada e identificamos un grupo compacto de 21 genes (Fig.1A), 18 de los cuales codifican enzimas en la ruta de biosíntesis del colesterol (14), y se sabe que los 3 genes restantes están involucrados en la regulación transcripcional de estos 18 genes (es decir, INSIG1 y SREBF2) o funciones complementarias (LDLR, el regulador clave de la captación de lipoproteínas de baja densidad [LDL]) (Apéndice SI, Fig. S1 y Tabla S1). Para probar si este grupo apretado persistió en el contexto de otros genes, repetimos el análisis utilizando conjuntos de genes compuestos por los 21 genes, así como 100, 1500 y 2000 genes aleatorios (Fig.1 B para D). Dado que la mayoría de los genes no deberían estar relacionados con el metabolismo del colesterol, esperamos que la gran cantidad de pares de dichos genes supere a los que muestran relaciones pautadas entre nuestros sujetos. Como se muestra en la Fig.1B, los 21 genes crearon un grupo obvio cuando se mezclaron con 100 genes aleatorios. Sin embargo, este grupo se oscureció en presencia de conjuntos más grandes de genes aleatorios, como se muestra en la Fig.1. C y D. Estos resultados ilustran cómo la información proporcionada por los 21 genes del colesterol se oscurece progresivamente por patrones de ruido aleatorio con un número creciente de genes aleatorios.

Motivación y flujo de trabajo de GeneFishing. (A para D) Gráfico de agrupamiento espectral de los 21 genes cebo (coloreados en rojo) con otros 61 genes (coloreados en azul) asociados con el término GO BP "proceso metabólico del colesterol" (A) y 100 (B), 1,500 (C) y 2000 (D) genes aleatorios (coloreados en gris). (mi) Flujo de trabajo de GeneFishing.

El procedimiento GeneFishing.

Nuestro objetivo es desarrollar un procedimiento eficaz para identificar genes relevantes para procesos biológicos conocidos utilizando datos transcriptómicos. Aprovechando la agrupación de los 21 genes relacionados con el colesterol observados anteriormente, desarrollamos GeneFishing, un procedimiento de agrupación no paramétrico semisupervisado basado en una idea similar a la de una bolsa para reconstruir retratos de procesos biológicos de interés en contextos variables. Los datos de entrada de GeneFishing son una matriz M × T que representa los valores de expresión normalizados de genes T en sujetos M junto con un pequeño conjunto de genes preidentificados que se sabe que son relevantes para el proceso biológico de interés (como los 21 genes mencionados en el informe motivador). ejemplo). Este conjunto de genes se puede utilizar como genes "cebo" para guiar nuestra búsqueda de genes adicionales que sean potencialmente relevantes para el proceso biológico.

El diagrama de flujo de GeneFishing se muestra en la Fig.1mi. Dados los genes de cebo, el paso 1, la reducción del espacio de búsqueda, es clave en nuestro método, ya que facilita la extracción de "señal" del "ruido". En particular, los genes candidatos se dividen aleatoriamente en muchos espacios de subsearch de m genes cada uno (por ejemplo, m = 100). A continuación, se añaden los genes cebo a cada uno de los subconjuntos de genes candidatos. En el paso 2, se construyen matrices de coexpresión para pares de genes contenidos dentro de cada espacio de subsearch, y el algoritmo de agrupamiento espectral se aplicó a cada matriz por separado. La implementación actual utiliza la correlación de rango de Spearman para generar matrices de coexpresión de genes. Otras medidas de coexpresión pueden ser más apropiadas en otros contextos, como se analiza en las refs. 15 ⇓ –17. Mientras que en la mayoría de los casos, los genes de cebo se agrupan por separado de los genes candidatos, en algunos casos los genes candidatos se agrupan con los genes de cebo (por ejemplo, cuando un punto gris se agrupa dentro de los puntos rojos como se muestra en la Fig.1B). Cuando esto ocurre, consideramos que el gen candidato ha sido "eliminado". Dado que un gen candidato puede agruparse aleatoriamente con los genes cebo, repetimos los pasos 1 y 2 (definiendo 1 ronda de GeneFishing) norte veces (por ejemplo, norte = 1000). En el paso 3, se agregan los resultados de todas las rondas. El resultado final es una tabla que registra la "tasa de frecuencia de captura" (CFR la relación entre el número de veces que cada gen candidato ha sido extraído en el norte rondas de GeneFishing para norte). Consideramos los genes extraídos con valores de CFR elevados como "descubrimientos". Sin embargo, tenga en cuenta que solo podemos concluir que estos descubrimientos probablemente estén relacionados funcionalmente con los genes del cebo, no que realicen una función específica o similar a la de los genes del cebo. Detalles técnicos completos del procedimiento GeneFishing, así como el cálculo aproximado PAG Los valores y las tasas de descubrimiento falso (FDR) se proporcionan en Métodos y Apéndice SI.

Evaluación de GeneFishing con conjuntos de datos reales y simulados.

Todos los modelos (o métodos) estadísticos en genómica son aproximaciones burdas a la realidad. Se utilizan para generar procedimientos y proporcionar medidas utilizando inferencias basadas en modelos de la validez potencial de los hallazgos percibidos. En el caso habitual cuando carecemos de modelos confiables para algunos de los sistemas biológicos de interés, nos enfocamos en 3 requisitos mínimos: interpretabilidad, replicabilidad y estabilidad (18). Por interpretabilidad, queremos decir que algunos de los resultados pueden estar relacionados con la biología conocida e idealmente, guiar estudios experimentales adicionales. La replicabilidad se refiere a la estabilidad de las conclusiones cuando se aplica la misma metodología a conjuntos de datos independientes similares. Estabilidad significa que las conclusiones deben variar poco ante pequeñas perturbaciones estadísticas de los datos y el modelo.

Interpretabilidad.

Primero evaluamos si los descubrimientos derivados de GeneFishing eran biológicamente plausibles. Dado que los genes involucrados en el metabolismo de los esteroles son bien conocidos por estar corregulados transcripcionalmente, usamos los 21 genes discutidos en nuestro ejemplo motivador como genes de cebo y aplicamos GeneFishing al conjunto de datos CAP-LCL. Notamos que la distribución de CFR de GeneFishing era fuertemente bimodal, lo que indica un punto de corte muy natural para CFR (Fig.2A). Finalmente, identificamos 27 genes con CFR ≥ 0,99 (Apéndice SI, Tabla S2). Curiosamente, 10 de estos tenían funciones conocidas en el metabolismo de lípidos o esteroles e incluían TMEM55B, que previamente habíamos identificado como un gen regulador del colesterol debido a su muy alto grado de coexpresión con HMGCR, 1 de los 21 genes de cebo (19).

Evaluación de GeneFishing. (A) Distribución de los valores de CFR cuando se aplicó GeneFishing al conjunto de datos CAP-LCL. (B) Para cada método, se generaron 2 listas de genes clasificados aplicando el método a los conjuntos de datos CAP-LCL y GEUVADIS-LCL. Cada curva de color corresponde a un método de priorización de genes, trazando el número de genes superpuestos entre las 2 listas hasta una posición de rango (y eje) contra el rango (X eje). GBA es la abreviatura de culpabilidad por asociación. (C) Diagramas de dispersión de los valores de CFR cuando se aplicó GeneFishing al conjunto de datos CAP-LCL sin procesar y 3 conjuntos de datos perturbados aleatoriamente.

Replicabilidad.

Para evaluar la replicabilidad, probamos el rendimiento de GeneFishing en otros 2 conjuntos de datos LCL independientes: el conjunto de datos GEUVADIS-LCL (20) (462 líneas de células linfoblastoides del proyecto Genetic European Variation in Disease) y el conjunto de datos GTEx-LCL (4) (118 linfoblastoides líneas celulares del proyecto GTEx). Primero verificamos la expresión de los 21 genes cebo en ambos conjuntos de datos y observamos una agrupación clara de los 21 genes nuevamente mediante análisis espectral (Apéndice SI, Figura S2 A y B). Luego aplicamos GeneFishing a cada conjunto de datos utilizando los 21 genes como cebo y probamos la superposición dentro de los genes de la parte superior t extraídos (ordenados por valores de CFR con t variando de 20 a 100) entre los 3 (CAP, GEUVADIS y GTEx). Para fines de evaluación comparativa, también comparamos GeneFishing con otros métodos, incluido WGCNA (21) (análisis de red de correlación ponderada, un enfoque no supervisado para encontrar grupos de coexpresión de genes) y 3 versiones diferentes de enfoques de culpa por asociación (es decir, la asociación entre un gen candidato y el conjunto de genes de cebo se evalúa mediante la media, mediana y máxima de las correlaciones de rango de Spearman entre el candidato y cada uno de los genes de cebo, respectivamente). De los métodos probados, GeneFishing tuvo la mejor (o igualmente buena) replicabilidad (Fig.2B y Apéndice SI, Figura S2C).

Estabilidad.

Utilizando el conjunto de datos CAP-LCL, evaluamos la estabilidad de GeneFishing en los siguientes 3 escenarios: (I) cuando se incluyen genes aleatorios en el conjunto de genes de cebo (es decir, hay ruido en el conjunto de cebo), (ii) cuando solo un subconjunto de los 21 genes se utiliza como cebo, y (iii) cuando el método se aplica a submuestras de todos los sujetos (p. ej., el 80% de los sujetos se utilizaron para construir una matriz de coexpresión gen-gen al realizar GeneFishing). Como se muestra en la Fig.2C, los valores de CFR de cada escenario se correlacionaron razonablemente con los derivados del conjunto de datos CAP-LCL original, especialmente para CFR altos (por ejemplo, cuando CFR & gt 0.9). Esto sugiere que GeneFishing es bastante robusto a pequeñas perturbaciones del conjunto de datos de entrada. También realizamos un estudio de simulación para investigar más a fondo la estabilidad de GeneFishing, y los resultados se presentan en Apéndice SI.

La aplicación de GeneFishing al hígado y un experimento de laboratorio húmedo de seguimiento implican GLO1 como regulador del metabolismo del colesterol.

Dado que el hígado es el órgano principal que afecta el colesterol plasmático, aplicamos GeneFishing al conjunto de datos RNAseq de hígado humano GTEx (119 muestras). Después de confirmar una agrupación clara de los 21 genes de cebo (Apéndice SI, Figura S3A), identificamos 56 genes con un CFR ≥ 0,99 (Apéndice SI, Tabla S3). El análisis de enriquecimiento de términos GO (con el paquete R GOStats) (22) identificó un enriquecimiento sustancial para múltiples términos GO relacionados con el metabolismo de los esteroles, incluido el "proceso metabólico de lípidos" (FDR = 7.56E-09) y el "proceso biosintético de lípidos" (FDR = 5.29E -07). A continuación, dado que muchos genes implicados en el metabolismo del colesterol están regulados transcripcionalmente por esteroles celulares, buscamos determinar si alguno de los 56 genes mostraba evidencia de regulación de esteroles. Realizamos una secuenciación de todo el transcriptoma en las células HepG2 que primero se agotaron en esteroles (incubadas con simvastatina 2 μM + suero deficiente en lipoproteínas al 10% durante 24 h), después de lo cual se volvieron a agregar 50 μg / ml de colesterol unido a lipoproteínas de baja densidad (LDLC) y incubados durante 24 h más. De los 56 genes, los niveles de transcripción de 28 genes cambiaron en respuesta al agotamiento de esteroles (ajustado PAG valor & lt 0.05), con efectos revertidos por LDLC add back (Apéndice SI, Tabla S3). Curiosamente, 13 de los 56 genes no parecieron cambiar en respuesta al agotamiento de los esteroles (PAG value & gt 0.5) 6 de los 56 genes no se expresaron a un nivel suficientemente alto en las células HepG2 para alcanzar el umbral mínimo de expresión. Varios de los genes identificados (p. Ej., MMAB, SNAI3-AS1) parecía compartir elementos promotores con 1 de los 21 genes cebo (Apéndice SI, Figura S3B).

De los genes no implicados previamente en el metabolismo del colesterol, probamos el efecto de la eliminación de 11 de estos genes en las medidas del colesterol intracelular. Seleccionamos a propósito algunos genes que no mostraban evidencia de regulación de esteroles (p. Ej., GLO1, TDRKH, TTC39B, y C2orf82) (Fig. 3A), ya que el motivo y / o cómo estos genes pueden haber sido identificados por GeneFishing no estaba claro. Las células Huh7 se sometieron a transfección inversa con ARNip (ARN silenciador) dirigidos a cada gen de interés o un ARNsi de control no dirigido, y después de 48 h, los cambios en la expresión génica y el colesterol celular se cuantificaron mediante qPCR y mediante el ensayo Amplex Red Cholesterol, respectivamente (Fig. 3A). Derribo de 2 genes, GLO1 y RDH11, afectó significativamente los niveles de transcripción de SQLE, que codifica una enzima en la vía de síntesis del colesterol (Fig.3B). Este cambio se confirmó en una segunda línea celular de hepatoma humano, HepG2 (Fig.3C). Además, en consonancia con el aumento de SQLE niveles, encontramos que GLO1 La eliminación aumentó significativamente los ésteres de colesterol celular en las células Huh7 y HepG2 (Fig.3D).

Efecto de la eliminación de genes candidatos sobre los niveles de transcripción de genes relacionados con el colesterol. (A) Los niveles de transcripción (en la línea celular Huh7) de genes candidatos se cuantificaron mediante el ensayo SYBR Green mediante qPCR para evaluar el grado de anulación del gen. (B) Nivel de transcripción de SQLE (en la línea celular Huh7) se cuantificó mediante el ensayo SYBR Green para probar si la eliminación de genes candidatos modulaba su nivel de expresión. (C) Niveles de transcripción (en la línea celular HepG2) de GLO1 y RDH11 se cuantificaron mediante el ensayo SYBR Green mediante qPCR para evaluar el grado de eliminación de genes. Nivel de transcripción de SQLE (en la línea celular HepG2) se cuantificó mediante el ensayo SYBR Green para probar si GLO1 y RDH11 knockdown moduló su nivel de expresión. En A para C, los datos se analizaron utilizando el método delta Ct (umbral de ciclo) y se normalizaron a CLPTM1 niveles de transcripción como control de carga. Todos los ensayos de qPCR se realizaron por triplicado. (D) Los niveles de colesterol celular se cuantificaron usando el kit Amplex Red Cholesterol Assay con valores normalizados para la proteína celular total cuantificada mediante el ensayo de Bradford. Hay de 3 a 6 repeticiones por condición de tratamiento. NTC, control no dirigido.

Análisis Pantissue GeneFishing.

El proceso metabólico del colesterol funciona ampliamente en diferentes tejidos humanos. Motivados por el éxito de GeneFishing en la aplicación a los datos hepáticos de GTEx, a continuación buscamos determinar si el fuerte agrupamiento de los 21 genes de cebo también se observó en otros tipos de tejidos. Con más detalle, dado un tejido, realizamos el mismo análisis de agrupamiento espectral que en la Fig.1A y calculó 2 estadísticas: rigidez (definida como la relación entre la suma de cuadrados dentro del grupo y la suma de cuadrados total) del grupo que contiene la mayoría de los 21 genes y el índice de Jaccard entre el grupo y los 21 genes cebo. La mayoría de los tejidos exhibieron los 21 genes como un grupo compacto. Sin embargo, el módulo de 21 genes no fue aparente en algunos tejidos debido a una coexpresión más fuerte con genes fuera del módulo de 21 genes (p. Ej., Glándula suprarrenal) o a la ausencia total de coexpresión (p. Ej., Músculo esquelético) (Fig.4B). Aunque está bien establecido que los genes en la vía de síntesis del colesterol están corregulados, el cambio en su patrón de coexpresión que observamos en diferentes tejidos indica un grado inesperadamente alto de especificidad tisular de dicha corregulación y, mientras tanto, puede informar sus funciones desconocidas (o conexiones interesantes de la vía de síntesis del colesterol a otros procesos biológicos).

Análisis Pantissue GeneFishing. (A) Examen de la modularidad de los 21 genes de cebo en tejidos GTEx. Se aplicó GeneFishing a los 17 tejidos dentro del círculo azul. los Recuadro muestra las coordenadas detalladas de los 17 tejidos. (B) El patrón de coexpresión de los genes asociados con el proceso metabólico del colesterol a término GO BP en 6 tejidos representativos. In each heat map, the row and column have identical gene orders, and the side bar indicates whether the gene belongs to the 21 bait genes (red means yes). (C) Visualization of pantissue GeneFishing results. Each row is associated with a gene, and each column is associated with a tissue (labeled with different colors). If the color of an entry is not gray, then it means that the CFR of the corresponding gene is higher than 0.9 in the corresponding tissue.

To construct a somewhat global picture of cholesterol metabolism as well as its potential cross-talk with other biological processes, we next applied GeneFishing to the 17 GTEx tissues in which the coexpression pattern of the 21 genes was well maintained. In the previous sections, when generating candidate gene lists for experimental validation, we used a very strict CFR ≥ 0.99 threshold here, we loosened the cutoff to 0.9, as the coexpression strength between bait genes and genes that are functionally linked to lipid metabolism are strongest in the liver as compared to other tissues. We discuss in Apéndice SI that much lower cutoff points than 0.9 are still likely to correspond to very low FDR. In total, 329 genes were identified with a CFR larger than 0.9 in at least 1 tissue (Apéndice SI, Table S4). Almost 74% (246 genes) of these were identified in only 1 tissue, while only 7.5% (28 genes) were identified in at least 8 tissues, illustrating that there is a high degree of tissue specificity. Tissue-specific GO enrichment analysis of the 329 genes identified 52 GO BP terms, each of which is significant in at least 1 tissue (FDR < 0.001). Interestingly, all of the 52 GO BP terms were child terms of the “GO:0008152 metabolic process” (Apéndice SI, Table S5). As expected, “GO:0006629 lipid metabolic process” was enriched in the genes identified in all of the 17 tissues. We also performed hierarchical clustering based on the GO enrichment profile and found that 6 tissues (artery–aorta, artery–tibial, whole blood, thyroid, pancreas, and stomach) seemed to be distinct from the remaining 11 tissues due to a depletion of the GO terms that were broadly enriched in other tissues (Apéndice SI, Fig. S4). For example, while “GO:0006641 triglyceride metabolic process” was identified in 10 of the other 11 tissues, it was not enriched in any of the 6 tissues mentioned above.

Comparing GeneFishing with GIANT and ENDEAVOUR.

Two popular methods, GIANT and ENDEAVOUR, were proposed before our study, and both of them have been widely used for gene prioritization. Although differing in key aspects from GeneFishing, the 3 methods share identical input–output schema: they all accept a group of seed (or bait) genes that are related to a biological process as input and return a list of genes that have been ranked according to computed functional relevance. We ranked all GTEx liver-expressed genes with GIANT and ENDEAVOUR. Since liver is the tissue that plays an important role in lipid metabolism and the 21 bait genes are all related to cholesterol metabolism, it is reasonable to expect that, in the returned gene list from any of the 3 gene prioritization methods, lipid metabolism-related genes should have high rankings. We found that GeneFishing captured the highest number of genes associated with the GO BP term “lipid metabolic process” among its top-ranked genes, demonstrating its superiority to the other 2 methods, at least in this application (Fig. 5). When compared with ENDEAVOUR, GeneFishing did substantially better in the identification of lipid-related genes. Although a similarly high number of lipid-related genes is found among the first 25 genes as ranked by our method and GIANT separately, our method outperforms GIANT substantially from then on. Interestingly, we found that gene PCSK9, a promising drug target to lower the LDLC level (which is also an SREBF2 target gene) (23), was fished out (with CFR = 1) by GeneFishing, while its priority rank in the ranked list of candidate genes by GIANT was low (rank 6,102). In addition, the distribution of functional relevance measure returned by GIANT did not show as strong of bimodality as GeneFishing, suggesting that the calibration of the GIANT scores seems quite inferior to ours (Apéndice SI, Fig. S5). We note that GIANT and ENDEAVOUR attempt to incorporate multiple sources of data (such as gene expression, protein–protein interaction, DNA sequence) to perform gene prioritization. They thus have large advantages in terms of broad applicability. However, as we demonstrate here, the generality of the information that they use may lead them to miss patterns specifically related to the biological question of interest. This is consistent with the phenomenon that we observed in Fig. 1 (in which inclusions of too much input data or noisy candidate genes obscure signal) and that we believe accounts for the mediocre performance of “all-purpose systems” in this task.

In both panels, each colored curve corresponds to a method, with X axis representing the rank and the y axis representing the number of lipid metabolism genes among the top-ranked genes.


S1 Fig

The observed proportions of the nine possible SNP pair genotype combinations from models 5, 6, 8, 9, 10, 11, 12, 15, 16, 17, 18 and 20 are depicted in this figure, per cases and controls. Genotypes are ordered according to minor allele frequency, with the wildtype homozygote appearing first, and the rare homozygote appearing last.

S2 Fig

The frequencies of the four possible SNP pair allele combinations from models 5, 6, 8, 9, 10, 11, 12, 15, 16, 17, 18 and 20 are depicted in this figure, per cases and controls. The frequencies were estimated using an EM-algorithm.

S3 Fig

The logits of genotype combinations from models 5, 6, 8, 9, 10, 11, 12, 15, 16, 17, 18 and 20 are depicted in this figure. Genotypes are ordered according to minor allele frequency, with the wildtype homozygote appearing first, and the rare homozygote appearing last. Non-parallel lines are indicative of interaction effects. The effects were estimated by absorbing the marginal effects of the SNPs into the SNP × SNP interaction term, and adjusting for the covariates included in the model by averaging over them.

S4 Fig

The observed proportions of SNP pair genotype combinations from models 3, 5, 7, 8, 9, 16, 17 and 18 are depicted in this figure, per cases and controls. Recessive/dominant effects in these models may better explain the interactions observed in the cohort (smaller p-values were achieved compared to the genotypic models, and the best models with 1 or more recessive or dominant encodings listed in S5 Table are presented in this figure). Rare homozygotes and heterozygotes are combined to represent dominant encoding of alleles, and wild type homozygotes and heterozygotes are combined to represent recessive encoding of alleles. For dominant and recessive allelic encodings of SNPs, the last genotype presented therefore reflects an encoding of 1.

S1 Table

The table summarizes the total number of samples that were successfully genotyped in each candidate gene study and how many samples have complete confounder information (age, gender and ancestry).

S2 Table

P-values were calculated using logistic regression.

S3 Table

A summary listing web URLs, version information and important parameter settings of software used in this study.

S4 Table

A spreadsheet with two worksheets, showing the results of the top 250 SAC models and the 245 Gambian models that were used for validation.

S5 Table

This table provides a summary of each SNP’s individual minor allele frequency (MAF) and association with having TB.

S6 Table

The genotypic model p-values, which were used to select the top 20 models, are presented in this table. The p-values of the corresponding allelic interaction models that achieved the smallest p-values are also shown.


Métodos

Participantes

The study population consisted of 1,293 unrelated healthy Korean individuals. These were the same individuals included as controls in our previous study of bipolar disorder [16]. They consisted mostly of college students, nurses, and public officials, who were recruited after a brief psychiatric interview. Potential participants were excluded if they reported a history of a psychotic disorder, mood disorder, anxiety disorder, substance use disorder, brain trauma, or intellectual disability. All participants were informed of the purpose and methods of the study and provided informed consent before enrollment. The Ethics Committee of Eulji General Hospital approved the study protocol (IRB No. 2016-08-009).

Measurement of chronotype

Chronotype was measured using a self-reported questionnaire. The CS is a 13-item questionnaire, which assesses individual differences in the time of day a person prefers to carry out various activities it classifies people as morning, intermediate, or evening types [5]. Three items are scored on a five-point scale from 1 to 5 the other 10 items are scored on a four-point scale, from 1 to 4. Higher scores indicate morning preference. All participants completed the CS questionnaire.

Genotyping

The clock genes investigated in this study were BHLHB2, CLOCK, CSNK1E, NR1D1, PER1, PER2, PER3, y TIMELESS. These eight genes were analyzed for 19 different tag single nucleotide polymorphisms (SNPs) with minor allele frequencies exceeding 5% in Asian populations. DNA was extracted from blood and SNPs were genotyped using the TaqMan method (Applied Biosystems, Foster City, CA, USA). Table 1 presents a summary of the minor allele frequencies and chromosomal locations of the SNPs.

Tabla 1.

SNPs of clock genes and minor allele frequency

GeneSNP a BaseChrPosiciónFunciónMAF
BHLHB2rs6442925Connecticut34972191Intron0.047
rs2137947Connecticut34989276Noncoding transcript variant 0.323
CLOCKrs1801260Connecticut4554352023'-UTR0.099
rs3805148C.A.455440643Intron0.349
rs12504300CG455482360Intron0.379
rs4864542CG455487920Intron0.351
rs12649507AG455514317Intron0.352
CSNK1Ers135745CG2238287631Ninguno0.223
rs1534891Connecticut2238299094Intron0.093
rs2075984C.A.2238294883Intron0.408
NR1D1rs2314339Connecticut1740096959Intron0.459
rs2269457AG1740098436Intron0.505
PER2rs2304672CG22382779485'-UTR0.063
rs2304669AG2238257022Synonymous0.116
PER3rs228669AG17809988Synonymous0.257
TIMELESSrs4630333AG1256443632Intron0.452
rs1082214AG1256452706Intron0.095

SNP, single nucleotide polymorphism Chr, chromosome MAF, minor allele frequency UTR, untranslated region.

Análisis estadístico

Individual SNPs were examined for Hardy-Weinberg equilibrium two SNPs violating Hardy-Weinberg equilibrium were removed. Each SNP association with CS score was analyzed by simple regression analysis. Haplotype association with CS was also analyzed by PLINK if more than two SNPs for each gene were included [17].

Gene-gene interactions were analyzed using the quantitative multifactor-dimensionality reduction (QMDR) method, an extension of the multifactor-dimensionality reduction (MDR) algorithm to work with quantitative or continuous phenotypes [18]. The MDR method is one a commonly used method for detection and characterization of high-order gene-gene or gene-environment interactions in case-control studies this comprises a nonparametric combinatorial approach that reduces the number of dimensions [19]. For each multi-locus genotype combination, QMDR calculates the mean value of phenotype and compares it to the overall mean to determine the genotype combination is high risk or low risk. By pooling all the genotypes into either high-risk or low-risk groups, a new binary attribute is created. The t-test is used to compare the means between high and low risk groups using a t-test and t-statistic is used as a training score to choose the best model. In QMDR, the training and testing score are defined by t-test statistic. The training score is used to determine the best K-order interaction model. QMDR use 10-fold cross-validation and cross-validation consistencies (CVCs) of each model chosen are recorded. The best overall QMDR model is selected as that with the maximum testing score and highest cross-validation consistency. To estimate the p-values of the chosen model, empirical null distribution is used [18].

In this study, interactions of up to three loci were tested using 10-fold cross-validation in a search considering all possible SNP combinations. SNP combination with maximum CVC was considered the best model. p-values were determined empirically by 1,000-fold permutations of case and control labels.


Introducción

In the context of interactions, a brief explanation of the function and all functional interactions can be used to accurately narrow down a large amount of data. Having sufficient knowledge about interactions is a prerequisite as it reveals a dimensional view of many potential functional activities. Consequently, the complete description of biological phenomenon directly designates the specific interaction between entities 1,2,3 . For large assemblies of entities, a three-dimensional view can be more meaningful.

Cellular modes may be determined by mass transport while the sequestration of signaling interactions and molecular actions may be regulated as well by “cooperative binding”. Based on the valuable insights of interactions, notes have been added that categorize interacting proteins into functional sets that are labeled similar to signaling pathways, physical complexes and a limited tightly linked ‘modules’ 4,5,6 . Nevertheless, the distribution of interactions into diverse complexes or pathways are divisible which are likely to prevent verification of the likelihood of crosstalk and dynamic states in the interacting domain 7 . One commonly employed approach is to avoid the subdividing of functions in a network, particularly creating a network that is based on topological outcomes of all types of known or predicted interactions. In the context of the network, a web-based system is considered outstanding when it accurately integrates numerous kinds of interactions that express stable physical partnerships, frequent attachment, chaining of a substrate, communication of data, and many others. The primary interaction repository 8,9,10,11,12 provides an organized experimental dataset that includes multiple genetic, biochemical and biophysical techniques 13,14 . Progressions have focused on biological interactions from predicted computational data that are mainly focused on several forecasted communications using numerous algorithms 15,16,17,18,19 . Furthermore, the prospect of comprehensive and detailed coverage was elucidated using couple of web-based means that offers information about the combination of identified and forecasted communications. These databases mainly include STRING, GeneMANIA 20 , FunCoup 17 , I2D 21 , ConsensusPathDB 22 and others that are based on specific necessities. The most flexible and stable online platform is the STRING database, which has allowed for confidential interactions, valuable scoring and detailed comprehensive analysis for many years. The primary interaction unit that is typically used for a specific and productive functional relationship regarding a protein interaction is a functional connotation. Interactions can be derived from various available sources, similar to known experimental interactions, counting primary databases, pathway data parsed within manually curated databases, automated text-mining for statistical or semantic connections in proteins, genomic and coexpression interactions’ analysis predicted de novo, and precomputed orthologs. Additionally, the interactions observed in one organism can be orderly transferred to another organism 22,23,24 .

The proposed WeiBI database predominantly focuses on gene (protein-yielding) alternative-loci splice isoforms or genes that are altered at the post-translational stage further alterations are not available but are collapsed for a gene locus. The highly ranked functional grouping familiarized through unautomated curated Kyoto Encyclopedia 4,25,26 of genes and genomes pathway maps provide the sources of interactions, and their declarations have been proven ideal. As stated earlier, WeiBI covers 115570 entries. To gain more knowledge of the biological phenomena, there are supplementary updates available for all the primary data resources, and aims to re-execute the text-mining pipeline with new and long technologies. Through extensive literature investigation, we examined many features and interfaces in other databases 27,28,29 . However, the data are not sufficient to be heavily banking on. Hence, we support ongoing studies that are focused on modifications and alternative additions to the database.


Información del autor

Afiliaciones

Bioinformatics Center, Key Lab of Systems Biology, Shanghai Institutes for Biological Sciences, the Chinese Academy of Sciences, Shanghai, China

Changzheng Dong, Tieliu Shi & Yixue Li

Chinese National Human Genome Center at Shanghai, Shanghai, China

Changzheng Dong, Xun Chu, Ying Wang & Wei Huang

Graduate School of the Chinese Academy of Sciences, Beijing, China

MOE Key Laboratory of Contemporary Anthropology and Center for Evolutionary Biology, Fudan University, Shanghai, China

Rui Jin Hospital, School of Medicine, Shanghai Jiaotong University, Shanghai, China


Ver el vídeo: Validación Parte primera: principios básicos (Noviembre 2022).