Información

¿Transferir Odds Ratios a otro SNP con LD alto?

¿Transferir Odds Ratios a otro SNP con LD alto?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Tengo los Odds Ratios (OR) para un alelo de riesgo particular en un SNP (lo llamaré SNP1). Desafortunadamente, ese SNP no fue genotipado en mis datos, pero no quiero tirarlo. He buscado el SNP en LDLink y otro SNP (lo llamaré SNP2) está en alto desequilibrio de ligamiento con SNP1 (R2 = 0.94).

¿Cómo transfiero el OR del alelo SNP1 al alelo SNP2 correspondiente?

Sé que es algo similar a log (OR) * sqrt (R2) pero no estoy del todo seguro. ¿Podría alguien aclarar si esta es la fórmula correcta?


La firma genómica de variantes asociadas a rasgos

Los estudios de asociación de todo el genoma han identificado miles de variantes de SNP asociadas con cientos de fenotipos. Para la mayoría de las asociaciones, las variantes causales y los mecanismos moleculares subyacentes a la patogénesis siguen siendo desconocidos. La exploración de las anotaciones funcionales subyacentes de los loci asociados a rasgos ha arrojado algo de luz sobre sus posibles funciones en la patogénesis. Sin embargo, existen algunas deficiencias en los métodos utilizados hasta la fecha, que pueden socavar los esfuerzos por priorizar variantes para análisis posteriores. Aquí, presentamos y aplicamos métodos novedosos para identificar rigurosamente las clases de anotación que muestran el enriquecimiento o el agotamiento de las variantes asociadas a rasgos, teniendo en cuenta las asociaciones subyacentes debido a la ubicación conjunta de diferentes anotaciones funcionales y desequilibrio de vinculación.

Resultados

Evaluamos el enriquecimiento y el agotamiento de variantes en clases de anotación disponibles públicamente, como regiones génicas, características reguladoras, medidas de conservación y patrones de modificaciones de histonas. Usamos regresión logística para construir un modelo multivariado que identificó las anotaciones funcionales más influyentes para el estado de asociación de rasgos de variantes significativas en todo el genoma. Los SNP asociados con todas las anotaciones enriquecidas tenían 8 veces más probabilidades de ser variantes asociadas a rasgos que los SNP anotados con ninguna de ellas. Las anotaciones asociadas con el estado de la cromatina junto con el conocimiento previo de la existencia de una expresión local QTL (eQTL) fueron los factores más importantes en el modelo de regresión logística final. Sorprendentemente, a pesar del uso generalizado de la conservación evolutiva para priorizar variantes para el estudio, encontramos solo un enriquecimiento modesto de SNP asociados a rasgos en regiones conservadas.

Conclusión

Establecimos odds ratios de anotaciones funcionales que tienen más probabilidades de contener SNP significativamente asociados a rasgos, con el fin de priorizar los aciertos de GWAS para estudios posteriores. Además, estimamos la influencia relativa y combinada de las diferentes anotaciones genómicas, lo que puede facilitar los métodos de priorización futuros al agregar información sustancial.


Introducción

El cáncer de mama es una enfermedad parcialmente hereditaria. Mutaciones en varios genes de alta penetrancia que incluyen BRCA1 [1, 2], BRCA2 [3] y otros [4] están asociados con un alto riesgo de cáncer de mama entre las portadoras y explican una fracción de la heredabilidad. Los estudios de asociación de todo el genoma (GWAS) han identificado más de 180 polimorfismos de un solo nucleótido (SNP) comunes asociados con el riesgo de cáncer de mama [5,6,7,8,9,10,11,12,13,14,15,16, 17,18,19,20]. La mayoría de estos SNP se identificaron en poblaciones de ascendencia europea y de ascendencia asiática oriental, aunque se han identificado algunos SNP únicos en poblaciones afroamericanas [21] y en poblaciones latinas [22, 23].

Varios estudios de GWAS han identificado SNP en 6q25 que están asociados con el riesgo de cáncer de mama [13, 18, 20, 23,24,25,26,27] y la densidad mamográfica [23, 27,28,29,30]. El informe inicial identificó un SNP en la región intergénica entre ESR1 y CDCC170 en una población de Asia oriental [24]. A continuación, se confirmó el locus en otras poblaciones y se identificaron varias variantes adicionales [11, 18, 25, 26, 31]. Más recientemente, un enfoque funcional y de mapeo fino en este locus identificó cinco variantes comunes distintas asociadas con el riesgo de diferentes subtipos de cáncer de mama [27].

Las poblaciones hispanas / latinas son el segundo grupo étnico más grande de los EE. UU. [32] y, sin embargo, no se han estudiado suficientemente en GWAS [33]. Los latinos son una población de ascendencia mixta con contribuciones ancestrales europeas, indígenas americanas y africanas [34,35,36,37]. Dado que no hay grandes estudios sobre el cáncer de mama en las poblaciones indígenas estadounidenses, los estudios en latinos pueden identificar nuevas variantes asociadas con el cáncer de mama que son exclusivas o sustancialmente más comunes en esta población. Anteriormente hemos utilizado un enfoque de mapeo de mezclas para buscar loci de susceptibilidad al cáncer de mama en latinas e identificamos una gran región en 6q25 donde la ascendencia indígena americana se asoció con un menor riesgo de cáncer de mama [22]. Posteriormente, identificamos un SNP (rs140068132) que era común (frecuencia de alelos menores

0.1) solo en latinas con ascendencia indígena americana y se asoció con un riesgo sustancialmente menor de cáncer de mama, particularmente cáncer de mama negativo para el receptor de estrógeno (ER), y con una densidad mamográfica más baja [23]. Sin embargo, la variante que identificamos no explicó completamente el riesgo asociado con la ascendencia de locus específico en 6q25 en latinas, lo que sugiere que otras variantes pueden explicar este riesgo. Nos propusimos hacer un mapa fino e identificar variantes adicionales en 6q25 asociadas con el riesgo de cáncer de mama entre las latinas.


Resultados

Resumen de los métodos

Dejar y ser la responsabilidad de una enfermedad en la escala logit, X ser un factor de riesgo en unidades de desviación estándar (DE) y z ser el genotipo de un SNP (codificado como 0, 1 o 2). La estimación de MR del efecto causal del factor de riesgo sobre la enfermedad 9 es ( hat b_ = hat b_/ hat b_) , dónde B zy es el efecto de z sobre y en la escala logit (logaritmo de la razón de posibilidades, logOR), B zx es el efecto de z sobre X, y B xy es el efecto de X sobre y libre de confusión de factores no genéticos (tenga en cuenta que B xy se puede interpretar aproximadamente como logOR (ver más abajo). SMR es un enfoque de MR flexible y potente que puede estimar y probar la importancia de B xy utilizando las estimaciones de B zx y B zy de muestras independientes 17. Si hay varios SNP independientes (o casi independientes) asociados con X y el efecto de X sobre y es causal, entonces todos los X-los SNP asociados tendrán un efecto en y mediante X (Figura 1a). En este caso, B xy en cualquiera de los XSe espera que los SNP asociados sean idénticos en ausencia de pleiotropía 13,16,22 ya que todos los efectos de los SNP en y están mediadas por X (Figura 1b). Por lo tanto, se puede lograr un mayor poder estadístico integrando las estimaciones de B xy de todos los X-SNPs asociados usando un enfoque de mínimos cuadrados generalizados (GLS) (Métodos). El método GSMR esencialmente implementa el análisis SMR para cada instrumento SNP individualmente y luego integra el B xy estimaciones de todos los instrumentos SNP por GLS, teniendo en cuenta la varianza muestral en ambos ( hat b_) y ( hat b_) para cada SNP y el LD entre los SNP. Es importante señalar que de acuerdo con uno de los supuestos básicos para MR 9, solo los SNP que están fuertemente asociados con el factor de riesgo deben usarse como instrumentos para los análisis de MR, incluido GSMR. Demostramos usando simulaciones (Nota complementaria 1) que si usamos SNP independientes que están asociados con la exposición en PAG & lt 5 × 10 −8, no hay inflación en las estadísticas de prueba GSMR bajo la hipótesis nula de que B xy = 0 (Fig.1a complementaria), que la estimación de B xy por GSMR es imparcial bajo la hipótesis alternativa de que B xy≠ 0 (Tabla complementaria 1), y que B xy aproximadamente es igual a logOR (donde OR es el efecto del factor de riesgo sobre la enfermedad en un estudio observacional sin confusión) (Fig. 2 complementaria). GSMR representa LD si los instrumentos SNP no son completamente independientes. Esto se demuestra mediante la simulación de que, en presencia de LD, el estadístico de prueba está bien calibrado bajo el valor nulo (Fig.1b complementaria) y que la estimación de B xy es imparcial según la alternativa (Tabla complementaria 1). En comparación con los métodos existentes que utilizan datos resumidos para hacer inferencias causales 12,13,16,18, GSMR es más poderoso como lo demuestra la simulación (Fig.3 complementaria) porque GSMR explica la varianza muestral en ambos ( hat b_) y ( hat b_) mientras que los otros enfoques asumen que B zx se estima sin error.

Aprovechando múltiples instrumentos genéticos independientes (z) para probar la causalidad. Mostrado en el panel a es un ejemplo esquemático de que si una exposición (X) tiene un efecto sobre un resultado (y), cualquier instrumento (SNP) asociado causalmente con X tendrá un efecto en y, y el efecto de X sobre y (B xy) en cualquiera de los SNP se espera que sea idéntico. Esto se ilustra con más detalle en un ejemplo de juguete en el panel. B que bajo un modelo causal, para los SNP asociados con X, el efecto estimado de z sobre y ( ( hat b_)) debe ser linealmente proporcional al efecto estimado de z sobre X ( ( hat b_)) y la relación entre los dos es una estimación del efecto de mediación de X sobre y, es decir, ( hat b_ = hat b_/ hat b_)

La pleiotropía es un factor de confusión potencial importante que podría sesgar la estimación y, a menudo, da como resultado una estadística de prueba inflada en un análisis de RM 9,10,13,19. Proponemos un método (llamado HEIDI-outlier) para detectar SNP pleiotrópicos en los que las estimaciones de B xy son significativamente diferentes de lo esperado bajo un modelo causal y los eliminan del análisis GSMR (Métodos). El poder de detectar un SNP pleiotrópico depende de los tamaños de muestra de los conjuntos de datos de GWAS y la desviación de ( hat b_) estimado en el SNP pleiotrópico a partir del modelo causal. Hemos demostrado mediante simulación basada en un modelo causal con pleiotropía que el poder de los valores atípicos de HEIDI es alto, especialmente cuando los efectos pleiotrópicos son grandes (Fig. 4a complementaria). Ciertamente, existen valores atípicos pleiotrópicos (por ejemplo, aquellos con efectos muy pequeños) no detectados por el valor atípico HEIDI. Sin embargo, estos efectos pleiotrópicos no detectados no parecen sesgar la estimación de GSMR (Fig. 4b complementaria), en contraste con un pequeño sesgo en la estimación de la regresión de Egger (MR-Egger) que se cree que está libre de confusión de pleiotropía 13. Nuestros resultados de simulación también muestran que la estimación GSMR de B xy no es significativamente diferente de cero en un modelo pleiotrópico sin efecto causal en presencia o ausencia de LD (Tabla complementaria 2).

Además, desarrollamos un método aproximado (llamado URL mtCOJO) que solo requiere datos resumidos para realizar un análisis GWAS para un fenotipo condicional en múltiples fenotipos covariables (métodos). El propósito de desarrollar este método es estimar el efecto de un factor de riesgo sobre la enfermedad ajustando por otros factores de riesgo (Métodos, Nota complementaria 2, Figura complementaria 5), ​​lo que ayuda a inferir si el efecto marginal del factor de riesgo sobre la enfermedad depende de otros factores. factores de riesgo y para predecir el efecto conjunto de múltiples factores de riesgo sobre la enfermedad. Es de destacar que mtCOJO está libre de sesgos debido al efecto ambiental o genético compartido entre el fenotipo y la covariable como se describe en Aschard et al. 23 (Figura complementaria 6).

Los efectos de siete factores de riesgo para la salud en enfermedades comunes

Aplicamos los métodos para probar las asociaciones causales entre siete factores de riesgo para la salud y enfermedades comunes utilizando datos de múltiples estudios grandes. Los factores de riesgo son el IMC, la relación cintura-cadera ajustada por IMC (WHRadjBMI), colesterol HDL (HDL-c), LDL-c, triglicéridos (TG), presión arterial sistólica (PAS) y presión arterial diastólica (PAD). . Elegimos estos factores de riesgo debido a la disponibilidad de datos GWAS de nivel de resumen de muestras grandes (norte = 108,039–322,154) (Tabla complementaria 3). Accedimos a los datos de BMI, WHRadjBMI, HDL-c, LDL-c y TG de GWAS publicado 24,25,26, y datos de SBP y DBP del subgrupo de UK Biobank (UKB) 27 con datos genotipados publicados en 2015. Nosotros SNP seleccionados a un nivel de significación de todo el genoma (PAGGWAS & lt 5 × 10 –8) mediante el algoritmo de agrupamiento (r 2 umbral = 0.05 y tamaño de ventana = 1 Mb) implementado en PLINK 28 (Métodos). Tenga en cuenta que el método GSMR tiene en cuenta el LD restante no eliminado por el análisis de agrupamiento. Había metro = 84, 43, 159, 141, 101, 28 y 29 SNP para BMI, WHRadjBMI, HDL-c, LDL-c, TG, SBP y DBP, respectivamente, después de la aglutinación. Estos instrumentos SNP son casi independientes, como lo demuestra la distribución de las puntuaciones de LD calculadas a partir de los instrumentos para cada rasgo (Fig. 7 complementaria). Solo incluimos en el análisis los SNP casi independientes para facilitar la comparación directa de los resultados de GSMR con los de otros métodos que no tienen en cuenta la LD (por ejemplo, MR-Egger). El resultado de nuestra simulación sugiere que la ganancia de potencia al incluir SNP en LD es limitada (Fig. 8 complementaria). Además, aunque el enfoque GSMR tiene en cuenta la LD, la inclusión de muchos SNP en LD de moderada a alta a menudo da como resultado la V la matriz no es invertible (métodos).

Los datos de GWAS de nivel de resumen para las enfermedades se calcularon a partir de dos estudios comunitarios independientes con genotipos de SNP a nivel individual, es decir, la Investigación de Epidemiología Genética sobre la Salud y el Envejecimiento de Adultos 29 (GERA) (norte = 53.991) y el subgrupo de UKB 27 (norte = 108.039). Incluimos en el análisis 22 enfermedades comunes según se definen en los datos de GERA, y agregamos un fenotipo adicional relacionado con la comorbilidad al contar el número de enfermedades que afectan a cada individuo (es decir, el recuento de enfermedades) como un índice bruto para medir el estado general de salud de una persona. individual (Cuadro complementario 4). Realizamos análisis de asociación de todo el genoma de los 23 fenotipos de enfermedad en GERA y UKB por separado (métodos). Evaluamos la heterogeneidad genética de una enfermedad entre las dos cohortes mediante una correlación genética (rgramo) análisis utilizando el enfoque de regresión de puntuación LD bivariada (LDSC) 30. Las estimaciones de rgramo en todas las enfermedades varió de 0,75 a 0,99 con una media de 0,91 (Tabla complementaria 4), lo que sugiere fuertes superposiciones genéticas para las enfermedades entre las dos cohortes. Por lo tanto, realizamos un metanálisis de los datos de las dos cohortes para maximizar el poder mediante el enfoque del metanálisis de varianza inversa 31. Debido a que OR está libre del sesgo de verificación en un estudio de casos y controles, el tamaño del efecto (logOR) de un SNP sobre la enfermedad en la población general puede aproximarse al de un estudio de casos y controles asumiendo que la enfermedad en el estudio de casos y controles se define de manera similar a la de la población general. Por lo tanto, GSMR puede aplicarse a datos con efectos SNP sobre el factor de riesgo de un estudio poblacional y efectos SNP sobre la enfermedad de un estudio de casos y controles comprobado, y el efecto causal estimado del factor de riesgo sobre la enfermedad debe interpretarse como que en la población general. Por lo tanto, incluimos en el resumen del análisis datos de 11 enfermedades de estudios de casos y controles publicados (norte = 18,759–184,305) (Tabla complementaria 5). Los efectos SNP estimados y los errores estándar (EE) para la degeneración macular relacionada con la edad (AMD) no estaban disponibles en los datos de resumen 32, que se estimaron a partir de z-estadísticas utilizando un enfoque aproximado (nota complementaria 3).

Aplicamos el enfoque de valores atípicos de HEIDI para eliminar los SNP que mostraban efectos pleiotrópicos tanto en el factor de riesgo como en la enfermedad, desviados significativamente de un modelo causal (Métodos). Las correlaciones de LD entre SNP por pares se estimaron a partir de los datos de riesgo de aterosclerosis en las comunidades (ARIC) 33 (norte = 7703 individuos no relacionados) imputados a 1000 genomas (1000G) 34. Utilizando los grandes conjuntos de datos descritos anteriormente, identificamos a partir de análisis GSMR 45 asociaciones causales significativas entre factores de riesgo y enfermedades (Datos suplementarios 1, Fig. 2). Controlamos la tasa de error familiar (FWER) en 0.05 mediante la corrección de Bonferroni para 231 pruebas (PAGGSMR umbral = 2,2 × 10 −4). Para la comparación de métodos, también hemos realizado los análisis con MR-Egger 13 y los métodos de Pickrell et al. 16 (Datos suplementarios 2).

Asociaciones causales putativas entre siete factores de riesgo modificables y enfermedades comunes. Se muestran los resultados de los análisis GSMR con datos de enfermedades. a a partir de un metanálisis de dos estudios comunitarios (GERA y UKB) y B de estudios de casos y controles independientes publicados. Los colores representan los tamaños del efecto (medidos por razones de probabilidades, OR) de los factores de riesgo de enfermedades, el rojo para los efectos de riesgo y el azul para los efectos protectores. Los efectos significativos después de corregir 231 pruebas (PAGGSMR & lt 2,2 × 10 −4) están etiquetados con OR (PAG-valores). Los efectos nominalmente significativos (PAGGSMR & lt 0.05) están etiquetados con "*"

Obesidad y enfermedades comunes

Los resultados de los análisis de los datos comunitarios mostraron que el IMC tenía efectos de riesgo sobre la diabetes tipo 2 (razón de probabilidades, OR = 3,29), enfermedad hipertensiva (OR = 1,85), dermatofitosis (es decir, tiña) (OR = 1,67), enfermedades vasculares periféricas ( PVD) (OR = 1,59), osteoartritis (OR = 1,50), dislipidemia (OR = 1,37), asma (OR = 1,35) y ECV (OR = 1,30). Los efectos de riesgo del IMC sobre la diabetes tipo 2, las enfermedades cardiovasculares y la enfermedad hipertensiva han sido confirmados por el ECA 35 (datos suplementarios 1), lo que proporciona una validación de prueba de principio. La interpretación de OR(IMC → DT2) = 3,29 es que las personas cuyo IMC es 1 DE (DE = 3,98 para el IMC en hombres europeos correspondiente a

12 kg de peso para hombres de 175 cm de estatura (ver Tabla complementaria 6 para la DE de los factores de riesgo) por encima de la media de la población tendrán un aumento de 3,29 veces en el riesgo de diabetes tipo 2 en comparación con la prevalencia de la población (

8% en EE. UU.). Es interesante notar que la estimación de B xy en el TCF7L2 locus se desvió fuertemente de los de los otros loci (Fig.3), lo que sugiere que el TCF7L2 SNP tiene efectos pleotrópicos sobre el IMC y la DM2. los TCF7L2 El SNP se detectó como un valor atípico mediante el método de valores atípicos de HEIDI y se eliminó del análisis GSMR.Además, el efecto de riesgo del IMC sobre el asma está en consonancia con el resultado de un reciente estudio de RM (utilizando una puntuación de alelos genéticos ponderados como instrumento) de que un IMC más alto aumenta el riesgo de asma infantil 36. Además, identificamos un efecto protector del IMC contra la osteoporosis (OR = 0,68), consistente con las asociaciones observadas en estudios previos 37,38. El efecto de riesgo estimado del IMC sobre la diabetes tipo 2 en los datos de la comunidad (OR = 3,29) fue similar al de los datos de casos y controles (OR = 3,12, Fig. 2b y Datos suplementarios 1). También observamos un fuerte efecto de riesgo del IMC sobre la enfermedad arterial coronaria (EAC) en los datos de casos y controles (OR = 1,70), en línea con el efecto de riesgo del IMC sobre la ECV (OR = 1,30) en los datos de la comunidad.

Análisis GSMR para probar el efecto del IMC en la diabetes tipo 2 con y sin filtrar los valores atípicos pleiotrópicos. Se muestra en la a y B son las gráficas de los tamaños del efecto y la asociación PAG-valores de todos los instrumentos genéticos de GWAS para el IMC frente a los de DT2. Se muestra en la C es la trama de B xy frente a GWAS PAG-valor del IMC en cada variante genética. Se muestra en la D, mi, y F son los gráficos de los instrumentos después de que los valores atípicos pleiotrópicos se hayan eliminado mediante el enfoque de valores atípicos de HEIDI (consulte Métodos para obtener detalles sobre el enfoque de valores atípicos de HEIDI). Barras de error en a y D representan los errores estándar. Las líneas discontinuas en B y mi representan el umbral de GWAS PAG-valor de 5 × 10 −8. Las coordenadas en B, C, mi, y F se truncan a 50 para una mejor presentación gráfica

El sobrepeso es un factor de riesgo para los resultados de salud en general, como lo indica su efecto de riesgo sobre el recuento de enfermedades ( ( hat b_ = 0.41 )) en los datos de la comunidad. La pregunta es entonces cómo B xy para el recuento de enfermedades debe interpretarse. Hemos mostrado en la Fig.9 complementaria que la estimación de B xy para el estado de la enfermedad (un fenotipo dicotómico para indicar si un individuo está afectado por alguna de las 22 enfermedades) fue muy similar al del recuento de enfermedades. Aunque el estado de la enfermedad y el recuento de enfermedades son dos fenotipos distintos y el análisis del recuento de enfermedades es más poderoso, para facilitar la interpretación, B xy para el recuento de enfermedades se puede interpretar aproximadamente como logOR para el estado de la enfermedad. Por tanto, ( hat b_ = 0,41 ) para el recuento de enfermedades es aproximadamente equivalente a OR = 1,51 para el estado de la enfermedad, lo que significa que un aumento del IMC en 1 DE aumentará la probabilidad de verse afectado por cualquiera de las 22 enfermedades en un factor de

1.5. Además, encontramos que los efectos de WHRadjBMI y BMI sobre la enfermedad eran en gran medida concordantes (Fig. Complementaria 10a, Nota complementaria 4).

Niveles de colesterol sérico y enfermedades comunes.

El LDL-c es un factor de riesgo causante conocido de EAC, según lo confirman los ECA 6,7. Encontramos que el c-LDL tenía un efecto de riesgo significativo sobre la dislipidemia (OR = 3,36) y la ECV (OR = 1,22) en los datos de la comunidad y la EAC (OR = 1,50) en los datos de casos y controles (fig. 2). Los TG tuvieron un efecto de riesgo significativo sobre dislipidemia (OR = 2,09), enfermedad hipertensiva (OR = 1,24) y ECV (OR = 1,14) en los datos de la comunidad, y CAD (OR = 1,33) en los datos de casos y controles (fig.2 ). Los efectos de los TG sobre las enfermedades fueron en gran medida consistentes con los de LDL-c (Fig.10b complementaria), a pesar de la modesta correlación fenotípica entre los dos rasgos (r pag = 0,19 en los datos ARIC). Tanto LDL como TG tuvieron efectos de riesgo significativos sobre el recuento de enfermedades en los datos de la comunidad (Fig. 2).

Hubo otro ejemplo en el que el enfoque de valores atípicos de HEIDI detectó efectos fuertes debido a la pleiotropía. El efecto de LDL-c sobre la enfermedad de Alzheimer (EA) fue muy significativo sin filtrado de valores atípicos HEIDI (OR = 1,35 y PAGGSMR = 7,8 × 10 −16) (figura 4). El análisis de valores atípicos de HEIDI marcó 16 SNP, 12 de los cuales se encuentran en el APOE región genética (LD r 2 entre estos SNP & lt 0.05) y todos los cuales tuvieron efectos muy significativos tanto en LDL-c como en EA. La exclusión de estos SNP constituye una prueba GSMR más conservadora porque si existe una relación causal real de un aumento de LDL-c con la EA, entonces la prueba GSMR debe seguir siendo significativa según la evidencia de otros SNP asociados a LDL-c. De hecho, después de eliminar los 16 SNP pleiotrópicos, el efecto estimado del c-LDL en la EA no fue significativo (OR = 1.03, PAGGSMR = 0,47). Sin embargo, las múltiples señales pleiotrópicas agrupadas en el APOE locus merecen una mayor investigación (Fig. 11 complementaria).

Análisis GSMR para probar el efecto del c-LDL en la enfermedad de Alzheimer (EA) con y sin valores atípicos pleiotrópicos. Se muestra en la a y B son las gráficas de los tamaños del efecto y la asociación PAG-valores del conjunto original de instrumentos de GWAS para LDL-c frente a los de AD. Se muestra en la C es la trama de B xy frente a GWAS PAG-valor de LDL-c en cada variante genética. Se muestra en la D, mi, y F son los gráficos de los instrumentos después de que los valores atípicos pleiotrópicos se hayan eliminado mediante el enfoque de valores atípicos de HEIDI (consulte Métodos para obtener detalles sobre el enfoque de valores atípicos de HEIDI). Barras de error en a y D representan los errores estándar. Las líneas discontinuas en B y mi representan el umbral de GWAS PAG-valor de 5 × 10 −8. Las coordenadas en B, C, mi, y F se truncan a 50 para una mejor presentación gráfica

Identificamos un efecto protector significativo del c-LDL contra la DT2 (OR = 0,84, PAGGSMR = 1,1 × 10 −4) en los datos de casos y controles, lo que podría explicar la observación de un estudio anterior de que la reducción del c-LDL mediante el tratamiento con estatinas se asocia con un riesgo ligeramente mayor de diabetes tipo 2 39. La estimación no fue significativa en los datos de la comunidad (probablemente debido a la falta de energía) pero en una dirección consistente (OR = 0.95, PAGGSMR = 0,08). Dada la fuerte correlación genética entre los dos conjuntos de datos de T2D (rgramo = 0,98, EE = 0,062) según lo estimado por el análisis LDSC bivariado 30, realizamos un metanálisis de los dos conjuntos de datos utilizando el enfoque de varianza inversa y realizamos el análisis GSMR para volver a estimar el efecto del c-LDL en la DM2 utilizando el Datos del metanálisis de DT2. El tamaño del efecto fue altamente significativo (OR = 0,88, PAGGSMR = 3.0 × 10 −7 ).

Las consecuencias del HDL-c en los resultados de salud son controvertidas 40. Los estudios observacionales sugieren que el HDL-c se asocia con un riesgo reducido de EAC 41, mientras que los estudios genéticos muestran que el efecto del HDL-c en la EAC no está condicionado de manera significativa a LDL-c y TG 20,21. Encontramos que el c-HDL tuvo efectos protectores contra la diabetes tipo 2 (OR = 0,83), la enfermedad hipertensiva (OR = 0,88), las enfermedades cardiovasculares (OR = 0,88) y el recuento de enfermedades (OR = 0,94) en los datos de la comunidad y la diabetes tipo 2 (OR = 0,81). ) y CAD (OR = 0,84) en los datos de casos y controles. Sin embargo, ninguno de estos efectos siguió siendo un condicionamiento significativo sobre los otros factores de riesgo, lo que sugiere que los efectos marginales del HDL-c sobre las enfermedades dependen de los otros factores de riesgo (ver más abajo para obtener detalles de los resultados de los análisis condicionales). El efecto del HDL-c sobre la dislipidemia es negativo ( ( hat b_ = - 0,21 ) y OR = 0,81), lo cual es obvio porque uno de los criterios de diagnóstico para la dislipidemia es un nivel anormalmente bajo de c-HDL. Además, hubo un efecto de riesgo muy significativo (OR = 1,36) de HDL-c sobre la degeneración macular relacionada con la edad (DMAE) en los datos de casos y controles, en consonancia con el resultado de un estudio de RM reciente 42. Las asociaciones entre los lípidos y la DMAE son controvertidas y los resultados de diferentes estudios observacionales son inconsistentes 43. Nuestros resultados apoyan las observaciones de que el aumento de HDL-c se asocia con un mayor riesgo de AMD 43,44,45. Cabe señalar que LDL-c y TG también parecían estar asociados con AMD antes del filtrado de valores atípicos de HEIDI, pero los efectos no fueron significativos después del filtrado de valores atípicos de HEIDI (Figura complementaria 12), lo que implica que la asociación observada entre LDL-c ( o TG) y AMD en estudios epidemiológicos 43 podrían deberse a pleiotropía.

Presión arterial y enfermedades comunes.

Identificamos efectos de riesgo significativos de la PAS sobre la enfermedad hipertensiva (OR = 4,38), dislipidemia (OR = 1,50), ECV (OR = 1,40) y recuento de enfermedades (OR = 1,43) en los datos de la comunidad, y CAD (OR = 1,73) en los datos de casos y controles. Los resultados para PAS y PAD fueron muy concordantes (Fig. 2 Fig. Complementaria 10c). Se sabe que el efecto de riesgo de la presión arterial sobre la EAC es causal, como lo confirman los ECA 46,47. Tenga en cuenta que es probable que la potencia del análisis GSMR para la presión arterial sea limitada dada la pequeña cantidad de instrumentos utilizados (metro & lt 30).

Efectos condicionales de los factores de riesgo sobre las enfermedades

Hemos identificado (a partir de los análisis anteriores) 45 asociaciones causales significativas entre los factores de riesgo para la salud y las enfermedades (Fig. 2). Como los factores de riesgo no son independientes, buscamos además estimar el efecto de un factor de riesgo en una enfermedad ajustándose a otros factores de riesgo. Para hacer esto, primero investigamos las asociaciones causales entre los factores de riesgo. Detectamos 19 asociaciones significativas mediante el análisis GSMR entre los 7 factores de riesgo con una FWER de 0.05 (PAGGSMR & lt 1,2 × 10 −3) (Fig.13 complementaria). Por ejemplo, el IMC tuvo un efecto negativo significativo en el HDL-c ( ( hat b_ = - 0.29 )), y efectos positivos en TG ( ( hat b_ = 0.28 )) y DBP ( ( hat b_ = 0.15) ).

Desarrollamos un enfoque llamado mtCOJO (URL de análisis conjunto y condicional basado en múltiples rasgos) para realizar un análisis GWAS para un condicionamiento de rasgo en otros rasgos utilizando datos resumidos de GWAS (métodos complementarios de la figura 5). Luego volvimos a ejecutar el análisis GSMR utilizando los datos de resumen de GWAS ajustados del análisis mtCOJO (métodos). El análisis mtCOJO requiere las estimaciones de B xy de los factores de riesgo covariables en el factor de riesgo objetivo y la enfermedad, rgramo entre los factores de riesgo covariables, la heredabilidad basada en SNP ( (h _ << mathrm>> ^ 2 )) para los factores de riesgo covariables y la covarianza de muestreo entre los efectos de SNP estimados a partir de muestras potencialmente superpuestas, todo lo cual se puede calcular a partir de datos resumidos (Tablas complementarias de métodos 7–10). Dados los resultados GSMR similares entre BMI y WHRadjBMI y entre SBP y DBP (Fig. 10 complementaria), no incluimos DBP y WHRadjBMI en el análisis condicional para evitar una corrección excesiva.

Los resultados de los análisis condicionales fueron en gran medida consistentes con los de los análisis incondicionales (Fig. 5 Cuadro complementario 11), lo que sugiere que la mayoría de los efectos marginales son independientes de los otros factores de riesgo analizados en este estudio. El condicionamiento de los otros factores de riesgo, PAS, LDL-c e IMC fueron los tres principales factores de riesgo de EAC, el IMC seguía siendo un factor de riesgo importante para la DT2 y el efecto protector de LDL-c sobre la DT2 se mantuvo prácticamente sin cambios (Fig.14 complementaria). ). Mostramos anteriormente que los análisis GSMR identificaron efectos protectores significativos de HDL-c contra CVD, CAD, T2D e hipertensión (Fig. 15 complementaria). Sin embargo, todos los efectos se convirtieron en condicionamientos no significativos sobre las covariables (es decir, IMC, LDL-c, TG y PAS), lo que sugiere que los efectos marginales de HDL-c sobre las enfermedades no son independientes de las covariables debido a la bidireccionalidad. asociaciones causales entre HDL-c y los otros factores de riesgo como se ilustra en la Fig.13 complementaria. Es difícil distinguir si los efectos de HDL-c en las enfermedades están mediados o impulsados ​​por las covariables (Fig.16 complementaria) debido a la complicada red de asociación entre factores de riesgo y enfermedades (Fig. 14 complementaria). No obstante, podría haber una excepción, es decir, la asociación entre HDL-c y AMD, porque HDL-c es el único riesgo que mostró un efecto significativo en AMD (OR = 1.36 con PAGGSMR = 5,9 × 10 −16) y el tamaño del efecto se mantuvo en gran medida sin cambios y un condicionamiento muy significativo en las covariables (OR condicional = 1,36 con PAGGSMR = 5,1 × 10 −13). Concluimos que es probable que el HDL-c sea un factor de riesgo directo de AMD y que el tamaño del efecto sea independiente de los factores de riesgo covariables analizados en este estudio.

GSMR frente a GSMR condicional. Se muestran los resultados de los análisis GSMR comparados con los de los análisis GSMR condicionales. En el análisis GSMR condicional, el tamaño del efecto de cada factor de riesgo sobre la enfermedad se estimó condicionando los otros factores de riesgo (ver Métodos para obtener detalles del método condicional). “Comunidad”: datos de GWAS de la enfermedad de un metanálisis de los dos estudios basados ​​en la comunidad. “Caso-control”: datos de enfermedad GWAS de estudios independientes de casos y controles publicados. En gris están las asociaciones que no pasan el PAG-valor umbral 2,2 × 10 −4 en el análisis condicional

Dadas las estimaciones de los análisis GSMR condicionales (Fig.5 Tabla complementaria 11), podríamos usar un enfoque aproximado para calcular el efecto agregado de múltiples factores de riesgo en una enfermedad, es decir, ( log left (<< mathrm>> right) = < sum> <[x_i log left (<< mathrm> _i> derecha)]> ). He aquí un ejemplo hipotético. Si todos los factores de riesgo aumentan en 1 DE (es decir,

19 mm Hg para PAS), tendríamos un mayor riesgo de

2,3 veces a T2D (mi 1,01-0,17) y 4,5 veces CAD (mi 0.41+0.47+0.14+0.48 ).

Efectos de otros fenotipos sobre las enfermedades.

Habiendo identificado una serie de asociaciones causales entre siete factores de riesgo modificables y enfermedades comunes, buscamos probar si existían asociaciones causales entre otros fenotipos y enfermedades. Se incluyeron en el análisis dos rasgos, talla 48 y años de escolaridad 49 (EduYears), para los cuales había un gran número de instrumentos debido a los grandes tamaños de muestra de GWAS. Seleccionamos 811 y 119 SNP significativos para todo el genoma (GWS) casi independientes para la altura y los años educativos, respectivamente, utilizando el análisis de agrupamiento (métodos). El umbral PAGGSMR después de la corrección de Bonferroni fue de 7,6 × 10 −4, corrigiendo 66 pruebas. La gran cantidad de instrumentos de altura nos dio suficiente poder para detectar un pequeño efecto (Fig. 6 Tabla complementaria 12 Nota complementaria 5).

Efectos de la altura y el nivel educativo sobre enfermedades comunes. Se muestran los resultados de los análisis GSMR con datos de enfermedades. a a partir de un metanálisis de los estudios GERA y UKB y B de estudios de casos y controles independientes publicados. Los colores representan los tamaños del efecto (medidos por razones de probabilidades, OR) de los factores de riesgo de enfermedades, el rojo para los efectos de riesgo y el azul para los efectos protectores. Los efectos significativos después de corregir para múltiples pruebas (PAGGSMR & lt 7,6 × 10 −4) están etiquetados con OR (PAG-valores). Los efectos nominalmente significativos (PAGGSMR & lt 0.05) están etiquetados con "*"

Nuestros resultados también mostraron que EduYears tuvo efectos protectores contra casi todas las enfermedades (Fig. 6 y Tabla complementaria 12). Mostró efecto protector contra EVP (OR = 0,54), enfermedades hipertensivas (OR = 0,62), DM2 (OR = 0,64), dislipidemia (OR = 0,71) y ECV (OR = 0,73) en los datos de la comunidad, y AR (OR = 0,44), AD (OR = 0,61) y CAD (OR = 0,63) en los datos de casos y controles. También mostró un efecto protector significativo sobre el recuento de enfermedades (OR = 0,74), lo que sugiere que el logro educativo protege los resultados generales de salud. El efecto protector de EduYears contra la EA es consistente con la asociación observada en estudios epidemiológicos 50. Por otro lado, sin embargo, EduYears mostró un fuerte efecto de riesgo sobre el trastorno del espectro autista (OR = 2,30) (Nota complementaria 6), que no está influenciado por valores atípicos de SNP (Figura complementaria 17) y es consistente con una estimación positiva de correlación genética. (r gramo = 0,28, SE = 0,038) de un análisis de regresión de puntuación LD bivariado 30.

Análisis GSMR inverso

Es importante señalar que es poco probable que las asociaciones causales identificadas a partir de los análisis GSMR anteriores se expliquen por la causalidad inversa por dos razones. Primero, los individuos usados ​​en GWAS para factores de riesgo eran independientes de los individuos usados ​​en GWAS para enfermedades (la única excepción fue que el conjunto de datos GWAS de presión arterial era parte de los datos GWAS de enfermedades basadas en la comunidad). En segundo lugar, si las asociaciones presentadas anteriormente están impulsadas por la causalidad inversa, esperaríamos ver fuertes señales de asociación de los instrumentos con las enfermedades, lo cual no es el caso como se demuestra en la Fig.18 complementaria, una idea no muy diferente del análisis de asimetría. que se ha utilizado para inferir causalidad en un estudio previo 16,22. Sin embargo, es interesante investigar los cambios en los factores de riesgo después del desarrollo de las enfermedades. Para hacer esto, seleccionamos instrumentos para enfermedades a partir de los datos de GWAS de la enfermedad (es decir, SNP de GWS para la enfermedad, por lo tanto, los instrumentos utilizados en el análisis GSMR inverso eran distintos de los utilizados en el análisis GSMR directo). La tasa de falsos positivos de GSMR inverso está bien calibrada, como lo demuestra la simulación bajo el valor nulo de que no hay efecto inverso (Fig. 19 complementaria). Realizamos un análisis GSMR inverso de los factores de riesgo y enfermedades para los cuales había una asociación significativa en el análisis GSMR directo anterior (Nota complementaria 7). Identificamos 10 efectos inversos significativos (es decir, el efecto de la enfermedad sobre el factor de riesgo) en los datos de la comunidad y 4 en los datos de casos y controles con una FWER de 0,05 (PAGGSMR inverso & lt 1.0 × 10 −3) (Tabla complementaria 13). Las estimaciones de los efectos inversos fueron muy pequeñas en comparación con las de los efectos directos. Para evitar una prueba de poca potencia, limitamos el análisis GSMR inverso a enfermedades con más de 10 instrumentos. Dado el hecho de que algunas de las pequeñas estimaciones de los efectos inversos fueron altamente significativas (Tabla complementaria 13), es poco probable que la gran diferencia en el tamaño del efecto estimado entre los análisis directo y inverso se deba a la falta de poder en el análisis inverso. . Además, confirmamos mediante simulación que la estimación GSMR de B xy es imparcial independientemente del tamaño de la muestra para la exposición (Fig. 20 complementaria). Curiosamente, hubo dos casos en los que los efectos directos e inversos estimados estaban en direcciones opuestas, es decir, ( hat b_<>> a < mathrm> 2 < mathrm>)> = 1,19 ) y ( hat b_<>> 2 < mathrm> a < mathrm>)> < mathrm <= >> -0.07 left (

> derecha) ) ( hat b_<>> a < mathrm>)> = 0.32 ) y ( hat b_<>> a < mathrm>)> = - 0.03 ) ( left (

> right) ), lo que significa que aunque el IMC es un factor de riesgo para las dos enfermedades, los pacientes que han desarrollado las enfermedades pueden tender a perder peso.


2 Preprocesamiento de datos

  • Archivos .ped y.map: el archivo .ped contiene información sobre cada participante del estudio, incluida la identificación de la familia, la identificación del participante, la identificación del padre, la identificación de la madre, el sexo, el fenotipo y el genotipo completo. Aquí, cada SNP es bialélico (es decir, solo se observan dos nucleótidos en cualquier SNP dado entre los participantes del estudio) y se codifica como un par de nucleótidos (A, C, T o G).En particular, el orden en el par no es informativo en el sentido de que los primeros alelos enumerados para cada uno de los dos SNP no están necesariamente en el mismo cromosoma. El archivo .map contiene una fila para cada SNP con rsNumber (SNP) y el cromosoma (chr) y las coordenadas (BPPos) correspondientes en función de la construcción del genoma actual.
  • Archivos .bim, .bed y.fam: el archivo .bim contiene la misma información que el archivo .map, así como los dos alelos observados en cada SNP (A1 y A2) del archivo .ped. Contiene una fila para cada SNP y seis columnas, que contienen información para el número de cromosoma, rsNumber, distancia genética, identificador de posición, alelo 1 y alelo 2. El archivo .bed contiene una versión binaria de los datos del genotipo. Este es el más grande de los tres archivos porque contiene todos los SNP del estudio, así como el genotipo en este SNP para cada individuo. El archivo.fam contiene la información de identificación del participante, incluida una fila para cada individuo y seis columnas, correspondientes a las mismas columnas descritas para el archivo .ped con la excepción de los datos del genotipo. Tenga en cuenta que no todas estas columnas contienen información única. Es decir, en un estudio poblacional de personas no relacionadas, "número de identificación familiar" y "número de identificación individual" será el mismo.
  • Archivo de datos clínicos: normalmente se encuentra disponible un archivo ascii.txt o.csv adicional, que incluye datos clínicos sobre cada sujeto del estudio. Las filas de este archivo representan cada tema y las columnas corresponden a las covariables y fenotipos disponibles. Puede haber redundancias en este archivo y los datos contenidos en las columnas etiquetadas "sexo" y "fenotipo" en el archivo.fam.

2.1 Lectura y formateo de datos en R (paso 1)

En el ejemplo de datos proporcionado, la información del genotipo está disponible para 861,473 SNP tipificados en norte = 1401 individuos con datos fenotípicos disponibles.

Como se ilustra en la Figura 1, una vez que hayamos leído el genotipo y la información clínica, estamos listos para continuar con los siguientes pasos del preprocesamiento de datos de GWA. Esto implica dos etapas de filtrado de datos, a nivel de SNP y de muestra, respectivamente. Cada uno de estos se describe con más detalle en los textos siguientes, acompañado del código R apropiado para la implementación. Observamos nuevamente que el orden de análisis puede variar dependiendo de si se está realizando un solo análisis de GWA (como se describe en este documento) o si el analista está preparando los resultados para incorporarlos en un metanálisis más amplio que requiere la armonización de datos en múltiples estudios. En el último caso, los siguientes pasos de filtrado (pasos 2, 3 y 4) pueden excluirse o realizarse de forma centralizada después del análisis (pasos 7 y 8), ya que los datos de nivel de resumen se combinan entre los estudios.

2.2 Filtrado a nivel de polimorfismo de un solo nucleótido - parte 1 (paso 2)

  • Filtrado a nivel SNP: tasa de llamada. La tasa de llamada para un SNP dado se define como la proporción de individuos en el estudio para los que no falta la información del SNP correspondiente. En el siguiente ejemplo, filtramos usando una tasa de llamadas de 95%, lo que significa que retenemos SNP para los que hay menos de 5% datos perdidos. Puntos de corte más estrictos (p. Ej., Menos de 5%) pueden emplearse en entornos de muestra más pequeños.
  • Filtrado a nivel de SNP: frecuencia de alelos menores (MAF). Un alto grado de homogeneidad en un SNP dado entre los participantes del estudio generalmente da como resultado un poder inadecuado para inferir una relación estadísticamente significativa entre el SNP y el rasgo en estudio. Esto puede ocurrir cuando tenemos un MAF muy pequeño, de modo que la gran mayoría de los individuos tienen dos copias del alelo principal. Aquí, eliminamos los SNP para los que el MAF es menor que 1%. En algunos casos, particularmente en configuraciones de muestra pequeñas, un punto de corte de 5% Está aplicado.

En el ejemplo de datos proporcionado, filtramos 203,287 SNP según la tasa de llamada & lt0.95 y / o MAF & lt0.01.

2.3 Filtrado a nivel de muestra (paso 3)

  • Filtrado a nivel de muestra: tasa de llamada. De manera similar al filtrado de nivel de SNP basado en la tasa de llamadas, excluimos a las personas a las que les faltan datos de genotipo en más de un porcentaje predefinido de los SNP tipificados. Esta proporción de ausencias en los SNP se denomina tasa de llamadas de muestra y aplicamos un umbral de 95%. Es decir, los individuos a los que les faltan datos de genotipo durante más de 5% de los SNP tipificados se eliminan. Se crea un nuevo objeto de genotipo SnpMatrix de dimensión reducida, que incorpora este filtro.
  • Filtrado a nivel de muestra: heterocigosidad. La heterocigosidad se refiere a la presencia de cada uno de los dos alelos en un SNP dado dentro de un individuo. Se espera que esto ocurra bajo HWE con probabilidad 2 ∗pag∗(1 − pag), dónde pag es la frecuencia alélica dominante en ese SNP (asumiendo un SNP bialélico). El exceso de heterocigosidad entre los SNP tipificados dentro de un individuo puede ser un indicio de mala calidad de la muestra, mientras que la heterocigosidad deficiente puede indicar endogamia u otra subestructura en esa persona 23. Por tanto, muestras con coeficiente de consanguinidad |F|=(1 − O/mi) & gt 0.10 se eliminan, donde O y mi son respectivamente los recuentos observados y esperados de SNP heterocigotos dentro de un individuo. Tenga en cuenta que calculamos los recuentos esperados para cada individuo en función de los SNP observados para ese individuo.

Filtrado a nivel de muestra: parentesco críptico, duplicados e identidad de género. Los estudios de cohortes basados ​​en la población a menudo se limitan a individuos no relacionados, y el enfoque de modelado lineal generalizado descrito en el paso 7 (análisis de asociación de SNP tipificados) posteriormente asume la independencia entre los individuos. En la Sección 6 se ofrece más información sobre las estructuras de datos alternativas y las herramientas de análisis asociadas. Es importante destacar que en los estudios de cohortes regionales (por ejemplo, estudios de cohortes en hospitales) de enfermedades complejas, es posible reclutar involuntariamente a individuos de la misma familia. Una medida común de parentesco (o duplicación) entre pares de muestras se basa en la identidad por descendencia (EII). Un coeficiente de parentesco de IBD superior a 0,10 puede sugerir parentesco, duplicados o mezcla de muestras. Normalmente, se elimina el individuo de un par relacionado con una tasa de llamada de genotipo más baja. Observamos que la identidad de género también se puede verificar en esta etapa para confirmar que el género autoinformado es consistente con los cromosomas X e Y observados; sin embargo, en el ejemplo de datos proporcionado, los cromosomas sexuales no están disponibles y, por lo tanto, un ejemplo de filtrado en no se proporciona identidad de género.

Comenzamos aplicando poda de desequilibrio de ligamiento (LD) utilizando un valor umbral de 0,2, que elimina un gran grado de redundancia en los datos y reduce la influencia de los artefactos cromosómicos 6. Este paso de reducción de dimensión se aplica comúnmente antes del análisis de IBD y PCA, aplicado en los textos posteriores para el filtrado de ascendencia, y da como resultado grandes ahorros computacionales.

Esto reduce el número de SNP de 658.186 al final del paso 2 a 72.812. A continuación, calculamos las distancias de IBD por pares para buscar la relación de la muestra. Se emplea una estrategia que elimina iterativamente a los sujetos con el mayor número de coeficientes de parentesco por parejas & gt0.1.

En nuestro ejemplo, ninguna de las muestras se filtra según el coeficiente de parentesco de EII & gt0.10.

Filtrado a nivel de muestra: ascendencia. La PCA es un enfoque para visualizar y clasificar a los individuos en grupos de ascendencia según su composición genética observada. Hacemos esto por dos razones: Primero, la raza y etnia autoinformada pueden diferir de grupos de individuos que se basan únicamente en información genética, y segundo, la presencia de un individuo que no parece pertenecer a un grupo racial / étnico puede ser sugerente. de un error a nivel de muestra. Tenga en cuenta que usamos el subconjunto de 72,812 SNP después de la poda de LD (paso 3-c) como entrada para el PCA. Una estrategia alternativa a la poda de LD de primera etapa, que también mejora la eficiencia computacional, es el análisis 'HapMap arraigado', que implica realizar primero PCA en un panel de referencia, por ejemplo, HapMap o 1000 genomas, y luego proyectar la muestra del estudio en el espacio resultante. Este enfoque no se presenta en este documento, pero se puede implementar con las funcionalidades existentes del software INference for Gwas (KING) basado en parentesco 24.

No se filtran muestras adicionales en función de la inspección visual de las parcelas de PCA. Nuevamente, esperamos esto ya que los datos de PennCATH proporcionados están prefiltrados.

2.4 Filtrado a nivel de polimorfismo de un solo nucleótido - parte 2 (paso 4)

Filtrado a nivel SNP: HWE. Las violaciones de HWE pueden ser una indicación de la presencia de una subestructura de población o la aparición de un error de genotipado. Si bien no siempre se pueden distinguir, es una práctica común suponer un error de genotipado y eliminar los SNP para los que se infringe la HWE. Si el estado de casos y controles está disponible, limitamos este filtrado al análisis de los controles, ya que una violación en los casos puede ser una indicación de asociación. Las salidas de HWE generalmente se miden en un SNP dado usando un χ 2 prueba de bondad de ajuste entre los genotipos observados y esperados. Eliminamos los SNP para los que la estadística de prueba HWE tiene un pag-valor de menos de 1 × 10 −6 en controles.

Filtramos 1.296 SNP adicionales basados ​​en HWE pag & lt 1 × 10 −6 en controles CAD. Esto da como resultado que se consideren 656.890 SNP tipificados en el análisis de asociación.


Métodos

Procesamiento de datos

Para armonizar el conjunto de variantes genéticas en los cuatro conjuntos de datos, imputamos los genotipos de todos los individuos en los cuatro estudios utilizando el 1000G Phase 3 v5 como un panel de referencia común (Michigan Imputation Server [54]). Tras la imputación, solo se conservaron las variantes genéticas no duplicadas con una puntuación INFO superior a 0,9. Filtramos variantes con Hardy-Weinberg Equilibrium (HWE) pag valores por debajo de 10-5, con una tasa de genotipo faltante superior al 5% y con una frecuencia de alelos menores por debajo del 5% utilizando PLINK v1.9 [55]. Usamos el conjunto restante de variantes en todos los análisis posteriores, a menos que se indique lo contrario. Para excluir a los individuos atípicos, calculamos los componentes principales del genotipo (PC) utilizando smartpca [56]. Se identificaron cinco valores atípicos en el conjunto de datos DICE y se eliminaron de los análisis posteriores.

Para cuantificar los niveles de expresión génica, utilizamos Kallisto [57] y sumamos las estimaciones de transcripción por millón (TPM) de todas las isoformas GENCODE 19 [58] para obtener un TPM a nivel de gen. A continuación, se escalaron los TPM a nivel de genes y se normalizaron cuantil-cuantil como se describió anteriormente [17]. Los componentes principales de la expresión génica se calcularon utilizando la función prcomp en R. Para cuantificar el empalme de ARN, las lecturas de ARN-seq se alinearon con el gnomo de referencia de hg19 utilizando STAR 2.6.0 [59] con la anotación GENCODE 19. Para evitar el mapeo de lecturas con sesgo alélico, utilizamos WASP [60] como se implementó en STAR 2.6.0 proporcionando los datos del genotipo correspondiente. Este es un paso importante ya que encontramos un aumento sustancial en el número de QTL de empalme falso positivo debido al sesgo alélico en el mapeo de lectura. De hecho, cuando las lecturas que representan diferentes alelos se asignan a diferentes regiones del genoma, la cartografía QTL será susceptible de identificar asociaciones espúreas entre los alelos y la cobertura de lectura en esas regiones genómicas [23]. Las uniones exón-exón se extrajeron utilizando RegTools [61], y se agruparon y cuantificaron utilizando LeafCutter [23]. Como era de esperar, observamos que el número de uniones exón-exón identificadas en cada muestra se correlaciona positivamente con la profundidad de secuenciación en el consorcio DICE (Figura S1). Para armonizar la cuantificación para el uso de uniones de empalme entre tipos de células y conjuntos de datos en los 18 tipos de células inmunes, los grupos se fusionaron y la unión fusionada se utilizó para volver a calcular el uso de intrones en todas las muestras.

Análisis MashR en el conjunto de datos DICE

Para cuantificar el intercambio de eQTL y sQTL en el conjunto de datos DICE, seguimos el flujo de trabajo proporcionado por los autores de MashR (https://github.com/stephenslab/gtexresults) que se describió previamente en [19]. Brevemente, los errores estándar de los tamaños del efecto de QTL se calcularon a partir de la salida nominal de FastQTL, que se utilizaron junto con los tamaños del efecto como entrada para mezcla. Para cuantificar la estructura de correlación de las pruebas nulas, el 30% de todas las pruebas se muestrearon al azar (denominado conjunto "aleatorio"). Para obtener un conjunto confiable de QTL para cada característica (gen o intrón), el SNP con el menor PAG-valor en todos los SNP probados y se extrajeron todos los tipos de células para cada característica. Esto resultó en una matriz característica por muestra de los tamaños del efecto y sus errores estándar sin valores perdidos denominados el conjunto "fuerte". Para los eQTL, incluimos todos los genes que codifican proteínas. Para las sQTL, incluimos todos los intrones. Las matrices de covarianza basadas en datos se calcularon a partir del conjunto "fuerte". Luego construimos un mezcla modelo utilizando el conjunto "aleatorio" con el modo de efectos de intercambio (EE) para estimar los valores a priori. Este modelo se aplicó luego al conjunto "fuerte" para calcular los tamaños del efecto medio posterior (mezcla tamaños de efecto). QTL significativos después mezcla Los análisis fueron pares de características-SNP con una tasa local de falsos signos (LFSR) por debajo de 0,05, como sugiere [19]. El nivel de intercambio de QTL se cuantificó como intercambio general y por pares. En general, se determinó que el intercambio es el número de tipos de células en las que una característica determinada tiene un QTL regulador (LFSR & lt0.05). El intercambio por parejas se cuantificó tanto por magnitud como por signo. La proporción por magnitud entre dos tipos de células corresponde a la proporción de QTL que es significativa en uno de los tipos de células y los tamaños del efecto medio posterior difieren en no más del doble. La participación por signo entre dos tipos de células corresponde a la proporción de QTL que era significativa en uno de los tipos de células y tenía el mismo signo. Los 15 tipos de células en DICE se agruparon en 6 grupos de células según el intercambio de eQTL por magnitud (ver Fig. 2b).

Caracterización de QTL regulatorios

Para calcular la distancia entre los eQTL y sus genes diana, definimos el promotor de cada gen como la región de 2000 pb en sentido ascendente y 500 pb en sentido descendente de TSS. Probamos el enriquecimiento de eQTL en elementos regulatorios de Ensembl Regulatory Build y el conjunto de picos de ATAC-seq de consenso de Calderon et al. [41]. Clasificamos todos los picos de ATAC-seq para que sean un potenciador o un promotor en función de si se superponen con cualquier región promotora (2000 pb aguas arriba y 500 pb aguas abajo de TSS). El número observado y esperado de QTL que se superponen con cada característica se estimó utilizando el comando fenrich de QTLtools [62], y las razones de probabilidad de enriquecimiento se calcularon proporcionando ese número a la prueba exacta de Fisher en R. Validamos los eQTL de DICE en otros conjuntos de datos utilizando π1 estadísticas [63], estratificando los eQTL por sus niveles de compartición en seis grupos celulares estimados por mezcla (específico: en un grupo celular intermedio: 2-5 grupos celulares compartidos: 6 grupos celulares). Los intervalos de confianza del 95% de π1 se estimó utilizando 1000 bootstraps (es decir, volver a muestrear los eQTL de DICE con reemplazo).

Colocalización

COLOC Se realizaron análisis de colocalización entre eQTL / sQTL y 72 estadísticas resumidas de GWAS disponibles públicamente para 11 enfermedades autoinmunes (14 estudios), a saber, artritis reumatoide (AR) [64], enfermedad de Crohn (EC) [27, 30], colitis ulcerosa (CU) ) [27, 30], enfermedad inflamatoria intestinal (EII) [27, 30], alergia y eccema (EA) [65], asma, fiebre del heno y eccema (alergia para abreviar) [66], dermatitis apoptótica (ApD) [ 67], asma [68, 69], lupus eritematoso sistémico (LES) [70] y esclerosis múltiple [71]. También recopilamos 36 GWAS para rasgos relacionados con la sangre [72], 11 GWAS relacionados con las funciones cardíacas y el sistema circulatorio [73] y varios otros rasgos, incluida la diabetes tipo 2 (DT2) [74], la enfermedad de Alzheimer (EA) [75] , Enfermedad de Parkinson (EP) [76], tasa de filtración glomerular estimada (TFGe) [77], estatura [78] y supervivencia al cáncer de mama [79] y otros cánceres / neoplasias [73]. Consideramos los 14 GWAS autoinmunes y los 36 relacionados con la sangre como GWAS inmunes, y los 22 GWAS restantes como GWAS no inmunes.

Para evaluar la colocalización entre los loci de GWAS y los QTL, primero identificamos las variantes de GWAS principales y su región flanqueante en la que se iba a probar la colocalización. Específicamente, todas las variantes disponibles en las estadísticas de resumen de GWAS se ordenaron por pag-valores en orden creciente. Partiendo de la variante con la más pequeña pag-valor (variante principal), se eliminaron las variantes dentro de la ventana de 500 Kb a ambos lados de la variante principal. Esto dio como resultado un locus GWAS de 1 Mbp para el análisis de colocalización. A continuación, se aplicó el mismo procedimiento a la siguiente variante más significativa entre las variantes restantes, hasta que ninguna variante con pag se dejó un valor por debajo de 10 -7. La región HLA (Chr6: 25–35 Mb) se excluyó de la colocalización. Solo se incluyeron en nuestro análisis GWAS con más de 10 loci identificados. Para cada locus GWAS identificado anteriormente, la colocalización se probó solo si albergaba un QTL regulador con distribución beta permutada pag valor por debajo de 0.01 (bpval & lt0.01) según lo informado por FastQTL en la ventana de 1 Mb que flanquea al GWAS SNP líder. Se utilizaron a priori por defecto para COLOC. Establecemos PP4 & gt0.75 como el umbral de colocalización. La proporción de colocalización se calculó como la proporción de loci colocalizados entre todos los loci identificados en un GWAS.

Los resultados de la colocalización se visualizaron utilizando una función adaptada de LocusCompare [80]. Para un locus dado, el SNP con la mayor probabilidad posterior de COLOC se definió como el SNP colocalizado. r 2 en relación con el SNP colocalizado se calcularon a partir de los genotipos en el estudio QTL. Para visualizar el sQTL en forma de un diagrama de Sashimi [81], primero agrupamos a los individuos por sus genotipos, y luego extrajimos las lecturas de RNA-seq que se asignaron al grupo que contiene el intrón a visualizar. Para hacer la cobertura comparable entre diferentes genotipos, escalamos la cobertura de lectura por el número de individuos que portan cada genotipo usando el argumento scaleFactor en bamCoverage de Deeptools [82] al generar archivos bigWig. A continuación, se visualizó la cobertura utilizando pyGenomeTracks [83].

Los datos Cis-eQTL de eQTLGen [43] se obtuvieron directamente del sitio web (https://eqtlgen.org/cis-eqtls.html). También descargamos frecuencias alélicas de 26,609 muestras de eQTLGen (excluyendo el Framingham Heart Study), que se utilizaron en nuestro análisis de colocalización. Es de destacar que el conjunto de datos de DGN también se incluye en el metanálisis de eQTLGen, pero no altera la interpretación de ninguno de nuestros análisis.

HyPrColoc Los pares de genes GWAS probados en HyPrColoc se seleccionaron de la misma manera que COLOC. Establecimos PP & gt0.25 como el umbral de colocalización recomendado por los autores [52].

Validación de la colocalización específica de células inmunes para rasgos no inmunes Validamos la colocalización de 14 rasgos no inmunes (11 relacionados con el corazón, la EA, la EP y la supervivencia al cáncer de mama) en células inmunes DICE utilizando GTEx V7 eQTL. Primero elegimos varios tejidos en GTEx que son más relevantes para cada rasgo de GWAS.Para los rasgos relacionados con el corazón, elegimos tejidos en el corazón y el sistema circulatorio (Arteria - Aorta, Arteria - Coronaria, Arteria - Tibial, Corazón - Apéndice auricular, Corazón - Ventrículo izquierdo). Para la EA y la EP, incluimos los 13 tejidos cerebrales (Cerebro - Amígdala, Cerebro - Corteza cingulada anterior (BA24), Cerebro - Caudado (ganglios basales), Cerebro - Hemisferio cerebeloso, Cerebro - Cerebelo, Cerebro - Corteza, Cerebro - Corteza frontal (BA9), cerebro - hipocampo, cerebro - hipotálamo, cerebro - núcleo accumbens (ganglios basales), cerebro - putamen (ganglios basales), cerebro - médula espinal (cervical c-1), cerebro - sustancia negra). Para la supervivencia del cáncer de mama, utilizamos tejido adiposo y tejido mamario (Adiposo - Subcutáneo, Adiposo - Visceral (Omentum), Mama - Tejido mamario). Luego identificamos todos los pares gen-SNP colocalizados para estos 14 GWAS en DICE, y extrajimos sus PAG valores de GTEx eQTL en los tejidos relevantes, así como de DICE eQTL en todos los tipos de células inmunes. Dado que una gran proporción de eQTL se comparten en DICE, agrupamos los 15 tipos de células inmunitarias en 6 grupos, asignando los más pequeños PAG valor de todos los tipos de células dentro de un grupo dado a ese grupo para cada gen. Usamos la corrección de Bonferroni para ajustar PAG valores para pruebas múltiples. Finalmente, calculamos la proporción par gen-SNP que se ha ajustado PAG valor por debajo de 0,05 en DICE pero no en tejidos GTEx.

Caracterizaciones de loci GWAS no localizados Restringimos este análisis a los loci de los 14 GWAS autoinmunes que no se colocalizaron con un en BLUEPRINT QTL. Todos los genes se clasificaron en cuatro categorías: genes con un eQTL que se colocalizó en un locus GWAS, genes que son los más cercanos a un locus GWAS, genes que están más cerca de un locus GWAS no colocalizado y todos los genes restantes. Comparamos el nivel de expresión génica en los tres tipos de células BLUEPRINT por separado. Los valores del nivel de expresión génica para los tres tipos de células se combinaron y se representaron en la Fig. 5a. También obtuvimos la puntuación del dominio potenciador (EDS) [39] y la "fracción del límite superior observada / esperada con pérdida de función" (LOEUF) [40] para todos los genes disponibles y comparamos la distribución de EDS y LOEUF en las cuatro categorías anteriores. .

Para probar el enriquecimiento de loci no colocalizados en picos de ATAC-seq en células inmunes estimuladas, construimos una tabla de contingencia contando el número de loci colocalizados y no colocalizados superpuestos picos de ATAC-seq estimulados y no estimulados, respectivamente. Luego probamos la hipótesis de que los loci no colocalizados estaban más altamente enriquecidos en las regiones de cromatina abiertas estimuladas en comparación con los loci colocalizados usando la prueba exacta de Fisher. Estimamos el intervalo confidencial de estimaciones del 95% arrancando loci GWAS sin localizar 1000 veces con reemplazo.

Razonamos que los efectos regulatorios de muchos loci GWAS no localizados podrían ser demasiado pequeños para ser detectados debido a los tamaños de muestra pequeños. Para probar esta posibilidad, determinamos eQTLs solo en loci GWAS no colocalizados. Brevemente, extrajimos las pruebas de QTL en el SNP principal de los loci no colocalizados. Se filtraron los pares de genes y locus de GWAS que ya se han probado en COLOC pero que no se colocalizaron. Dado que es común que un SNP principal esté asociado con muchos genes, ajustamos el PAG valores por número de genes probados en cada loci usando la corrección de Bonferroni y eligió el gen con el menor PAG valor. Luego calculamos la proporción de genes con PAG valor por debajo de 0,05. Este análisis se aplicó a cada GWAS autoinmune en cada tipo de célula en el conjunto de datos BLUEPRINT.

Recolección y análisis de muestras de AR

Recolección de muestras y experimento CUT & ampTag Todas las muestras clínicas se obtuvieron del Hospital Xijing. Se recolectaron muestras de sangre periférica y líquido sinovial de 6 pacientes con AR en el Departamento de Inmunología Clínica del Hospital Xijing. Todos los pacientes con AR cumplieron los criterios revisados ​​del Colegio Americano de Reumatología de 1987 y los criterios de clasificación de la artritis reumatoide ACR 2010 [84], y sus características clínicas se muestran en el archivo adicional 1: Tabla S7. Además, se recolectaron muestras de sangre periférica de 4 individuos sanos. Todas las muestras de sangre y líquido sinovial se sometieron a centrifugación en gradiente utilizando un medio de separación de linfocitos (MP Biomedicals, 0850494) para aislar células mononucleares, que se criopreservaron para experimentos posteriores.

Las células mononucleares criopreservadas se descongelaron en RPMI / FBS al 10%, se lavaron una vez en solución salina tamponada con fosfato estéril (PBS Beyotime, ST476) y se tiñeron con los siguientes anticuerpos en PBS durante 30 min: anti-CD3-APC / Cy7 (Biolegend, 300426), anti-CD4-PE / Cy7 (Biolegend, 357410), anti-CD8-Percp / Cy5.5 (Biolegend, 301032), anti-CD25-PE / CF594 (BD Horizon, 562525), anti-CD19-FITC (Biolegend, 302206) y anti-CD14-APC (Biolegend, 301808). Células T CD4 + (CD3 +, CD4 +, CD8 -), células T CD8 + (CD3 +, CD4 -, CD8 +), T reg Las células (CD3 +, CD4 +, CD8 -, CD25 +), las células B (CD3 -, CD19 +) y los monocitos (CD3 -, CD14 +) fueron clasificadas por FACSAria III (BD Pharmingen, San Diego, EE. UU.) directamente en tampón de lavado para CUT & ampTag, con un máximo de 1 × 10 5 celdas para cada tipo de celda. Perfilamos H3K27ac (abcam ab4729) para cada tipo de célula siguiendo el protocolo estándar CUT & ampTag (https://www.protocols.io/view/bench-top-cut-amp-tag-z6hf9b6) [21]. Las muestras se procesaron en diferentes lotes y nos aseguramos de incluir al menos un individuo sano y un paciente con AR en cada lote para minimizar los efectos del lote que se alinean con las diferencias biológicas que nos interesan.

Análisis de datos CUT y ampTag Las bibliotecas de ADN se sometieron a secuenciación de extremos emparejados (PE) de 150 pb. Las lecturas de secuenciación se alinearon con el genoma de referencia humano hg19 usando Bowtie 2 [45] con parámetros –local –muy-sensitivo-local –no-unal –no-mixto –no discordante –phred33 –mininas 10 –maxinas 700. Las lecturas alineadas se filtraron usando Samtools con -F 1804 -f 2 -q 30 [85]. Las muestras con menos de 2 millones de lecturas se excluyeron de los análisis posteriores. Se fusionaron archivos BAM filtrados para muestras que tienen el mismo estado de enfermedad (saludable / AR), tipo de tejido (PBMC / SF) y tipo de célula. La cobertura de lectura se calculó utilizando bamCoverage en una ventana de 10 pb normalizada por RPKM [82]. Los picos H3K27ac se llamaron desde los archivos BAM fusionados utilizando MACS2 con parámetros –format BAMPE –broad –broad-cutoff 0.1 –qvalue 0.1 –extsize 146 [46]. Razonamos que llamar a picos de archivos BAM fusionados aumenta la relación señal / ruido. Para generar un conjunto de picos de consenso, fusionamos todos los picos utilizando bedtools merge [86], lo que resultó en 90.412 picos. Luego contamos el número de fragmentos que se superponen con el pico de consenso establecido en cada muestra utilizando featureCounts [87].

El análisis diferencial de los picos se realizó utilizando limma [88]. Calculamos el log2CPM promedio en muestras con el mismo estado de enfermedad, tipo de tejido y tipo de célula. Este log2CPM promedio solo se usó para filtrar nuestros picos con recuentos bajos de fragmentos. Los picos con log2CPM promedio por debajo de 2 en todos los grupos se excluyeron del análisis diferencial. Luego, se calcularon los factores de normalización a partir de los picos restantes utilizando el método TMM y los recuentos en cada muestra se convirtieron en log2CPM. Dado que las muestras se procesaron en diferentes lotes, usamos ComBat para ajustar los lotes al tiempo que incluimos el estado de la enfermedad, el tipo de tejido y el tipo de célula como nuestra variable de interés. Construimos una matriz de contraste comparando RA SF vs RA PBMC, RA SF vs Healthy PBMC y RA PBMC vs Healthy PBMC en cada uno, y aplicamos el método de tendencia. Los picos diferenciales se definieron como log2 veces el cambio (log2 (FC)) mayor que 1 o menor que -1, y FDR por debajo de 0,1.

Superpusimos picos de H3K27ac regulados al alza en muestras de RA con loci RA GWAS no colocalizados. Primero hicimos un mapa fino de las estadísticas resumidas de RA GWAS utilizando SuSiE [51]. Se realizó un mapeo fino en cada locus que usamos en nuestro análisis de colocalización. Suministramos GWAS Z-puntuaciones, matriz de correlación de genotipos de CEU y GBR del 1000 Genome Project como panel de referencia y el tamaño de muestra del panel de referencia a la función susie_rss.

Estimamos el enriquecimiento de la heredabilidad de SNP de RA en nuestros picos de H3K27ac utilizando Regresión de puntuación de LD estratificada (S-LDSC) [5]. Usamos picos MACS2 de archivos BAM fusionados, que se ampliaron en 500 pb en ambos lados. Para reproducir el análisis de heredabilidad de Calderon et al. [41], utilizamos los picos MACS2 compartidos por los autores.


Estudiar diseños para enriquecer o priorizar variantes raras

Se han utilizado diseños de estudios que explotan características únicas de diferentes poblaciones para aumentar el poder en estudios de asociación de alelos raros y de baja frecuencia. Un ejemplo notable son los aislamientos de población, que proporcionan diseños de estudio de gran alcance para la genética médica debido a una serie de características ventajosas. Por ejemplo, las variantes de importancia médica que son raras en poblaciones consanguíneas pueden encontrarse con mayor frecuencia en poblaciones aisladas debido a eventos de cuello de botella pasados, deriva genética o adaptación y selección [43, 112], aumentando el poder para detectar asociaciones con fenotipos de importancia médica [ 113, 114].

Un caso particularmente interesante de variación rara son las variantes que conducen a la inactivación de la proteína correspondiente. Tales variantes de pérdida de función (LoF) incluyen variantes que se predice que conducirán a la terminación prematura de la proteína (variantes de parada-ganancia o variantes de truncamiento de proteínas) y polimorfismos de inserción o deleción que afectan la secuencia de codones general de la proteína ( INDELS de cambio de marco) o alterar el empalme previo al ARNm de exones esenciales (variantes esenciales del sitio de empalme). Las variantes de LoF proporcionan herramientas poderosas para comprender el impacto de la "desactivación" de genes humanos, similar a los experimentos de desactivación de genes que se llevan a cabo comúnmente en organismos modelo [115]. Se ha demostrado que la comprensión de las consecuencias fenotípicas y clínicas de portar alelos LoF, particularmente cuando se portan en el estado homocigoto (es decir, completo knockout), proporciona información crucial sobre la identificación de nuevos genes de enfermedades y vías farmacológicas [116,117,118]. Además, los estudios de variantes de LoF en objetivos de fármacos establecidos, cuando los lleva a cabo un individuo por lo demás sano, proporcionan evidencia de la seguridad de modular ese objetivo en particular para reducir el riesgo de enfermedad. El conjunto de datos de 60.706 individuos recopilados por el Exome Aggregation Consortium (ExAC) puede ayudar a filtrar las variantes candidatas que causan enfermedades y al descubrimiento de variantes "knockout" humanas en genes que codifican proteínas [119].

Los esfuerzos para descubrir estas mutaciones se impulsan en poblaciones con altas tasas de homocigosidad, por ejemplo, en poblaciones con una tradición de matrimonio consanguíneo, y donde tales variantes ocurren con mayor frecuencia en un estado homocigótico. Al analizar muestras del estudio PROMIS, se encontró que 961 genes estaban completamente inactivados en al menos un participante. Combinado con una rica información fenotípica, esto permitió el descubrimiento de asociaciones genotipo-fenotipo de importancia clínica, como la asociación de APOC3 con ausencia de niveles plasmáticos de apolipoproteína C-III [120]. Otro estudio predijo LoF en 781 genes después de analizar 3222 adultos de ascendencia paquistaní británica con alto parentesco [121]. Los genomas completos de 2636 islandeses, junto con la imputación de 101,584 islandeses genotipados y en fase adicionales, ha comenzado a permitir estudios de raros knockouts de genes humanos completos en la población islandesa. Los autores también planean caracterizar la mayoría de las variantes de LoF homocigotas en la población islandesa y llevar a cabo un fenotipado personalizado de los portadores [122]. Una advertencia de este enfoque es que las consecuencias funcionales de las variantes de secuencia generalmente se anotan bioinformáticamente como basadas en anotaciones de transcripciones genéricas (por ejemplo, basadas en la consecuencia más perjudicial entre todas las transcripciones anotadas). Por lo tanto, las variantes de LoF pueden no conducir a la inactivación de proteínas en un contexto biológicamente relevante, lo que podría deberse a la redundancia de genes, a la heterocigosidad, a variantes genuinas que en realidad no alteran la función de los genes, oa variantes que solo son activas en ciertos tejidos. isoformas específicas (o raras) [112, 115]. Por lo tanto, se requieren esfuerzos de seguimiento extensos y minuciosos para validar las consecuencias previstas de estas variantes.


Resultados: impacto de LD en la potencia

Los datos de simulación consistieron en 1200 conjuntos de datos sintéticos, correspondientes a 4 bloques LD × 3 tamaños de efecto × 100 conjuntos de datos retrospectivos de casos y controles con 1000 sujetos en cada cohorte. Las heredabilidades estimadas h 2 se dan en la Tabla 3 y están todos a continuación h 2 = 0,10. Estos se calcularon de acuerdo con la siguiente fórmula (4), en la que GRAMOI representa las nueve combinaciones de genotipos de dos locus subyacentes gramo1×gramo2, y los resultados inmediatamente de las tablas de penetrancia calculadas previamente para cada tamaño de efecto (ya que la Tabla 2 fue un ejemplo de β3= 0,90 tamaño del efecto y da como resultado h 2 =0.083):

Además, la Tabla 4 muestra que solo 1 SNP está en LD moderada a fuerte con el locus causal DSL 1 (r 2 umbral de 0,75), mientras que 60 SNP están en LD muy bajo con DSL 1 (r 2 umbral de 0,20). Se observa LD moderada a fuerte con DSL 2 A, B, C y D para 98, 107, 78 y 24 SNP (en r 2 de 0,75), respectivamente. El número de SNP de etiquetas (y por lo tanto la probabilidad de captura de señal) aumenta con la disminución r 2 umbral. Por ejemplo, para un umbral de 0,45, se obtienen respectivamente 2, 114, 110, 80 y 48 etiquetas-SNP para DSL 1, DSL 2 A, B, C y D.

Las sensibilidades de señal estimadas de MB-MDR para detectar la interacción puramente epistática simulada (DSL 1, DSL 2), para diferentes escenarios de posición DLS 2 (DSL 2 A, DSL 2 B, DSL 2 C, DSL 2 D), tres epistasis tamaños de efecto y cinco esquemas de poda LD antes del análisis MB-MDR se presentan en la Fig.5, para la sensibilidad de la señal definida a través de r 2 ≥0,45-marcado y en la Fig.6 para marcado determinado por r 2 ≥0,20. Las sensibilidades exactas estimadas se muestran en los paneles inferiores de las Figuras antes mencionadas. Tenga en cuenta que las estimaciones de la sensibilidad exacta no dependen de las definiciones de bloque. Todas las estimaciones se tabulan en la Tabla 5. Se hacen las siguientes observaciones:

Para todos los escenarios de tamaño del efecto de epistasis y ubicación de DSL 2, así como la definición y poda del bloque tag-SNP en diferentes r 2 valores que van de 0,20 a 0,75, la sensibilidad de la señal es siempre superior a la sensibilidad exacta.

Además, cuando no se realiza ninguna poda (por lo tanto, todos los pares de SNP se examinan para detectar epistasis, independientemente de las correlaciones entre SNP), la sensibilidad exacta es menor que la sensibilidad de la señal.

Las sensibilidades exactas disminuyen drásticamente cuando se aplica la poda. Los peores resultados se obtienen para los escenarios A y C, para los cuales se puede considerar que el DSL 2 correspondiente reside en el límite de un (sub) bloque LD. Los resultados son solo ligeramente mejores para el escenario D. En caso de que ambas DSL estén ubicadas en diferentes cromosomas, las estimaciones de sensibilidad exactas oscilan entre 0,10 y 0,18 (configuración D, ver Fig. 1). Por el contrario, las estimaciones de sensibilidad exactas en caso de que DSL 2 se ubique en el medio de un bloque de LD van de 0,16 a 0,64, de nuevo dependiendo del tamaño del efecto epistático y del umbral de poda de LD (ajuste B, ver Fig. 2).

La sensibilidad de la señal se puede mejorar aún más mediante la reducción del conjunto de SNP mediante la poda. En general, cuanto más poda LD esté involucrada, mayor será la sensibilidad de la señal. Cualquiera que sea la definición de bloque de etiqueta SNP utilizada, la poda demasiado fuerte en r 2 de 0,20 da, con mucho, la sensibilidad de señal más baja. Para todas las ubicaciones consideradas DSL 2, se pierde poca potencia (sensibilidad de la señal) al podar más hacia abajo de 0,75 a 0,60, reteniendo más SNP. Para el ajuste C, la potencia se equilibra alrededor de 0,50 cuando se realiza una poda más extensa en r 2 de 0,50 en lugar de 0,60, que es similar a lanzar una moneda y muy inaceptable (ver Fig. 5).

No hay patrones claros con respecto al aumento del tamaño del efecto de la epistasis que conduzca a un aumento de la sensibilidad exacta o de la señal.

Sensibilidades de MB-MDR para detectar interacción epistática pura de dos loci en 4 configuraciones en tres tamaños de efecto y con diferentes niveles de poda LD: Las sensibilidades de señal (panel superior) y las sensibilidades exactas (panel inferior) se muestran en diferentes umbrales de poda LD (datos sin podar) o poda LD a 0,75, 0,60, 0,50 y 0,20). Sensibilidades de señal determinadas con subconjuntos tag-SNP en LD r 2 ≥0,45 con SNP causales

Sensibilidades de MB-MDR para detectar interacción epistática pura de dos loci en 4 configuraciones en tres tamaños de efecto y con diferentes niveles de poda LD: Las sensibilidades de señal (panel superior) y las sensibilidades exactas (panel inferior) se muestran en diferentes umbrales de poda LD (datos sin podar) o poda LD a 0,75, 0,60, 0,50 y 0,20). Sensibilidades de señal determinadas con subconjuntos tag-SNP en LD r 2 ≥0,20 con SNP causales


Afiliaciones

Instituto de Deporte, Ejercicio y Vida Activa (ISEAL), Universidad de Victoria, Melbourne, Australia

Sarah Voisin, David J Bishop y el amplificador Nir Eynon

Departamento de Turismo y Recreación, Academia de Educación Física y Deporte, Gdansk, Polonia

Pawel Cieszczyk y amp Zbigniew Jastrzebski

Universidad Estatal de Cultura Física de los Urales, Chelyabinsk, Rusia

Vladimir P Pushkarev, Dmitry A Dyatlov, Boris F Vashlyayev y Vladimir A Shumaylov

Facultad de Cultura Física y Promoción de la Salud, Universidad de Szczecin, Szczecin, Polonia

Pawel Cieszczyk, Agnieszka Maciejewska-Karlowska & amp Marek Sawczuk

Departamento de Biología Celular, Facultad de Biología, Universidad de Szczecin, Szczecin, Polonia

Instituto de Investigación Infantil Murdoch, The Royal Children's Hospital, Melbourne, Australia

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

Autor correspondiente


Contribuciones de autor

S.S.V., T.O.B., L.G., R.E.P., T.E.K., A.R.S. y M.D.R escribieron el manuscrito. SSV, TOB, LG, REP, TEK, ARS, MDR, J.-LR, JDB, JPL, YB, BDM, Di.A., Da.A., RA, KB, GC, KC, JHC, J.- PD, NPD, IF-C., PF, MG, TG, GFG, BG, PAG, WH, LH, E.-YK, H.-SK, MK, MTML, RM, JM, DMR, ES, MS, JGS , JMS-M., JMtB., DT, MV, JW, M.-SW, RW y SW diseñó la investigación.S.V., T.B., L.G., J.-L.R., J.L., Y.B., T.K., A.S. y M.R. realizaron la investigación. S.S.V., T.O.B., L.G., R.E.P., T.E.K., A.R.S., M.D.R., J.-L.R., J.D.B., J.P.L., Y.B. y B.D.M. analizó los datos.

Nombre del archivo Descripción
cpt1911-sup-0001-FigS1.tif Imagen TIFF, 17,3 MB
cpt1911-sup-0002-FigS2.tif Imagen TIFF, 16,6 MB
cpt1911-sup-0003-FigS3.tif Imagen TIFF, 16,6 MB
cpt1911-sup-0004-FigS4.tif Imagen TIFF, 16,6 MB
cpt1911-sup-0005-TableS1.xlsxapplication / excel, 9.2 KB
cpt1911-sup-0006-TableS2.xlsxapplication / excel, 9.1 KB
cpt1911-sup-0007-TableS3.xlsxapplication / excel, 11,5 KB
cpt1911-sup-0008-TableS4.xlsxapplication / excel, 11,8 KB
cpt1911-sup-0009-TableS5.xlsxapplication / excel, 11,5 KB
cpt1911-sup-0010-TableS6.xlsxapplication / excel, 11,8 KB
cpt1911-sup-0011-TableS7.xlsxapplication / excel, 11,7 KB
cpt1911-sup-0012-TableS8.xlsxapplication / excel, 14,7 KB
cpt1911-sup-0013-TextS1.docxDocumento de Word, 12,1 KB

Tenga en cuenta: El editor no es responsable del contenido o la funcionalidad de la información de apoyo proporcionada por los autores. Cualquier consulta (que no sea contenido faltante) debe dirigirse al autor correspondiente del artículo.


Ver el vídeo: Odds Ratios and LogOdds Ratios, Clearly Explained!!! (Febrero 2023).