Información

¿Se puede calcular fácilmente la cantidad de genes compartidos en los descendientes?

¿Se puede calcular fácilmente la cantidad de genes compartidos en los descendientes?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Vi en la web una explicación sobre cómo calcular la cantidad de ciertos genes en una persona. Por ejemplo: si su abuelo era francés y su abuela era estadounidense, entonces su padre es 50 francés y 50% estadounidense. Luego conoció a una mujer estadounidense y su hijo sería 50/2 = 25% francés y 50% estadounidense. Y así sucesivamente ... dividiendo cada vez por dos. ¿Es verdad?


Cada padre pasa la mitad de su ADN a sus hijos. Hay una cantidad de ADN no infinita, sino muy alta. Esto significa que para la primera generación es precisamente cierto: si mamá tiene 100% de genes rojos y papá tiene 100% de genes verdes, el niño tendrá 50% de genes verdes y 50% de genes rojos. Para la segunda generación, para las personas con genes mixtos, solo se vuelve cierto en promedio. Entonces, si el niño tiene 50% de genes verdes y 50% de genes rojos, al transmitir la mitad de sus genes, teóricamente podría transmitir todos los genes rojos o todos los genes verdes. Es muy probable que no pase exactamente la mitad de cada uno. Pero debido a que hay muchos genes, la ley de los promedios hace que en la práctica se pueda decir que transmiten la mitad de cada uno, lo que significa que si el otro padre tiene todos los genes verdes, el hijo resultante tendrá un 75% de genes verdes y un 25% de rojo. De hecho, esto continúa a través de las generaciones por un tiempo hasta que uno se encuentra con la finitud del ADN; en algún momento, las cantidades serán lo suficientemente pequeñas como para que ya no sigan las leyes de los promedios, y será mucho más variable si un niño obtiene el complemento completo de los genes rojos de sus padres, o ninguno, o una cantidad intermedia.

Esto se complica aún más cuando no estamos hablando de genes abstractos "rojos" o "verdes", sino de genes "estadounidenses" o "franceses". ¿Qué diablos son los genes "americanos" o "franceses" de todos modos? El acervo genético humano está bastante bien mezclado, y la mayoría de los genes se comparten ampliamente. Aquellos que pueden usarse para identificar orígenes étnicos específicos o incluso nacionales son lo suficientemente bajos en número que lo que dije antes sobre la ley de los promedios que ya no se aplica ocurre antes si observamos subcategorías específicas de genes. Aún así, creo que funciona durante varias generaciones.


VITCOMIC2: herramienta de visualización de la composición filogenética de comunidades microbianas basada en amplicones del gen 16S rRNA y secuenciación de escopeta metagenómica

El análisis de secuenciación de amplicones basado en el gen del ARNr 16S se utiliza ampliamente para determinar la composición taxonómica de las comunidades microbianas. Una vez que se obtiene la composición taxonómica de cada comunidad, las relaciones evolutivas entre taxones se infieren mediante un árbol filogenético. Por lo tanto, la representación combinada de la composición taxonómica y las relaciones filogenéticas entre taxones es un método poderoso para comprender la estructura de la comunidad microbiana, sin embargo, aplicar la representación filogenética basada en árboles con información sobre la abundancia de miles o más taxones en cada comunidad es una tarea difícil. Para ello, previamente desarrollamos la herramienta VITCOMIC (herramienta de visualización de COposiciones taxonómicas de comunidades microbianas), que se basa en la información filogenética de los microbios secuenciados por el genoma. Aquí, presentamos VITCOMIC2, que incorpora mejoras sustanciales sobre VITCOMIC que eran necesarias para abordar varios problemas asociados con el análisis de comunidades microbianas basado en genes de ARNr 16S.

Resultados

Desarrollamos VITCOMIC2 para proporcionar (i) búsquedas de identidad de secuencia contra taxones de referencia amplios que incluyen taxones no cultivados (ii) normalización de las diferencias en el número de copias del gen 16S rRNA entre taxones (iii) búsquedas rápidas de identidad de secuencias mediante la aplicación de la herramienta de búsqueda de identidad de secuencia basada en unidades de procesamiento de gráficos CLAST (iv) inferencia de composición taxonómica precisa y reconstrucciones de secuencias de genes de ARNr 16S casi completas para secuenciación de escopeta metagenómica y (v) una interfaz de usuario interactiva para la representación simultánea de la composición taxonómica de comunidades microbianas y relaciones filogenéticas entre taxones. Validamos la precisión de los procesos (ii) y (iv) mediante el uso de datos de secuenciación de escopeta metagenómica de una comunidad microbiana simulada.

Conclusiones

Las mejoras incorporadas en VITCOMIC2 permiten a los usuarios adquirir una comprensión intuitiva de la composición de la comunidad microbiana basada en los datos de la secuencia del gen del ARNr 16S obtenidos de la secuenciación de amplicones y escopeta metagenómica.


Introducción

La gran cantidad y variedad cada vez mayor de datos genómicos y proteómicos generados para organismos modelo crea una oportunidad para en silico predicción de la función de los genes mediante la extrapolación de las propiedades funcionales de genes conocidos. Los genes con patrones de expresión similares [1], letalidad sintética [2] o sensibilidad química [3] a menudo tienen funciones similares. Además, la función tiende a compartirse entre genes cuyos productos génicos interactúan físicamente [4], son parte del mismo complejo [5] o tienen estructuras tridimensionales similares [6]. Los análisis computacionales también han revelado una función compartida entre genes con perfiles filogenéticos similares [7] o con dominios proteicos compartidos [8]. Se pueden hacer predicciones más precisas combinando múltiples fuentes heterogéneas de datos genómicos y proteómicos [9]. En conjunto, estas observaciones han llevado a la categorización funcional de una serie de genes previamente no caracterizados utilizando el llamado principio de "culpa por asociación" [10-12].

Los algoritmos que predicen la función de los genes utilizando el principio de culpabilidad por asociación lo hacen extendiendo una 'lista semilla' de genes que se sabe que tienen la función dada agregando otros genes altamente asociados con la lista semilla en una o más fuentes de datos genómicos y proteómicos. Estos algoritmos normalmente calculan una 'red de asociación funcional' para representar cada conjunto de datos en esta red, los nodos corresponden a genes o proteínas y los enlaces no dirigidos (o bordes) se ponderan de acuerdo con la evidencia de co-funcionalidad implícita en la fuente de datos. Los tipos de redes de asociación funcional incluyen núcleos utilizados por máquinas de vectores de soporte (SVM) [9], redes de enlace funcional [13] y mapas de enlace proteína-proteína [14]. Las redes de asociación funcional individuales a menudo se combinan para generar una red de asociación funcional compuesta que resume toda la evidencia de co-funcionalidad. Esta red se utiliza luego como entrada para un algoritmo que puntúa cada gen en función de su proximidad a los genes en la lista de semillas. Cuando se emplean en múltiples fuentes de datos complementarios, estos algoritmos pueden predecir con precisión funciones de genes previamente anotados en pruebas ciegas [15], lo que sugiere que sus predicciones para genes no anotados también son bastante precisas.

A pesar de estos éxitos, los algoritmos de culpabilidad por asociación aún tienen que lograr un uso generalizado en la anotación de genes o como fuentes de nuevas hipótesis sobre la función de los genes para hacerlo, sus predicciones deben ser más accesibles, más precisas y actualizadas con más regularidad. En principio, todos los datos disponibles deben usarse al generar hipótesis sobre la función de los genes, sin embargo, compilar una gran cantidad de fuentes de datos heterogéneas, generar redes de asociación funcional para representar estas fuentes y luego mapear identificadores de genes entre las redes es una tarea compleja y onerosa que es mejor manejado por especialistas. Los 'servidores de predicción' basados ​​en web y administrados de forma centralizada son una estrategia eficaz para garantizar que los usuarios ocasionales tengan acceso a las mejores predicciones disponibles.

Sin embargo, mantener servidores de predicción precisos y actualizados puede resultar prohibitivo desde el punto de vista computacional. Aunque se ha desarrollado una gran cantidad de algoritmos para predecir la función de genes no anotados mediante la combinación de fuentes de datos heterogéneas (ver [16] para una revisión reciente), los más precisos de estos algoritmos tienen tiempos de ejecución prolongados, que pueden oscilar entre minutos [17] ] a horas [9] en levadura. Los genomas de mamíferos más grandes aumentan aún más el tiempo de ejecución de estos algoritmos. Como tal, estos algoritmos no se pueden ejecutar en línea de manera factible y, en su lugar, sus predicciones se realizan fuera de línea en función de conjuntos de listas de semillas predefinidas derivadas, por ejemplo, de anotaciones de Gene Ontology (GO) [18]. Sin embargo, debido a que se están generando nuevos datos y anotaciones a un ritmo rápido, mantener una base de datos actualizada de las mejores predicciones disponibles para todas las funciones posibles requiere recursos computacionales sustanciales y potencialmente no disponibles.

Debido a esta limitación, la mayoría de los servidores de predicción sacrifican la precisión por la velocidad al confiar en una única o en una pequeña cantidad de redes de asociación funcional compuestas precalculadas y usar heurísticas simples para calificar genes basados ​​en una lista de semillas dada (por ejemplo, ver [ 13, 14, 19]). Si bien las heurísticas de puntuación son lo suficientemente rápidas como para proporcionar predicciones en línea para listas de semillas arbitrarias, mostraremos que sus predicciones son mucho menos precisas que los métodos más avanzados. Además, al utilizar una única red precalculada, estos servidores no aprovechan el hecho de que diferentes fuentes de datos son más relevantes para diferentes categorías de función genética [2, 9] y no son extensibles a fuentes de datos nuevas o proporcionadas por el usuario. .

Aquí demostramos que no es necesario renunciar ni a la precisión ni a la flexibilidad al construir un servidor de predicción mostrando que GeneMANIA (Multiple Association Network Integration Algorithm) puede, en segundos, generar predicciones de todo el genoma que logran una precisión de vanguardia. en listas arbitrarias de genes de semillas sin depender de una red de asociación preespecificada. Hemos logrado este objetivo a través de una serie de avances algorítmicos y técnicos que hemos encapsulado en un nuevo paquete de software. Con GeneMANIA, ya no es necesario mantener listas de en silico predicciones de la función de los genes porque se pueden volver a calcular según sea necesario.


Resultados

Probabilidad de transiciones de estado a lo largo de una rama

Los modelos probabilísticos se pueden utilizar para inferir si ha habido un cambio en el tamaño de la familia de genes entre el antepasado y el descendiente a lo largo de cada rama del árbol de la especie. Esto se hace sustituyendo los parámetros de tasa que optimizan la función de verosimilitud en la matriz de probabilidad de transición. PAG(t) (consulte la sección Métodos para conocer las definiciones), donde t es la longitud de la rama. Usando estas probabilidades de transición, se pueden calcular las probabilidades de cada estado en LUCA. Cada uno de los modelos discutidos en este trabajo sugiere que, incluso cuando ocurren pérdidas y ganancias de genes en la evolución (las entradas fuera de la diagonal en la matriz de probabilidad de transición), el resultado más probable a lo largo de cualquier rama es que el tamaño de la familia de genes sigue siendo el mismo. , con mayores probabilidades de mantener la ausencia de genes que de mantener la presencia de genes. Otra propiedad común de todos los modelos (con la excepción del modelo (B1), que está limitado a tener las mismas tasas de ganancia y pérdida de genes) es que las pérdidas de genes suelen ser de dos a cuatro veces más probables que las ganancias de genes. Las matrices de probabilidad de transición mediana (con la probabilidad más alta en cada fila resaltada) para una rama con una longitud de 0.35 (la mediana de las longitudes de rama observadas en el árbol) son

Además, las probabilidades de transición de los modelos (M1) y (M2) sugieren que el estado de múltiples parálogos internos es más propenso a cambios a lo largo de una rama que el estado de un gen de copia única. Las segundas filas de estas matrices de probabilidad indican que adquirir un nuevo gen es menos probable que duplicar el gen existente en la especie, y que la pérdida de un gen existente es más probable que su duplicación. La principal diferencia entre los modelos (M1) y (M2) está en las probabilidades de transición de pérdida de genes cuando hay múltiples copias en el antepasado. En el modelo (M2), es menos probable que un gen pierda todas sus copias a lo largo de una rama, mientras que en (M1) la probabilidad de perder todas las copias de los genes a lo largo de una rama es aproximadamente la misma que la probabilidad de mantener múltiples copias de la rama. gene.

Las probabilidades ancestrales

Para cada modelo discutido en la sección anterior, se puede inferir la probabilidad de que cada COG apareciera en LUCA. Un conjunto de genes LUCA-MLX consta de genes cuyas probabilidades ancestrales son al menos X en su modelo preferido entre (M1) y (M2). La Tabla 1 (columna II) muestra el número de conjuntos de genes que se infieren como ancestrales bajo los diferentes valores de X de 0.5 a 1. Construimos una lista de COG ancestral usando la probabilidad 0.7 cuando no se establece el nivel de probabilidad, nos referimos a LUCA-ML 0.7 como LUCA-ML.

Nuestro LUCA-ML no es el mismo que el LUCA1.0 reconstruido en [2], muy probablemente porque los dos ancestros se infirieron utilizando métodos diferentes, que además se aplicaron a diferentes conjuntos de especies y COG. LUCA-ML 0.7 y LUCA-ML 0.6 comparten, respectivamente, alrededor del 57% y 50% de sus genes con LUCA 1.0, y más del 65% de LUCA 1.0 están incluidos en cada uno de nuestros conjuntos de genes ancestrales ML.

Contenido genético de LUCA-ML 0.7 y LUCA-1.0

La proporción de todos los COG que se puntúan como ancestrales es similar en los dos ancestros reconstruidos: el 23% del total en el caso de LUCA 1.0 (517 COG) en comparación con el 26% (597 COG) en LUCA-ML 0.7. Por otro lado, la identidad de los COG en los dos conjuntos difiere considerablemente, con solo 346 COG encontrados en ambos conjuntos.

La Figura 1 muestra la distribución del conjunto de entrada de COG, así como los conjuntos ancestrales inferidos por el número de genomas en los que se encuentran bajo diferentes modelos. El número de COG en LUCA 1.0 y LUCA-ML 0.7 es similar para aquellos COG que se encuentran en más de 80 genomas, pero difieren considerablemente para el modelo de COG raros (M2) y otros enfoques ML tienden a colocar una mayor proporción de COG escasamente distribuidos en LUCA.

Distribución de todos los COG bajo los modelos B2 y M2, así como los COG de alta ancestralidad (LUCA-ML y LUCA1.0), por el número de genomas en los que están presentes.

La clasificación de alto nivel de las funciones moleculares conocidas y predichas de los COG ancestrales se muestra en la Tabla 2.

Los genes conservados pobremente caracterizados (categorías R y S) son más frecuentes entre los COG que fueron calificados como ancestrales solo por el enfoque ML, lo que se correlaciona con una mayor proporción de COG raros en estas categorías y un favor relativo de estos COG por los enfoques ML. Estos COG de "alta ancestralidad" de las categorías R y S representan aproximadamente el 16% de todos los COG en estos grupos funcionales, y una mayor comprensión de su función será útil para una mejor comprensión de la bioquímica ancestral.

El otro extremo de la “ancestralidad” está representado por los COG que pertenecen a la categoría J (Maquinaria de traducción y biogénesis de ribosomas), así como a la categoría E (Biosíntesis de aminoácidos). Todos los enfoques predijeron que la gran mayoría de todos los COG en estas dos categorías eran ancestrales, lo que puede atribuirse en gran parte a su amplia distribución en los genomas.

La Figura 2 muestra la distribución de todos los COG por probabilidad de ser ancestrales bajo cada modelo, así como el número de COG ancestrales bajo diferentes límites de probabilidad. Las probabilidades están bien distribuidas en todo el rango, pero una fracción considerable de ellas (al menos el 15%) se agrupa alrededor de 0,5. Ésta es la “zona gris” de la ancestralidad, que puede resolverse mediante análisis futuros, algunas de las cuales se discuten a continuación.

Distribución de probabilidad de la ancestralidad COG bajo varios modelos. El primer panel muestra la frecuencia de COG con la diferente probabilidad de ocurrencia en LUCA, y el segundo panel muestra el número de COG por encima de los diferentes umbrales de probabilidad.


Distancias de árboles filogenéticos

Abstracto

Los árboles filogenéticos son objetos matemáticos que resumen las relaciones de ancestros comunes más recientes entre un conjunto dado de organismos. A menudo es necesario cuantificar el grado de similitud o discordancia entre dos árboles propuestos. Por ejemplo, una persona puede estar interesada en saber si los árboles filogenéticos reconstruidos a partir de dos alineamientos de secuencia distintos son realmente diferentes, o si las diferencias son tan pequeñas que solo pueden atribuirse a la variación estadística. En este artículo resumimos varios de los métodos más conocidos para definir distancias entre árboles filogenéticos y proporcionamos ejemplos de los cálculos cuando es posible.


Compartiendo todo el genoma de HeLa

En marzo de 2013, un grupo de investigadores del Laboratorio Europeo de Biología Molecular secuenció el genoma de las células HeLa. Con los avances de las últimas décadas y rsquo en las técnicas de secuenciación, la secuenciación se hizo fácilmente. También se hizo con buenas intenciones.

Las células cancerosas, que se extrajeron por primera vez de un bulto extraído del cuello uterino de Henrietta Lacks meses antes de su muerte por cáncer de cuello uterino en 1951, son la línea celular más utilizada en el mundo. Las células son resistentes y han ayudado a desarrollar muchos tratamientos antitumorales y virales, incluida la vacuna contra la polio. Sin embargo, los datos genómicos publicados en 2013, que pueden utilizarse para recopilar información médica confidencial sobre los descendientes de Lacks y rsquo, se compartieron sin su conocimiento.

& ldquoIt & rsquos como, & lsquoAquí vamos de nuevo, estar involucrados en la investigación sin nuestro permiso o nuestro consentimiento, & rsquo & rdquo, dice David Lacks Jr. Es nieto de Henrietta Lacks, quien era un agricultor de tabaco negro y madre de cinco hijos. Cuando Henrietta Lacks fue a buscar atención médica en el Hospital Johns Hopkins por una pequeña masa en el cuello uterino en 1951, el ginecólogo de guardia, Howard Jones, tomó una biopsia de las células tumorales. Después de un diagnóstico, las células se dirigieron a George Gey, jefe de investigación de cultivos de tejidos en Johns Hopkins, a través de un colega mutuo.

A Henrietta Lacks no se le pidió permiso para compartir sus células de esta manera, aunque tomar muestras de pacientes sin permiso era una práctica estándar en ese momento. Si bien sus células, que se dividieron indefinidamente a un ritmo sin precedentes, revolucionaron la investigación médica, la familia Lacks se mantuvo en la oscuridad hasta que los investigadores vinieron a buscar muestras de sangre de miembros de la familia en la década de 1970. Las células HeLa generaron miles de millones de dólares de ganancias para las industrias biomédicas, mientras que la familia Lacks no pudo pagar la atención médica y el seguro médico.

Estas injusticias llamaron la atención del mundo con el libro más vendido de 2010 de Rebecca Skloot, & ldquoThe Immortal Life of Henrietta Lacks. & Rdquo Antes de publicar el libro, Skloot estableció la Fundación Henrietta Lacks, que ahora ha otorgado más de 50 becas para la educación, salud y atención y gastos de emergencia preaprobados a varios miembros de la familia inmediata de Lacks y rsquo.

Cuando el genoma se incluyó en el Archivo Europeo de Nucleótidos a principios de 2013, "no había ninguna política que dijera que los datos no podían estar disponibles", dice Dina Paltoo, de los Institutos Nacionales de Salud. Paltoo es el director de la división de políticas de intercambio de datos científicos en la oficina de políticas científicas de los NIH & rsquos. & ldquoEsta es prácticamente la práctica estándar en la comunidad de genómica, y muchas revistas requieren que los datos se hayan compartido antes de publicar los resultados. & rdquo También se realizó un estudio sobre el genoma y el epigenoma de las células HeLa realizado por investigadores de la Universidad de Washington. a punto de ser publicado en Nature.

Después de que los investigadores alemanes de EMBL pusieran la información genómica en una base de datos pública, Skloot publicó un artículo de opinión en el New York Times que atrajo una gran cantidad de atención. El director de los NIH, Francis S. Collins, se reunió con la familia Lacks para discutir sus opciones.

"Podríamos dejarlo ahí como está, para que todo el mundo lo vea, pero el problema es que cuando secuencias el genoma de Henrietta Lacks y rsquo, también incluyes rasgos familiares de nuestro genoma", dice Lacks. "No sabemos qué se sabría dentro de 20 años con esa secuencia disponible para que cualquiera la use y cómo eso tendría un efecto en nosotros".

Alcanzando un consenso

La familia llegó a la conclusión de que la mejor manera de manejar la secuencia genómica de HeLa sería que los investigadores solicitaran acceso a ella. "No queríamos que se cortara, porque la familia está unánimemente orgullosa de lo que las células han ayudado a lograr", dice Lacks.

Collins y Kathy Hudson, que entonces era la subdirectora de ciencia, divulgación y políticas de los NIH & rsquos, formaron un grupo de trabajo compuesto por especialistas en bioética, genetistas, médicos y miembros de la familia Lacks. De acuerdo con los términos del acuerdo en agosto de 2013 que la familia alcanzó con el NIH, cualquier investigador y rsquo que planeara usar los datos tenía que cumplir con ciertos criterios: Los datos deben usarse solo con fines de investigación biomédica, los solicitantes deben divulgar cualquier plan comercial que tendrían por los datos, y los solicitantes estarían de acuerdo en reconocer a la familia y las contribuciones de las células en cualquier publicación y presentación. El estudio del grupo de la Universidad de Washington, que se había suspendido, apareció en un número de Nature que se publicó ese mes con una discusión del acuerdo entre Hudson y Collins.

El Grupo de trabajo de acceso a datos del genoma de HeLa e incluye a Lacks y Veronica Spencer, bisnieta de Henrietta Lacks. El grupo evalúa las solicitudes para acceder a estos datos y luego envía sus hallazgos al comité asesor al director de los NIH. Ese comité luego hace una recomendación a Collins, quien toma una decisión final.

"El director de los NIH también se ha acercado a las revistas y las ha alentado a asegurarse de que los investigadores que buscan la publicación cumplan con el acuerdo de uso de datos del genoma de HeLa y también reconozcan el acuerdo y la familia de manera adecuada", dice Paltoo.

David Lacks Jr. (derecha) y su prima Jeri Lacks & ndashWhye a menudo hablan públicamente sobre las experiencias de la familia Lacks y rsquos con la línea celular HeLa. FOTO PROPORCIONADA POR JERI LACKS-WHYE

Frutos de la base de datos

La base de datos de genotipos y fenotipos de NIH & rsquos, o dbGaP, contiene actualmente cinco conjuntos de datos relacionados con el genoma secuenciado de HeLa. Hasta ahora, Collins ha aprobado 47 solicitudes de investigadores de 20 países diferentes. La única solicitud rechazada fue la de un grupo que no quería compartir sus hallazgos. Los dos artículos que causaron el alboroto se publicaron después de que fueran aprobados por el grupo.

Uno de esos investigadores aprobados es Andrew Adey de la Universidad de Ciencias y Salud de Oregon. Como estudiante de posgrado, Adey fue la primera autora del artículo sobre el genoma de la Universidad de Washington dirigido por Jay Shendure.

Al principio de su carrera, Adey ayudó a investigar qué les da a las células HeLa la capacidad de dividirse de una manera tan agresiva. La capacidad surgió de la integración del ADN del virus del papiloma humano en el genoma de una célula en Henrietta Lacks que condujo a su carcinoma cervical.

"La integración de ADN extraño viral que ocurrió en el genoma de HeLa ocurre en algún subconjunto de carcinomas de cuello uterino, pero en este caso sucedió de una manera muy desafortunada", dice Adey. "Sucedió que se integró en una ubicación que activa un gen del cáncer, por lo que fue realmente una tormenta perfecta de eventos que sucedieron en la célula que resultaron en esta forma extremadamente agresiva de cáncer y, en última instancia, en la inmortalización de la célula".

Los oncogenes virales E6 y E7 estaban presentes en el ADN viral insertado que inhiben los supresores de tumores, como el conocido p53. El virus también insertó 30 copias de un potenciador regulador cerca de un protooncogén, MYC, que puede causar una división celular no regulada cuando es secuestrado. Esta interacción contribuyó a una forma de cáncer mucho más agresiva.

Adey y sus colegas caracterizaron recientemente la estabilidad y heterogeneidad de las células HeLa utilizando una técnica llamada indexación combinatoria. La técnica les permite realizar la secuenciación del genoma completo de una sola célula a un rendimiento superior al que era posible anteriormente mediante el código de barras de las células individuales.

Los investigadores primero aplicaron la técnica a las células cancerosas de un adenocarcinoma avanzado y pudieron identificar subpoblaciones dentro del tumor. En usos futuros, & ldquowe & rsquoll podrá muestrear subpoblaciones de muy baja abundancia & rdquo, dice Adey. & ldquoEs posible que podamos inferir y detectar algunos aspectos que podrían ser abordados de una manera diferente al resto del tumor. & rdquo

Además de todos los medicamentos que salvan vidas desarrollados con células HeLa, los investigadores que intentan desarrollar nuevas tecnologías médicas pueden utilizar el genoma HeLa como una poderosa herramienta de calibración.

& ldquoWe & rsquoremos desarrollando nuevas tecnologías y herramientas para analizar el cáncer, así como otros aspectos u otras enfermedades & rdquo, dice Adey. & ldquoCuando desarrollamos estas herramientas, queremos probarlas en algo donde sepamos la respuesta, de modo que & rsquos para lo que usamos HeLa. Sabemos exactamente cómo se verá rsquos. & Rdquo

El acceso controlado a los datos genómicos de HeLa también ha resultado en el desarrollo de un nuevo método analítico por parte del grupo Shendure & rsquos. El método implica andamios a escala de cromosomas para ensamblar genomas muy contiguos a partir de lecturas cortas. El reensamblaje es posible gracias a un algoritmo que agrupa fragmentos del genoma basándose en conjuntos de datos de interacción de la cromatina, que son útiles para asignar, ordenar y orientar las secuencias genómicas a los cromosomas. Los investigadores describieron por primera vez el método, para el cual Shendure también ha presentado una patente, en un artículo de la revista Nature Biotechnology en noviembre de 2013. En el artículo, los investigadores utilizaron el genoma HeLa como una forma de probar el método para encontrar reordenamientos intercromosómicos en genomas del cáncer.

Además, el grupo Yijuan Ruan & rsquos del Jackson Laboratory Cancer Center en Bar Harbor, Maine, ha realizado nuevos conocimientos sobre el efecto de la organización espacial del genoma y los rsquos en la transcripción, que tiene implicaciones significativas para las aberraciones que ocurren en las enfermedades.

Mientras que los investigadores utilizan las células HeLa para comprender mejor innumerables aspectos de la biología celular, Lacks y Jeri Lacks & ndashWhye, otro de los nietos de Henrietta Lacks y rsquo, han viajado para hablar ante un público de hasta 4.000 personas sobre su familia y los problemas más amplios planteados en el libro Skloot & rsquos.

"A pesar de que hablamos mucho sobre el libro, también comenzamos a hablar más sobre los temas que se abarcan en el libro, como la salud, la prosperidad y la medicina de precisión", dice Lacks.

"Todo el mundo va a enfermarse en algún momento o se verá afectado por alguien que esté enfermo", añade. & ldquoQueremos ayudar a los científicos a encontrar curas. & rdquo

La imagen superior, que es la misma que se muestra en la portada de este mes, es una imagen de fluorescencia multifotónica de células HeLa. Los microtúbulos están en magenta. El ADN está en cian. La imagen es cortesía de Tom Derrinck en el Centro Nacional de Investigación en Microscopía e Imágenes.


1. INTRODUCCIÓN

La mezcla entre poblaciones y la hibridación entre especies son comunes y un árbol que se bifurca a menudo es insuficiente para capturar su historia evolutiva (Green et al., 2010 Kozak et al., 2018 Malinsky et al., 2018 Patterson et al., 2012 Tung & Barreiro, 2017). Patterson D La estadística, que se utilizó por primera vez para detectar la introgresión entre las poblaciones humanas y neandertales modernas (Durand et al., 2011 Green et al., 2010), se ha aplicado ampliamente en una amplia gama de taxones (Fontaine et al., 2015 Kozak et al., 2018 Malinsky et al., 2018 Tung & Barreiro, 2017 vonHoldt et al., 2016). los D estadística y la estimación relacionada de la fracción de mezcla F, conocido como el F4-ratio (Patterson et al., 2012), son simples de calcular y muy adecuados para aprovechar conjuntos de datos a escala genómica, mientras que son robustos en la mayoría de los escenarios demográficos (Durand et al., 2011).

los D y F4-Las estadísticas de relación pertenecen a una clase de métodos basados ​​en el estudio de las correlaciones de las frecuencias alélicas entre poblaciones y se desarrollaron dentro de un marco genético poblacional (Patterson et al., 2012). Sin embargo, los métodos se pueden aplicar con éxito para aprender sobre la hibridación y la introgresión dentro de grupos de especies estrechamente relacionadas, siempre que se mantengan las suposiciones genéticas de poblaciones comunes, es decir, que (a) las especies comparten una cantidad sustancial de variación genética debido a la ascendencia común y la incompleta clasificación de linaje (b) las mutaciones recurrentes y inversas en los mismos sitios son insignificantes y (c) las tasas de sustitución son uniformes entre las especies (Patterson et al., 2012 Pease & Hahn, 2015).

Con más datos genómicos disponibles, existe la necesidad de manejar conjuntos de datos con decenas o cientos de taxones. Aplicando el D y F4La estadística de relación tiene la ventaja de la eficiencia computacional y es poderosa incluso cuando se utilizan datos del genoma completo de un solo individuo por población (Green et al., 2010). Por otro lado, como cada cálculo de D y F se aplica a cuatro poblaciones o taxones, el número de cálculos / cuartetos crece rápidamente con el tamaño del conjunto de datos. El número de cuartetos es , es decir. norte elige 4, donde norte es el número de poblaciones. Esto puede presentar desafíos en términos de mayores requisitos computacionales. Además, las estadísticas de prueba resultantes están correlacionadas cuando los cuartetos comparten una rama (interna) en la población general o el árbol de especies, lo que puede hacer que un sistema de las cuatro pruebas de taxón posibles en un conjunto de datos sea difícil de interpretar.

Debido a que la localización de eventos de introgresión específicos en conjuntos de datos con decenas o cientos de poblaciones o especies sigue siendo un desafío, el F-rama o FB(C) la métrica se introdujo en Malinsky et al. (2018) para desenredar correlacionados F4-relación de resultados y asignar evidencia de flujo de genes a ramas específicas, posiblemente internas, en una filogenia. los FLa métrica de rama se basa y formaliza los argumentos verbales empleados por Martin et al. (2013) para asignar el flujo de genes a ramas internas específicas en la filogenia de Heliconius mariposas Por lo tanto, la F-La estadística de rama puede verse como una ayuda para formular hipótesis de flujo de genes en conjuntos de datos de muchas poblaciones o especies.

Patterson D y estadísticas relacionadas también se han utilizado para identificar loci introgresados ​​mediante escaneos de ventana deslizante a lo largo del genoma (Fontaine et al., 2015 Heliconius Genome Consortium, 2012), o calculando estas estadísticas para regiones genómicas cortas particulares. Porque el D La estadística en sí tiene una gran varianza cuando se aplica a pequeñas ventanas genómicas y debido a que es un estimador pobre de la cantidad de introgresión (Martin et al., 2015), estadísticas adicionales que están relacionadas con la F4-ratio se han diseñado específicamente para investigar firmas de introgresión en ventanas genómicas a lo largo de los cromosomas. Estas estadísticas incluyen FD (Martin et al., 2015), su extensión FdM (Malinsky et al., 2015) y la fracción de distancia df (Pfeifer y Kapan, 2019).

Programas para calcular Patterson D y las estadísticas relacionadas incluyen admixtools (Patterson et al., 2012), hyde (Blischak et al., 2018), angsd (Paul et al., 2011 Soraggi et al., 2018), popgenome (Pfeifer & Kapan, 2019 Pfeifer et al. ., 2014) y comp-d (Mussmann et al., 2020). Sin embargo, varios factores exigen la introducción de un nuevo software. First, most of the existing programs cannot handle the variant call format (VCF) (Danecek et al., 2011 ), the standard file format for storing genetic polymorphism data produced by variant callers such as samtools (Li, 2011 ) and gatk (DePristo et al., 2011 ). Second, the computational requirements of these programs in terms of either run time or memory (or both) make comprehensive analyses of data sets with tens or hundreds of populations or species either difficult or infeasible. Third, the programs implement only a subset of the statistics discussed above, and there are some statistics, namely FdM, y F-branch, which have not yet been implemented in any publicly available software package.

To address these issues, we introduce the Dsuite software package. Dsuite brings the calculation of different related statistics together into one software package, combining genome-wide and sliding window analyses, and downstream analyses aiding their interpretation (Table 1). Dsuite has a user-friendly straightforward workflow and uses the standard VCF format, thus generally avoiding the need for format conversions or data duplication. Moreover, Dsuite is computationally more efficient than other software in the core task in calculating the D statistics, making it more practical for analysing large genome-wide data sets with tens or even hundreds of populations or species. Finally, Dsuite implements the calculation of the FdM y F-branch statistics for the first time in publicly available software. While researchers can implement these and other statistics in their own custom scripts, the inclusion of the whole package of statistics in Dsuite facilitates their use and reproducibility of results.

Software VCF input Genome-wide tests/statistics Sliding window statistics
D F4-ratio F-branch D F D F dM df
admixtools
angsd
comp-d
hyde
popgenome
dsuite

How much of human height is genetic and how much is due to nutrition?

This question can be rephrased as: "How much variation (difference between individuals) in height is attributable to genetic effects and how much to nutritional effects?" The short answer to this question is that about 60 to 80 percent of the difference in height between individuals is determined by genetic factors, whereas 20 to 40 percent can be attributed to environmental effects, mainly nutrition. This answer is based on estimates of the "heritability" of human height: the proportion of the total variation in height due to genetic factors.

Human height is a quantitative, or metric, trait, i.e., a characteristic that is measured in quantity, and is controlled by multiple genes and environmental factors. Many studies have estimated the heritability of human height. Often, these studies determine heritability by estimating the degree of resemblance between relatives. One can separate genetic effect from environmental effects by correlating genetic similarity between relatives (twin, siblings, parents and offspring) with their similarity in height. To accurately measure how genetically similar relatives are, one can measure the number of genetic markers they share. For example, Peter M. Visscher of the Queensland Institute of Medical Research in Australia recently reported that the heritability of height is 80 percent, based on 3,375 pairs of Australian twins and siblings. This estimate is considered to be unbiased, as it was based on a large population of twins and siblings and a broad survey of genetic markers. In the U.S., the heritability of height was estimated as 80 percent for white men. These estimates are well supported by another study of 8,798 pairs of Finnish twins, in which the heritability was 78 percent for men and 75 percent for women. Other studies have shown height heritability among whites to be even higher than 80 percent.

Because different ethnic populations have different genetic backgrounds and live in different environments, however, height heritability can vary from one population to another, and even from men to women. In Asian populations, the heritability of height is much lower than 80 percent. For example, in 2004 Miao-Xin Li of Hunan Normal University in China and his colleagues estimated a height heritability of 65 percent, based on a Chinese population of 385 families. In African populations, height heritability is also lower: 65 percent for the population of western Africa, according to a 1978 study by D. F. Roberts, then at Newcastle University in England, and colleagues. Such diversities in heritability are mainly due to the different genetic background of ethnic groups and the distinct environments (climates, dietary habits and lifestyle) they experience.

Heritability allows us to examine how genetics directly impact an individual's height. For example, a population of white men has a heritability of 80 percent and an average height of 178 centimeters (roughly five feet, 10 inches). If we meet a white man in the street who is 183 cm (six feet) tall, the heritability tells us what fraction of his extra height is caused by genetic variants and what fraction is due to his environment (dietary habit and lifestyle). The man is five centimeters taller than the average. Thus, 80 percent of the extra five centimeters, or four centimeters, is due to genetic variants, whereas one centimeter is due to environmental effects, such as nutrition.

Heritability can also be used to predict an individual's height if the parents' heights are known. For example, say a man 175 cm tall marries a woman 165 cm tall, and both are from a Chinese population with a population mean of 170 cm for men and 160 cm for women. We can predict the height of their children, assuming the heritability is 65 percent for men and 60 percent for women in this population. For a son, the expected height difference from the population mean is: 0.65 x [(175 - 170) + (165 - 160)] / 2, which equals 3.25 cm for a daughter, the difference is 0.6 x [(175 - 170) + (165 - 160)] / 2, which equals 3 cm. Thus, the expected height of a son is 170 + 3.2, or 173.2 cm, and of a daughter 160 + 3, or 163 cm. On the other hand, environmental effects can add 1.75 cm to a son's height: 0.35 x [(175 - 170) + (165 - 160)] / 2, and 2 cm to a daughter's: 0.4 x [(175 - 170) + (165 - 160)] / 2. Of course, these predictions only reflect the mean expected height for each of the two siblings (brothers and sisters) the actual observed height may be different.

From these calculations, we realize the environment (mainly nutrients) can only change about 2 centimeters for a given offspring's height in this Chinese population. Does that mean that no matter what happens in the child's environment, the height can never change more than this? Can special treatment and nutrient supplements increase the height further? La respuesta es sí. The most important nutrient for final height is protein in childhood. Minerals, in particular calcium, and vitamins A and D also influence height. Because of this, malnutrition in childhood is detrimental to height. In general, boys will reach maximum height in their late teens, whereas girls reach their maximum heights around their mid-teens. Thus, adequate nutrition before puberty is crucial for height.


Reviewers' comments

Reviewer 1: Mikhail Gelfand, Department of Bioengineering and Bioinformatics, Moscow State University, and Institute for Information Transmission Problems RAS, Moscow, Russia

The paper addresses an important problem of selecting a good similarity measure for comparing gene expression patterns. It does not provide definitive answers, but demonstrates correct approaches. The main conclusion, "the choice of a proper measure depends on the biological problem at hand" is difficult to argue against. The following comments are mainly of the discussion and editorial nature.

While the basic assumption, that homologous tissues in different organisms should be more similar in the terms of gene expression than tissues in one organism, is reasonable, some caveats are due. For instance, if the tissues in question are very close developmentally, one can easily expect concerted, organism-specific changes in expression. In fact, the papers results demonstrate exactly that.

The rat spleen and thymus are clustered by all measures (Fig. 1). The human spleen and thymus are clustered by some measures, and I think that clustering [(thymus_rat + spleen_rat) + (thymus_human + spleen_human)] should not be counted as an error, as opposed to a version with human spleen being an outlier: [((thymus_rat + spleen_rat) + thymus_human) + spleen_human]. Similarly, I'd assume that both versions [(muscle_human + heart_human) + (muscle_rat + heart_rat)] and [(muscle_human + muscle_rat) + (heart_human + heart_rat)] are biologically relevant, as opposed to [((muscle_human + heart_human) + muscle_rat) + heart_rat)]. Hence, the procedure of counting errors should not be limited to considering pairs of non-clustered homologous tissues, but should tale into account finer topological detail (as well as, maybe, branch length).

Authors' response: We agree with the reviewer that there may be more than one biologically relevant clustering solution, and concerted organism-specific co-expression of genes might cause species-specific tissue cluster. However, we believe that in most cases non-homologous tissues clustering is directly related to tissues sampling and the number of replicates available. Curiously, the pattern [((thymus_rat + spleen_rat) + thymus_human) + spleen_human], was observed with all four distance measures that we tried. Also note that part of our intention was to demonstrate that in the problem of tissue clustering there is no valid reason to dismiss the correlation-based distance, despite the concerns raised in ref. [13] and indeed, correlation-based distance and the Euclidean distances gave the same results in our hands, and even for the binary transformed data the correlation-based distance detected some of the relevant signal.

While this may go beyond the limits of the present study, I think it would be interesting to look into more detail into the cluster trees generated by different measures, and specifically, into what genes contribute most into different clusters, dependent on the expression patterns. At that, one should keep in mind that in each tissue we observe an averaged expression of genes from a mixture of quite different cell types. For instance, clustering of the spleen, thymus and the bone marrow may be related to the blood cells development, while clustering of the spleen, thymus and the pituitary gland may be caused by genes expressed in the gland tissue.

Some hint of analysis is given in the last paragraph of "Distance estimates". The overrepresentation of heart and muscle development genes is not surprising, given the robust clustering of these tissues in all trees. On the other hand, the statement that the Eucledian distance does not provide a functionally meaningful set: one can easily see blood cell development genes there (not surprising given spleen, thymus and bone marrow data) and neurological process (the sources for which is admittedly less clear: could it be the pituitary gland?)

Authors' response: We agree that there is good information in the clusters produced by Euclidean distance, even if there is no single dominant theme there. Note, however, that genes selected using the Euclidean distance tend to be expressed in all tissues at the uniform low level, while genes selected using correlation-based distance tend to be expressed in several orthologous tissues at the much higher level.

Reviewer 2: Eugene Koonin, National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health

The paper by Glazko and Mushegian makes the case that different measures of expression divergence (in particular, Euclidean distances and correlation-based distances) are best suited for revealing different trends in the evolution of gene expression. I would like to strongly endorse this work that shows flexibility which is vital for understanding such a complex phenomenon as evolution of gene expression in multicellular organisms. A versatile approach like this gives the only hope of progress in this field and is a welcome contrast to the common attempts to propose one approach claimed to be best for all purposes.

Authors' response: We appreciate the reviewer positive comment. Taking a more familiar example of distances between biological sequences, we know that those can be roughly estimated even without an explicit model of sequence evolution, but it is also known that, as sequences diverge, the error of the estimate becomes more and more significant. Similarly, the ultimate goal in gene expression analysis is to have an evolutionary model for gene expression. Short of that, the divergence between expression profiles can be estimated with appropriate distance measures.

Reviewer 3: Subhajyoti De (nominated by Sarah Teichmann), Computational Biology Program, Memorial Sloan-Kettering Cancer Center

In the paper entitled "Measuring gene expression divergence: the distance to keep", Glazko and Mushegian present a discussion about which distance measure to use in inter-species expression divergence analyses. While the topic is of broad interest, I have some comments

1. How were the transcripts with multiple probes treated? How were the probes that map to multiple genes treated?

Authors' response: Raw data preprocessing step is described in the Method section.

If a gene had multiple transcripts, how did the authors choose the representative transcript?

Authors' response: Affymetrix Human hgu133a and Rat rgu34a arrays do not provide information about multiple transcripts.

Why no between-array normalization was performed for rat samples?

Authors' response: RMA procedure was implemented for both human and rat arrays.

2. The distributions of Euclidean distance and correlation-based distance for pairs of randomly chosen gene pairs differ in their shapes. Can the authors discuss this issue and also how that may affect their comparative analysis and tree-building?

Authors' response: This is exactly the point of the presented paper. Not only the distributions between randomly chosen gene pairs are different, but also the distributions between orthologous gene pairs are different for all distance measures that we tried. As we have shown in the paper, this difference most certainly may have an effect on the analysis, and the kind of effect depends on the type of the analysis, i.e., on the biological question that is asked.

3. In the recent releases of Ensembl, there are about 14,000 one-to-one orthologs. The authors present results based on 3152 genes. It remains to be clear why the dataset analyzed is so small and whether the conclusions made in this paper can be extended to the whole genome dataset.

Authors' response: hgu133a and rgu34a arrays contain 22283 and 8799 probe sets, respectively. After mapping them to unique genes, only 4939 genes for rat were left. The conclusions made in this paper refer to the distance properties and hardly depend on the number of the orthologs studied.

4. In Figure 1 it is not clear how the tree was drawn (e.g. Neighbour joining, Maximum likelihood) and how that method may affect the tree structure. Furthermore, the authors should perform bootstrapping to assess the quality of the trees.

Authors' response: We used average-link clustering for tree inference. As we were interested in how different distance measures affect the tree structure, we applied the same clustering approach to each distance matrix. Different clustering approach may indeed produce trees with different topologies, but we expect that the effect of varying distance measure would be observed in any clustering algorithm. As for the support of the trees, we expect it to be relatively low given the sample size and the amount of replicates, and our focus here is on the qualitative estimate of how different distances perform in the problem of tissues clustering.

5. In Figure 2 the histogram bars corresponding to orthologus and random gene pairs should be provided side-by-side. In its current form, it is hard to interpret how the distributions of orthologus gene-pairs differ from the random pairs.

Authors' response: We think that bar plots with stacked columns demonstrate the difference between these distributions quite clearly.

6. In Figure 3, y-axis label is missing. Why skeletal muscle shows high Euclidian and correlation distance that is significantly above other tissue-types (as seen by boxplot) and the trend is consistent in all the four panels? Is it an array normalization artifact or a biologically meaningful pattern?

Authors' response: We labeled y-axis in Figure 3. The meaning of the pattern observed in Figure 3, we believe, is that genes selected using the Euclidean distance tend to be expressed in all tissues at the uniformly low level (close to the background), while genes selected using correlation-based distance tend to be expressed in several orthologous tissues at a higher level.

1. The Ensembl Release version is not provided.

Authors' response: The release version is now included.

2. GO has many functional categories organized in a hierarchical structure. It is unclear which level of GO hierarchy was used in the current analysis.

Authors' response: The levels were chosen based on the significant pag-values provided by the enrichment test, and therefore the categories from different levels of the hierarchy could be reported.

3. Table S1 and S2 carry insufficient detail about the methodology involved and the message they convey. For instance, it is unclear whether the over-represented GO categories in Table S1 arise from analysis on heart tissue? How is the p-value calculated?

Authors' response: We now provide more comprehensive description of Tables S1 and S2 in Additional file 4. We first identified orthologous gene pairs with expression profiles conserved at the 1% significance level, using different distances. For these gene pairs we implemented GO enrichment analysis. Genes identified using correlation-based distance, binary correlation distance, and GA distances shared 15 overrepresented GO categories (Table S1), whereas genes identified using the Euclidean distance were from completely different GO categories (Table S2). This was the lesson learned from the analysis, i.e., that different distances select functionally different conserved orthologous gene pairs. The over-represented GO categories in Table S1 arise from the genes expressed in all tissues and identified as conserved by three different distances. pag-values were calculated by hypergeometric test using the GOstat module from Bioconductor.

4. In Figure S3, in each panel, the outliers cross the whisker and also appear to be shifted. Please revise the figure. Also please adjust the y-axis scale in the two bottom panels to make the figures easier to visualize.

Authors' response: In R implementation, whiskers extend to 1.5*IQR but the parameters can be adjusted so that outliers are not displayed at all. The message of Figure S3 is that genes with high entropy are not 'genes with a conserved uniform pattern of expression'.


Procrastination Essential Reads

6 Ways to Combat Procrastination for Adults With ADHD

Why We Procrastinate

In light of the evidence that goal-management ability may be a central underlying problem for both procrastination and impulsivity, executive functions may also be predictive of individual differences in both of these traits, especially at the genetic level (pág.9).

I couldn’t agree more, and I’m confident that findings of future twin studies that include measures of executive function and conscientiousness will take the emphasis off of the risk factor of impulsivity alone in an understanding of the evolutionary etiology of procrastination. In fact, impulsivity can be seen as a failure of executive function, particularly a key function commonly labeled inhibition.

As with all complex behaviors, procrastination does not have a single causal factor such as impulsivity. There are both risk and resilience factors, each of which is partially explained by genetic variation. Of course, this nuanced answer is not such an appealing message for a media headline where we simply want to say “you inherited your procrastination!” We’re eager to read an article that explains our procrastination today as a by-product of human evolutionary history. Doesn’t it feel great to blame it our genes and evolutionary history? It’s only human after all.

Of course procrastination is only human. Estoy de acuerdo. I also agree that impulsivity“a bird in the hand”may have paid off for our ancestors leading to a selection for this trait, but so did conscientiousness, that planful, organized approach to life. That’s why we see substantial heritability for this trait as well.

So, before you impulsively (pardon the pun) blame your genes and human evolutionary history for your procrastination and find yet another excuse for justifying needless, self-defeating delay, take a moment to put these new truth claims in the context of your other traits and abilities that show substantial genetic contributions. And, perhaps most importantly, remember that the genetic contributions amount to half of the variability in these traits. The rest is that “nature via nurture” dance where environment makes a great deal of difference. How will you nurture your goal-management ability and better inhibit that only too human desire to impulsively give in to feel good now?

Gustavson, D., Miyake, A., Hewitt, J., & Friedman, N. (2014). Genetic relations among procrastination, impulsivity, and goal-management ability: Implications for the evolutionary origin of procrastination. Ciencia psicológica. DOI: 10.1177/0956797614526260


Ver el vídeo: Explicación del Proyecto Genoma humano!! (Noviembre 2022).