Información

¿Existe alguna referencia para la composición de los genomas virales?

¿Existe alguna referencia para la composición de los genomas virales?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Primero que nada, perdóname por la mala pregunta escrita.

No soy biólogo. No soy médico ni virólogo. De hecho, soy físico y tengo esta pregunta en mente desde hace mucho tiempo.

Lo que estoy tratando de preguntar es si hay una especie de archivo de texto o un sitio web (o un libro) donde pueda leer sobre la "composición" de los virus.

"Composición" significa algo como

"Este es el rinovirus, y su" composición "genética es ACTGCT" (por supuesto, acabo de inventar ...).

No sé cómo expresarme con buenos términos porque no estoy familiarizado con este campo, así que siéntase libre de editar la pregunta si parece poco clara.

Una vez más, lo que estoy pidiendo es una especie de base de datos de secuencias genéticas sobre virus, etc.

¡Gracias por adelantado!


NCBI alberga una colección de genomas virales en el portal de genomas virales, apropiadamente llamado. Actualmente tienen 5921 genomas virales y, al ir al enlace anterior, puede buscar secuencias de las principales familias virales.

Si tiene una secuencia de ácido nucleico o de aminoácidos, puede buscarla con las secuencias de NCBI aquí.

Uniprot también tiene un proyecto de anotación de secuencias de proteínas virales que describen como tal;

El concepto de este sitio web es asociar conocimientos específicos para cada familia de virus con proteínas virales y secuencias genómicas. Toda la información disponible se presenta en una hoja de datos de virus concisa y accesible, asociada con la lista ordenada de entradas revisadas. El sitio cubre toda la virosfera conocida. La sección de la base de datos permite el acceso a las entradas de proteínas de UniProtKB, así como a las bases de datos de virología específicas.

Actualmente, nuestros esfuerzos se dirigen hacia la ontología viral y la anotación de cepas de referencia. Una ontología robusta permitirá una definición más precisa de la participación de cada proteína en los pasos de replicación viral. La anotación de cepa de referencia se convertirá en el punto de referencia para cada uno de los 334 géneros.

Se puede acceder a su trabajo a través de uniprot.org o mediante el portal del proyecto en; http://viralzone.expasy.org/


El contenido viral de los genomas humanos es más variable de lo que pensábamos

Partes del ADN humano son de origen viral: muchas de ellas se insertaron en el material genético primordial de nuestros antepasados ​​hace muchos millones de años y han sido heredadas por generaciones sucesivas desde entonces. Por lo tanto, no se cree que varíen mucho en los genomas de los humanos modernos. Los retrovirus endógenos humanos (HERV) son, con mucho, las secuencias derivadas de virus más comunes en nuestro genoma. Una nueva investigación publicada en Mobile DNA muestra un mecanismo que ha introducido más variación interindividual en el contenido de HERV entre humanos de lo que se pensaba anteriormente.

Hay partes del ADN humano que son de origen viral: muchas de ellas se insertaron en el material genético primordial de nuestros antepasados ​​hace muchos millones de años y han sido heredadas por generaciones sucesivas desde entonces. Los retrovirus endógenos humanos (HERV) son, con mucho, las secuencias derivadas de virus más comunes en nuestro genoma. La mayoría de las secuencias de HERV han sido asimiladas durante mucho tiempo y, por lo tanto, son compartidas por todos los individuos de la población humana, pero no todas lo son y se sabe que unas pocas se encuentran solo en un subconjunto de individuos. Se sabe que la mayoría de estos elementos HERV no fijos descienden de eventos de inserción relativamente recientes que aún se segregan en la población humana. Pero una nueva investigación publicada recientemente en ADN móvil muestra que otro mecanismo ha introducido más variación interindividual en el contenido de HERV entre humanos de lo que se pensaba anteriormente. ¿Cómo puede ser esto?

Primero, es importante pensar en las características estructurales de los HERV. Para integrarse en el cromosoma del huésped, estas secuencias deben ser elementos de longitud completa llamados provirus. Cada provirus se organiza alrededor de un núcleo central que contiene los genes codificantes virales intercalados entre secuencias largas no codificantes repetidas en cada extremo llamadas repeticiones terminales largas (LTR) (ver Figura 1). Después de la integración, los dos LTR de un provirus, que son idénticos en el momento de la inserción, se recombinan con frecuencia para formar lo que se denomina un LTR solo. El proceso de recombinación elimina los genes virales internos junto con uno de los dos LTR, dejando un solo LTR. Se ha estimado previamente que el 90% de todos los HERV en el genoma humano son LTR solos, y solo el 10% permanecen en su forma proviral. Pero, ¿qué pasa si algunos de estos elementos provisionales todavía están pasando por la transición para convertirse en LTR solos? Investigadores de la Universidad de Utah y de la Universidad de Cornell se establecieron para investigar esta cuestión y evaluar en qué medida el proceso de recombinación de LTR podría generar variaciones de HERV entre humanos.

El Dr. Jainy Thomas desarrolló un nuevo enfoque computacional que les permitiría seleccionar una gran cantidad de secuencias de ADN de diversas poblaciones humanas para encontrar lo que presumiblemente serían eventos raros de recombinación de LTR. Dada la gran cantidad de secuencias de HERV en los genomas humanos, la tarea fue similar a encontrar agujas en un pajar. Se buscó en un conjunto de datos disponible públicamente, respaldado por la Fundación Simons, de secuencias del genoma completo que representan 130 poblaciones genéticas diferentes para las variantes de tres familias retrovirales diferentes: HERV-K (HML2), HERV-W y HERV-H. La tubería que desarrolló le permitió al Dr. Thomas recuperar la mayoría de las variantes de HERV previamente catalogadas y descubrir muchas más (Figura 2). Quizás no sea sorprendente que la mayoría de las variantes recién descubiertas fueran aparentemente raras, ya que se encontraron en solo uno o unos pocos individuos. Pero también fueron inesperados dado que muchos de estos HERV se habían insertado hace mucho tiempo en el ADN de nuestros antepasados ​​y algunos incluso se compartieron con nuestros parientes grandes simios y, por lo tanto, se pensó que estaban fijos en la población humana. No obstante, la Dra. Thomas pudo confirmar experimentalmente que varias de estas variantes se segregan en la población humana, validando así la eficiencia de su enfoque computacional.


Microorganismos: virus - genomas virales

Los genomas de los virus son como cualquier otro genoma: contienen todos los genes necesarios para replicarse. Sin embargo, los virus son muy perezosos y utilizan la mayor parte de la maquinaria de la célula huésped para producir lo que necesitan para replicarse. Algo así como aquella vez que dejamos entrar a esa carnie en nuestra casa, luego, cuando regresamos, la secadora se había ido ... y había doce carnes y un juego de lanzamiento de anillos en su lugar. Sí, así como así.

Los virus tienen genes que codifican un mínimo de dos proteínas:

  • Replicasa: una enzima que replica el genoma.
  • Cápside: una proteína que protege el genoma.

Los virus pueden tener genes que codifican proteínas que ayudan en la infección, la supervivencia u otras habilidades virales útiles. (Por cierto: estos están en orden de genes comunes a los raros):

  • Proteasa: enzima que procesa las proteínas virales y permite el ensamblaje o la maduración para infectar otras células virales.
  • Glicoproteína: (solo virus con envoltura) permite que el virus ingrese a una célula, se dirige a tipos celulares específicos para el virus y ayuda en el ensamblaje del virus.
  • Proteínas de cierre del hospedador: proteínas del virus que interrumpen las actividades del hospedador para que solo se produzcan los genes del virus.
  • Proteínas de defensa contra el hospedador: el número y el tipo de estos diferentes genes variará, según el virus. Estas proteínas evitan que el mecanismo de defensa del huésped detenga la replicación del virus.

Estos genes están codificados en polímeros de ARN o ADN, y son monocatenarios o bicatenarios.


Tipos de genomas de virus

Guau. Eso fue mucho, ¿verdad? Bueno, se pone peor. Si bien la mayoría de los genomas no están segmentados (todo el genoma está en una sola pieza de ARN o ADN), algunos genomas están segmentados, lo que significa que hay varios fragmentos de material genético que forman un genoma completo del virus. Además, algunos genomas son lineales, lo que significa que hay un principio y un final para el genoma, mientras que otros genomas son circulares (sin principio ni fin. Algo así como esa canción de la amistad, excepto por "amigos" que queremos decir "montones de sustancia microscópica ").

Eso parece una gran sobrecarga de información, y nos solidarizamos. Para algo tan pequeño y aparentemente simple (como "No puedo creer que no sea mantequilla"), los virus son muy complejos (como los ingredientes de "No puedo creer que no sea mantequilla"). Lo importante es que si puede distinguir la diferencia entre el virus de ARN y el de ADN, y si es lineal o circular, y si está segmentado o no segmentado, inmediatamente puede decir mucho sobre un virus. Por lo tanto, adjuntamos una tabla para que sirva como una hoja de trucos para los genomas de virus.


Virus de ADN

Los virus se pueden clasificar según proteinas codificado dentro del material genético viral o genoma . Los virus con genomas de ácido desoxirribonucleico (ADN) se denominan virus de ADN. Como todos los virus, los virus de ADN son pequeños en comparación con las células que infectan y, como tales, son parásitos intracelulares obligados (parásitos que solo pueden replicarse dentro de las células). En la célula apropiada, los virus de ADN pueden programar la célula para replicar el virus utilizando los genes contenidos en el genoma del ADN viral.

La forma extracelular de un virus se conoce como virión. Para un virus de ADN, el virión está compuesto por un conjunto de genes de ADN protegidos por una capa que contiene proteínas llamada cápside. El pelaje se caracteriza a menudo por la regularidad y la simetría en su estructura y es capaz de unirse e invadir las células. En el caso de algunos virus de ADN, la cápside puede estar rodeada por una membrana que se forma a partir de membranas celulares. Al invadir una célula susceptible, el virión se desensambla para liberar el genoma viral en la célula, momento en el que se transcriben los genes dentro del ADN viral, produciendo ácido ribonucleico mensajero viral (ARNm).

El ARNm viral se traduce en proteína. Estas proteínas & # x0022early & # x0022 son responsables de alterar las funciones celulares normales que en algunos casos permiten a la célula infectada evadir el sistema inmunológico. Estas proteínas & # x0022early & # x0022 también son importantes para promover & # x0022late & # x0022 la síntesis de genes virales y preparar la célula para la producción de progenie virus. Después de la síntesis tardía de genes, que incluye proteínas que son importantes para replicar y encerrar el virus, la célula infectada libera los viriones de la progenie para invadir otras células de modo que el proceso pueda repetirse.

Hay seis familias de virus de ADN diferentes que infectan y pueden causar una enfermedad significativa en los seres humanos. Estos se pueden subdividir en aquellos con genomas de ADN & # x0022small & # x0022 o genomas de ADN & # x0022large & # x0022. Los virus de ADN con genomas de ADN pequeños tienen tamaños de genoma de menos de 10 kilopares de bases , mientras que los virus de ADN con genomas grandes tienen más de 30 kilopares de bases. Los virus de ADN pequeños generalmente tienen menos de diez genes codificados dentro del genoma viral, mientras que los virus de ADN grandes pueden tener entre cincuenta genes y más de cien genes. Los virus con genomas de ADN pequeños incluyen el virus del papiloma humano (VPH). El VPH infecta las células epiteliales de la piel. Causa verrugas comunes en manos y pies y, en algunos casos, es importante para el desarrollo de cáncer de cuello uterino en las mujeres. La hepatitis B es otro pequeño virus de ADN que infecta el hígado, causa hepatitis y está asociado con el cáncer de hígado. El adenovirus, el herpesvirus y el poxvirus son todos ejemplos de virus de ADN grandes que infectan a los seres humanos. Los adenovirus, de los cuales hay muchos tipos, causan gastroenteritis y enfermedad respiratoria en humanos.

Los herpesvirus son una familia de virus muy diversa. Hay un total de ocho virus del herpes que infectan a los humanos y establecen una infección latente. Herpes

Otros virus del herpes que infectan a los humanos incluyen el virus de Epstein-Barr, que causa mononucleosis y es importante en una variedad de cánceres humanos, y el virus varicela-zóster, que causa varicela en niños y herpes zóster en adultos. El último gran virus de ADN que puede infectar a los humanos es la viruela. Antes de la vacunación y la erradicación de la viruela en la década de 1970, la viruela causaba una morbilidad significativa en las poblaciones humanas y entre el 1 y el 25 por ciento de los casos provocaban la muerte.


Materia oscura viral: los virus gigantes tienen genes metabólicos, aunque los virus no tienen metabolismo

& # 8216Brown tide virus & # 8217 es miembro de una clase llamada virus gigantes. Los investigadores han descubierto genes para ciclos metabólicos celulares clave en muchos virus gigantes, lo que sugiere que estos microbios pueden interactuar con sus huéspedes de formas más diversas de lo que se pensaba anteriormente. Crédito: Dr. Chuan Xiao y Yuejiao Xian, Universidad de Texas en El Paso.

Los investigadores de Virginia Tech descubrieron genes para los ciclos metabólicos celulares en los genomas de virus gigantes.

En las fotos satelitales de la Tierra, nubes de color verde brillante florecen en la superficie de los lagos y océanos a medida que las poblaciones de algas explotan en agua rica en nutrientes. Desde el aire, las algas parecen ser los protagonistas principales del drama ecológico que se desarrolla a continuación.

Pero esos organismos unicelulares a los que damos crédito por influir en el medio acuático en la base de la cadena alimentaria pueden estar bajo la influencia de algo más: virus cuyos genes pueden reconfigurar el metabolismo de sus huéspedes.

En un nuevo estudio publicado en Comunicaciones de la naturaleza, un equipo de investigación de Virginia Tech informó que habían encontrado una colección sustancial de genes para los ciclos metabólicos, una característica definitoria de la vida celular, en una amplia gama de & # 8220 virus gigantes & # 8221.

Los virus gigantes interrumpen la narrativa familiar sobre los virus: que son los habitantes más diminutos del microbioma, poco más que una cáscara despojada de un organismo, solo unos pocos genes y un valor de ADN o ARN doblado en una cáscara tan pequeña que usted Necesito un microscopio electrónico para verlo. De hecho, los virus gigantes, diez veces el tamaño de sus primos más compactos y con cientos o incluso miles de genes, son tan diferentes al resto de la familia que cuando se descubrió la primera especie en 1992, los investigadores la descartaron como bacteria.

Finalmente fueron clasificados correctamente, pero incluso entonces se los consideró una curiosidad aislada. Frank Aylward, profesor asistente de ciencias biológicas en la Facultad de Ciencias, que dirigió la investigación, explicó que las encuestas de rutina sobre la diversidad viral a menudo no las detectan por una razón prosaica: son tan grandes que quedan atrapadas en los filtros que utilizan los investigadores. separar los virus de las bacterias y otros organismos más grandes.

Pero gradualmente, quedó claro que estos virus de gran tamaño estaban en todas partes, y especialmente abundantes en ambientes acuáticos, donde infectan organismos unicelulares como algas y protozoos. Eso es importante, porque el metabolismo de esos organismos comparativamente complejos (qué nutrientes consumen, qué desechos producen) influye en gran medida en la salud de los océanos y lagos en los que viven y, en última instancia, en el ciclo del carbono del planeta.

& # 8220 Están & # 8217 por toda la biosfera. Es sólo que no les hemos prestado atención, dijo Aylward.

Aylward comenzó a prestar atención después de que el investigador postdoctoral Monir Moniruzzaman, el autor principal del nuevo estudio, se uniera al laboratorio en 2018.

& # 8220Monir es el experto en virus gigantes, & # 8221 Aylward se rió. & # 8220 Él simplemente & # 8217t dejaría de hablar de virus gigantes, así que finalmente dije, está bien, empezaremos a trabajar en ellos & # 8221.

Trabajando a partir de bases de datos de metagenomas disponibles públicamente, que albergan una mezcla de datos genéticos de la amplia gama de organismos en una variedad de entornos, Moniruzzaman comenzó a desentrañar genomas que pertenecían a virus gigantes. Usando genes conocidos de virus gigantes como marcadores y patrones en los datos como pistas, reunió los genomas de 501 virus gigantes, principalmente de ambientes marinos y de agua dulce. Esos genomas contenían las características estándar que esperas: genes que dirigen la construcción del virus y capa protectora y que le permiten infectar y matar a su anfitrión.

No esperaban ver tantos genes metabólicos. El metabolismo, la colección de procesos que utilizan las células para extraer energía de los nutrientes, es un sello distintivo de la vida celular, ausente de los virus casi por definición. Sin embargo, estos virus gigantes parecían tener genes vinculados a varias vías metabólicas clave en las células vivas.

Estos no fueron los primeros genes metabólicos que aparecieron en los genomas virales, pero incluían muchas funciones que nunca se habían visto en los virus. Otros ejemplos habían sido genes virales aislados que eran prácticamente idénticos a sus homólogos celulares, lo que sugiere que se habían adquirido del huésped por casualidad durante una infección y se habían pegado en el genoma del virus & # 8217 hace relativamente poco tiempo: artefactos vestigiales de invasiones pasadas en lugar de herramientas funcionales.

Los genes que encontraron Moniruzzaman y Aylward, por otro lado, comprendían grandes porciones de vías metabólicas familiares, pero tenían su propia firma única.

"Implica que los virus han tenido estos genes durante millones de años, incluso miles de millones de años, y son genes metabólicos específicos del virus", explicó Aylward.

Eso sugiere que estos genes no son sólo restos genéticos, sino componentes funcionales que el virus despliega cuando se apodera de su anfitrión. En este caso, dicen los investigadores, la implicación es que el virus está alterando el metabolismo celular.

& # 8220 Una vez que los virus infectan una célula, ya no podemos & # 8217 pensar en la célula como su propia entidad autónoma & # 8221, dice Aylward. & # 8220 Los aspectos fundamentales de la fisiología celular están siendo reconfigurados por estos virus tras la infección. & # 8221

Los cambios en el metabolismo del huésped pueden cambiar el equilibrio de los nutrientes que se consumen y liberan al medio ambiente, lo que hace que los virus dominen la biogeoquímica acuática. Aunque los virus no están & # 8217t vivos, explica Aylward, & # 8220, están alterando significativamente el curso de la vida todos los días en el medio ambiente & # 8221.

El siguiente paso es averiguar cómo mediante el uso de estudios experimentales que pueden ayudar a descubrir cómo funcionan estos genes e interactúan con el metabolismo nativo del huésped. El equipo también investigará la evolución de estos genes para determinar cómo se deslizaron en el genoma viral y cuándo.

El descubrimiento de estos genes, que amplían nuestras ideas sobre cómo los virus gigantes influyen en su entorno, tiene implicaciones más amplias para la virología. Encontrar los componentes básicos del metabolismo en algo que & # 8217 no está vivo difumina la distinción entre lo que & # 8217 está vivo y lo que no & # 8217t.

& # 8220 Pienso en estos diagramas de Venn, donde solía haber muy poca superposición, y cuanto más aprendemos, más siguen superponiéndose & # 8221 Aylward. & # 8220 Ahora & # 8217s llegó al punto en que en realidad hay muy pocos genes que solo se encuentran en las células, y muy pocos genes que solo se encuentran en los virus. En términos de repertorios genómicos, tienen mucho más en común de lo que realmente esperaríamos. & # 8221

Moniruzzaman sospecha que hay más sorpresas al acecho en estos genomas, que están llenos de lo que él describe como & # 8220 materia oscura viral & # 8221, genes que siguen apareciendo en estudios de virus gigantes pero cuyas funciones aún se desconocen.

& # 8220Don & # 8217t crees que son & # 8217 fascinantes? Creo que son fascinantes, y Moniruzzaman se maravilla. & # 8220Son & # 8217sólo una bolsa de misterio. Son como un gran bosque y estás parado frente al bosque y no sabes qué hay en él. Y creo que este es el momento adecuado para entenderlo. Creo que & # 8217 son misteriosos, eso & # 8217 es lo que pienso & # 8221.

Referencia: & # 8220 Evolución dinámica del genoma y metabolismo de virocélulas complejas de virus gigantes distribuidos globalmente & # 8221 por Mohammad Moniruzzaman, Carolina A. Martinez-Gutierrez, Alaina R. Weinheimer y Frank O. Aylward, 6 de abril de 2020, Comunicaciones de la naturaleza.
DOI: 10.1038 / s41467-020-15507-2

Esta investigación fue apoyada en parte por un premio Junior Faculty Award del Institute for Critical Technology and Applied Science. Aylward es miembro de la facultad afiliada del Global Change Center, ubicado en el Fralin Life Sciences Institute.


RESULTADOS

IMG / VR v.2.0 es el mayor sistema de gestión de datos disponible públicamente para el análisis y visualización de genomas virales y fragmentos de genoma integrados con metadatos asociados dentro del sistema Integrated Microbial Genomes and Microbiomes v.5.0 (IMG / M) (11).

Datos integrados en IMG / VR

Genomas virales y fragmentos de genoma

El sistema IMG / VR v.2.0 contiene 755 999 genomas virales y fragmentos de genomas de genomas de virus aislados cultivados (iVG) y genomas de virus no cultivados (UViG). Esto representa un aumento de 3 veces, en comparación con el primer lanzamiento público en 2016 (3, 10) (Figura 1) (3, 16). Las actuales 735112 UViG se identificaron a partir de 7986 muestras metagenómicas integradas en el sistema IMG / M (11) de hábitats geográfica y ecológicamente diversos asociados con el sistema de clasificación y metadatos Genomes OnLine Database (GOLD) (17). Además, los datos incluyen un total de 8389 genomas virales de referencia de la base de datos IMG / M (11). Estas referencias representan genomas virales de alta calidad con números de acceso de BioProject, BioSample y Assembly de la base de datos de virus NCBI. La anotación estructural y funcional de todas las secuencias es proporcionada por los canales de anotación del DOE Joint Genome Institute (18).

Tasa de crecimiento de los genomas virales predichos y fragmentos de genomas de metagenomas ensamblados disponibles públicamente. Crecimiento durante los ciclos de actualización de IMG / VR para genomas virales totales (UViGs) y únicos (vOTUs) y fragmentos de genoma del sistema Integrated Microbial Genome & amp Microbiomes (IMG / M) utilizando el proceso de descubrimiento de virus metagenómico de JGI (16). Los informes anteriores incluyen el proyecto viroma de la Tierra (3) y el primer lanzamiento de IMG / VR (10).

Tasa de crecimiento de los genomas virales predichos y fragmentos de genomas de metagenomas ensamblados disponibles públicamente. Crecimiento durante los ciclos de actualización de IMG / VR para genomas virales totales (UViGs) y únicos (vOTUs) y fragmentos de genoma del sistema Integrated Microbial Genome & amp Microbiomes (IMG / M) utilizando el proceso de descubrimiento de virus metagenómico de JGI (16). Los informes anteriores incluyen el proyecto viroma de la Tierra (3) y el primer lanzamiento de IMG / VR (10).

Las UViG se identificaron utilizando la tubería de detección viral de JGI, como se describió anteriormente (3, 16). En resumen, se utilizó un conjunto curado de 25 000 familias de proteínas virales (VPF) como cebo para identificar los UViG entre las secuencias metagenómicas ensambladas de más de 5 kb seguido de un filtrado iterativo. Las predicciones de la tubería están ajustadas para proporcionar una detección altamente específica de virus y retrovirus de ADN bicatenario principalmente líticos (99,6% de precisión con una tasa de recuperación del 37,5%) (16).

Para complementar el contenido de iVG y UViG, incorporamos un conjunto público de 12 498 genomas virales de alta confianza (profagos) detectados en genomas de hospedadores microbianos (19). Este conjunto de datos se usó para crear vOTU adicionales (ver más abajo) y para mejorar las predicciones de virus-hospedador ayudando a conectar fragmentos del genoma 3017 con sus hospedadores específicos.

Clasificación de OTU viral

Las 755999 secuencias virales en IMG / VR (iVG, UViG y profagos) se agruparon en Unidades de Taxón Operacional viral (vOTU), de acuerdo con las recomendaciones de los nuevos estándares y las mejores prácticas para describir las secuencias del genoma de virus no cultivados (Roux et al., en prensa, Biotecnología de la naturaleza). Estas vOTU se generaron mediante agrupación de secuencias de enlace único con al menos un 95% de identidad de nucleótidos promedio (ANI (20)) en al menos un 85% de la longitud de la secuencia más corta.

En total, 442 675 secuencias (que representan el 58% del total) se agruparon en 110,384 vOTU (indicadas con un "vc_ ’Prefijo) que varían en tamaño de 2 a 581 miembros por grupo. La mayoría de estas vOTU (51%) contienen solo dos miembros, mientras que ∼6% tiene 10 o más miembros. Las restantes 317 778 secuencias (42% del total) fueron singletons (indicadas con un "sg_ ’Prefijo). Juntos, IMG / VR contiene 428,162 vOTU (incluidos clústeres y singleton) (Figura 1). En particular, el número total de secuencias virales recién predichas y el número de vOTU han crecido linealmente con el número de muestras examinadas, lo que indica que las estimaciones de diversidad de secuencias virales no se acercan a la saturación, como se observó anteriormente (3).

Predicción de la especificidad del huésped viral

La predicción de huéspedes putativos para las UViG se ha dividido en dos categorías: predicción de huéspedes específicos y asignación taxonómica a nivel de dominio (virus procariotas y eucariotas).

Se predijeron hospedadores virales específicos utilizando los enfoques computacionales descritos anteriormente (3). Primero, propagamos las asignaciones de hospedadores de los grupos virales que contienen iVG (actualizado en junio de 2018) y de la base de datos de profagos curada previamente publicada (19), lo que resultó en una predicción de hospedadores para 4212 UViG de 671 grupos virales. En segundo lugar, utilizamos coincidencias entre secuencias virales y el sistema inmunológico adaptativo CRISPR-Cas microbiano, que secuestra secuencias virales pequeñas (de 25 a 65 pares de bases) y las almacena dentro de las matrices CRISPR microbianas como espaciadores (21). Este enfoque llevó a la predicción del anfitrión para 37 656 UViG (incluidos 4707 vOTU y 7456 singleton). En total, conectamos 49 filos bacterianos y arqueales y filos candidatos a secuencias virales (Tabla 1). Estos métodos complementarios nos permitieron descubrir conexiones host-virus previamente desconocidas, incluida la identificación de virus que se predice que infectarían hosts de 12 phyla para los que hasta ahora no existían conexiones virus-host (Thermodesulphobacteria, Thaumarchaeota, Lentisphaerae, ca. Bathyarchaeota, ca. Micrarchaeota, ca. Desantisbacteria, ca. Aminicenantes, así como phyla candidatos dentro del CRP: ca. Wildermuthbacteria, ca. Moranbacteria, ca. Daviesbacteria, ca. Microgenomates y ca. Gracilibacteria) ,.

Filos de huéspedes de bacterias y arqueas pronosticados con el número correspondiente de UViG. Los filos de Archaeal se indican con (A)

Filo de acogida. Recuento de contig virales.
Euryarchaeota (A) 218
Crenarchaeota (A) 58
California. Micrarchaeota (A) 40
Thaumarchaeota (A) 6
California. Bathyarchaeota (A) 4
Aigarchaeota (A) 4
Nanoarchaeota (A) 2
Termotogas (A) 1
Firmicutes 8123
Proteobacterias 5911
Bacteroidetes 3583
Actinobacterias 1971
Fusobacterias 1801
Espiroquetas 130
Verrucomicrobia 127
Sinergistetes 58
Termotogas 53
Cloroflexi 52
Cianobacterias 47
Clorobi 47
Deinococcus-Thermus 32
Aquificae 26
Fibrobacterias 21
Planctomicetos 15
Clamidias 14
Ignavibacteriae 12
Caldiserica 9
California. Atribacterias 9
Gemmatimonadetes 8
California. Desantisbacterias 7
Armatimonadetes 5
California. Marinimicrobia 5
California. Fervidibacterias 4
California. Cloacimonetes 4
California. Microgenomates 3
Marinimicrobia 3
California. Moranbacteria 3
California. Parcubacterias 3
California. Aminicenantes 2
California. Sacaribacterias 2
Nitrospirae 2
Tenericutes 2
California. Wildermuthbacteria 2
California. Daviesbacteria 2
California. Omnitrophica 1
Lentisphaerae 1
Acidobacterias 1
California. Gracilibacterias 1
Termodesulfobacterias 1
Filo de acogida. Recuento de contig virales.
Euryarchaeota (A) 218
Crenarchaeota (A) 58
California. Micrarchaeota (A) 40
Thaumarchaeota (A) 6
California. Bathyarchaeota (A) 4
Aigarchaeota (A) 4
Nanoarchaeota (A) 2
Termotogas (A) 1
Firmicutes 8123
Proteobacterias 5911
Bacteroidetes 3583
Actinobacterias 1971
Fusobacterias 1801
Espiroquetas 130
Verrucomicrobia 127
Sinergistetes 58
Termotogas 53
Cloroflexi 52
Cianobacterias 47
Clorobi 47
Deinococcus-Thermus 32
Aquificae 26
Fibrobacterias 21
Planctomicetos 15
Clamidias 14
Ignavibacteriae 12
Caldiserica 9
California. Atribacterias 9
Gemmatimonadetes 8
California. Desantisbacterias 7
Armatimonadetes 5
California. Marinimicrobia 5
California. Fervidibacterias 4
California. Cloacimonetes 4
California. Microgenomates 3
Marinimicrobia 3
California. Moranbacteria 3
California. Parcubacterias 3
California. Aminicenantes 2
California. Sacaribacterias 2
Nitrospirae 2
Tenericutes 2
California. Wildermuthbacteria 2
California. Daviesbacteria 2
California. Omnitrophica 1
Lentisphaerae 1
Acidobacterias 1
California. Gracilibacterias 1
Termodesulfobacterias 1

* Alojar phyla sin un virus previamente conectado. Clasificación de phyla microbianos según el sistema IMG / M.

† Phyla candidato del CPR.

Filos de huéspedes de bacterias y arqueas pronosticados con el número correspondiente de UViG. Los filos de Archaeal se indican con (A)

Filo de acogida. Recuento de contig virales.
Euryarchaeota (A) 218
Crenarchaeota (A) 58
California. Micrarchaeota (A) 40
Thaumarchaeota (A) 6
California. Bathyarchaeota (A) 4
Aigarchaeota (A) 4
Nanoarchaeota (A) 2
Termotogas (A) 1
Firmicutes 8123
Proteobacterias 5911
Bacteroidetes 3583
Actinobacterias 1971
Fusobacterias 1801
Espiroquetas 130
Verrucomicrobia 127
Sinergistetes 58
Termotogas 53
Cloroflexi 52
Cianobacterias 47
Clorobi 47
Deinococcus-Thermus 32
Aquificae 26
Fibrobacterias 21
Planctomicetos 15
Clamidias 14
Ignavibacteriae 12
Caldiserica 9
California. Atribacterias 9
Gemmatimonadetes 8
California. Desantisbacterias 7
Armatimonadetes 5
California. Marinimicrobia 5
California. Fervidibacterias 4
California. Cloacimonetes 4
California. Microgenomates 3
Marinimicrobia 3
California. Moranbacteria 3
California. Parcubacterias 3
California. Aminicenantes 2
California. Sacaribacterias 2
Nitrospirae 2
Tenericutes 2
California. Wildermuthbacteria 2
California. Daviesbacteria 2
California. Omnitrophica 1
Lentisphaerae 1
Acidobacterias 1
California. Gracilibacterias 1
Termodesulfobacterias 1
Filo de acogida. Recuento de contig virales.
Euryarchaeota (A) 218
Crenarchaeota (A) 58
California. Micrarchaeota (A) 40
Thaumarchaeota (A) 6
California. Bathyarchaeota (A) 4
Aigarchaeota (A) 4
Nanoarchaeota (A) 2
Termotogas (A) 1
Firmicutes 8123
Proteobacterias 5911
Bacteroidetes 3583
Actinobacterias 1971
Fusobacterias 1801
Espiroquetas 130
Verrucomicrobia 127
Sinergistetes 58
Termotogas 53
Cloroflexi 52
Cianobacterias 47
Clorobi 47
Deinococcus-Thermus 32
Aquificae 26
Fibrobacterias 21
Planctomicetos 15
Clamidias 14
Ignavibacteriae 12
Caldiserica 9
California. Atribacterias 9
Gemmatimonadetes 8
California. Desantisbacterias 7
Armatimonadetes 5
California. Marinimicrobia 5
California. Fervidibacterias 4
California. Cloacimonetes 4
California. Microgenomates 3
Marinimicrobia 3
California. Moranbacteria 3
California. Parcubacterias 3
California. Aminicenantes 2
California. Sacaribacterias 2
Nitrospirae 2
Tenericutes 2
California. Wildermuthbacteria 2
California. Daviesbacteria 2
California. Omnitrophica 1
Lentisphaerae 1
Acidobacterias 1
California. Gracilibacterias 1
Termodesulfobacterias 1

* Alojar phyla sin un virus previamente conectado. Clasificación de phyla microbianos según el sistema IMG / M.

† Phyla candidato del CPR.

Para realizar la asignación de host a nivel de dominio de contigs virales, se desarrolló un nuevo enfoque que emplea familias de proteínas de firma filogenética y la presencia de VPF que están presentes de forma única en virus procariotas o eucariotas. Usando este enfoque, fue posible la asignación de hospedadores a nivel de dominio para el 65% de los genomas virales y fragmentos del genoma. La gran mayoría del contenido de datos de IMG / VR v.2.0 (92%) se clasifica como virus procarióticos y refleja que la línea de detección viral de JGI se dirige principalmente a virus de ADN bicatenario y retrovirus.

Disponibilidad de puntajes de calidad para genomas virales y fragmentos de genoma

El ensamblaje de genomas virales a partir de metagenomas produce inevitablemente una mezcla heterogénea de secuencias que van desde fragmentos de genoma cortos hasta genomas casi completos e incluso completos. Para ayudar a los usuarios a separar los genomas virales completos y casi completos de los fragmentos cortos, aplicamos un método de estimación de la integridad del genoma para clasificar las secuencias virales por la calidad del genoma de acuerdo con los estándares propuestos por la comunidad (Roux et al., en prensa, Biotecnología de la naturaleza). Brevemente, los contigs circulares se consideran supuestos genomas completos, y se eliminan las coincidencias falsas en función de su comparación con el genoma de referencia aislado más cercano. Los contigs lineales se agrupan primero junto con los contigs circulares y aíslan los genomas de referencia en grupos a nivel de género. Si los tamaños de los genomas completos de un grupo a nivel de género son consistentes, el tamaño medio de estos genomas completos se utiliza como "tamaño del genoma previsto" para todos los contigs lineales de este grupo. En total, IMG / VR contiene 11 220 genomas de virus aislados terminados (iVG), con 14 644 contigs UViG circulares adicionales identificados como probables genomas completos. Un total de 15 505 contigs lineales se clasificaron como "genomas de borrador de alta calidad" en función de su completitud estimada de ≥90%, mientras que los 719 084 contigs lineales restantes se clasificaron como "fragmentos de genoma" debido a su baja completitud (norte = 188377) o falta del tamaño del genoma predicho (norte = 522731) (Figura 2). Aunque esta clasificación se basa completamente en en silico predicciones y requeriría in vitro experimentos y / o aislamiento del virus para determinar la integridad del genoma, esta información sigue siendo valiosa para los usuarios que desean centrar su investigación en genomas virales pronosticados completos o casi completos.

Distribución y ejemplo de las diferentes categorías de calidad del genoma viral en IMG / VR v.2.0. (A) Distribución del número de secuencias identificadas como "genoma terminado", "borradores de genomas de alta calidad" o "fragmentos de genoma". (B) Comparación de tres contigs de vOTU_00079, dos "borradores de genomas de alta calidad" y un "fragmento de genoma". La categoría de calidad del genoma se basó en la completitud estimada del genoma (Roux et al., en prensa, Biotecnología de la naturaleza). Los genes se colorean de acuerdo con su anotación funcional. La coordenada inicial del mapa de contig circular se cambió para coincidir con la de los mapas de contig lineal.

Distribución y ejemplo de las diferentes categorías de calidad del genoma viral en IMG / VR v.2.0. (A) Distribución del número de secuencias identificadas como "genoma terminado", "borradores de genomas de alta calidad" o "fragmentos de genoma". (B) Comparación de tres contigs de vOTU_00079, dos "borradores de genomas de alta calidad" y un "fragmento de genoma". La categoría de calidad del genoma se basó en la completitud estimada del genoma (Roux et al., en prensa, Biotecnología de la naturaleza). Los genes se colorean de acuerdo con su anotación funcional. La coordenada inicial del mapa de contig circular se cambió para coincidir con la de los mapas de contig lineal.

Funciones de exploración y análisis de datos

La interfaz de usuario de IMG / VR v.2.0 sigue los mismos principios organizativos que la versión original (10). La página de inicio de IMG / VR proporciona enlaces rápidos a las diferentes categorías de datos ("Conjuntos de datos virales’, ‘vOTUs", Genomas virales"Con el anfitrión"Predicción y genomas virales"Calidad"Según la integridad de su genoma) en la parte superior izquierda, así como"Explosión viral / espaciadora'(Abajo a la izquierda) y enlaces para la descarga masiva del contenido de datos de IMG / VR v.2.0 (Figura complementaria S1). Los usuarios también pueden seleccionar virus según una ubicación geográfica específica (o sitios del cuerpo humano) o según el tipo de hábitat de muestra (parte superior e inferior derecha, respectivamente) (Figura complementaria S1).

Además, IMG / VR v.2.0 ahora ofrece "Carro de andamios", "Carro de genes" y "Carrito de funciones" características análogas a las del sistema IMG / M que amplían la recopilación y el almacenamiento temporal de hasta 20 000 entradas durante la sesión. Estas Carros incluyen varias herramientas que se pueden utilizar para la genómica comparativa de UViG, como "Perfil de función de andamio’, ‘Función genética’, ‘Mapa de cromosomas genéticos’, ‘Alineación de la secuencia de genes' y 'Barrios genéticos’, Que permiten a los usuarios visualizar el contenido sintético y funcional de las secuencias virales, así como exportar los datos de interés correspondientes (Figura 3).

Ejemplo de funciones de análisis en IMG / VR v.2.0. (1) Las UViG se seleccionaron de una "Conjuntos de datos virales"Muestra y se añade a la"Carro de andamio". (2) De la ‘Buscar funcionesLas familias de proteínas de pestaña (pfams) fueron filtradas por el texto "terminase" obteniendo pfams asociados con esta función viral predicha. (3) Ubicado en el "Carro de andamio', los 'Perfil de función de andamio'Permite al usuario ver la distribución de las funciones seleccionadas (pfams en este ejemplo) contra la lista seleccionada de UViG. (4) Además, todos los genes de las UViG seleccionadas se pueden agregar al "Carro de genes' haciendo click 'Agregar genes de andamios seleccionados al carrito’. (5) ‘Carro de genesLa funcionalidad permite a los usuarios realizar (6) alineaciones de genes o proteínas de secuencias seleccionadas y visualización como un filograma o (7) para mostrar la vecindad de genes de los genes seleccionados (subrayados en rojo). La ubicación de las herramientas o los pasos necesarios para recrear este ejemplo se indican en un cuadro rojo.

Ejemplo de funciones de análisis en IMG / VR v.2.0. (1) Las UViG se seleccionaron de una "Conjuntos de datos virales"Muestra y se añade a la"Carro de andamio". (2) De la ‘Buscar funcionesLas familias de proteínas de pestaña (pfams) fueron filtradas por el texto "terminase" obteniendo pfams asociados con esta función viral predicha. (3) Ubicado en el "Carro de andamio', los 'Perfil de función de andamio'Permite al usuario ver la distribución de las funciones seleccionadas (pfams en este ejemplo) contra la lista seleccionada de UViG. (4) Además, todos los genes de las UViG seleccionadas se pueden agregar al "Carro de genes' haciendo click 'Agregar genes de andamios seleccionados al carrito’. (5) ‘Carro de genesLa funcionalidad permite a los usuarios realizar (6) alineaciones de genes o proteínas de secuencias seleccionadas y visualización como un filograma o (7) para mostrar la vecindad de genes de los genes seleccionados (subrayados en rojo). La ubicación de las herramientas o los pasos necesarios para recrear este ejemplo se indican en un cuadro rojo.

Perfil de función de andamio

Esta pestaña en "Carro de andamio"Permite a los usuarios consultar una lista seleccionada de"Funciones " incluidos los que se pueden encontrar en la sección "Buscar funciones"Menú añadido en el"Carro de funciones"Contra las UViG de interés añadidas al"Carro de andamio". Por ejemplo, un usuario puede buscar todas las familias de proteínas asociadas con la función de "terminasa" para explorar su presencia y abundancia en las UViG seleccionadas. Luego, los genes que codifican la función seleccionada de los UViG se pueden ver haciendo clic en sus recuentos.

Función genética

Genes de UViG seleccionados (p. Ej., Los de "Carro de andamio") Se puede agregar a la"Carro de genes"(Mediante el uso de"Agregar genes de andamios seleccionados al carrito"Botón), y su asociación con las funciones predichas se puede revisar utilizando el "Funciones" botón.

Mapa de cromosomas genéticos

Desde el 'Carro de genes", Los usuarios también pueden visualizar la ubicación genómica de los genes seleccionados mediante el uso de"Mapa de cromosomas' opción.

Alineación de secuencias de genes

Alineaciones de secuencias de proteínas o ADN (utilizando Clustal Omega (22)) de genes seleccionados de la "Carro de genes"Se puede realizar y visualizar rápidamente como filogramas rectangulares haciendo clic en el botón"Alineación de secuencia' botón.

Barrios genéticos

Vecindad cromosómica (UViG) de genes seleccionados de la "Carro de genes'Se puede visualizar (usando la direccionalidad seleccionada de las hebras) haciendo clic en esta pestaña.

Toda la información de "Andamios", "Genes", y "Funciones" Se puede acceder a las tablas de forma independiente haciendo clic en sus enlaces correspondientes o se pueden exportar en un formato de texto delimitado por tabulaciones utilizando el 'Exportar' botón. Los árboles filogenéticos se pueden exportar en un formato de archivo Newick y las imágenes como archivos SVG o PNG.

Un nuevo sistema IMG / VR-ER (revisión de expertos) (https://img.jgi.doe.gov/vr-er/), que requerirá un acceso de inicio de sesión / contraseña, permitirá a los usuarios realizar tareas computacionalmente intensivas basadas en espacios de trabajo. análisis, análogos al sistema IMG / M-ER (11).

Mapas de Google para la ubicación geográfica de las UViG

Las UViG de interés ahora se pueden seleccionar en el "Carro de andamio"Y se visualiza en un mapa de Google. En la página de inicio de IMG / VR, un usuario puede acceder a esta nueva funcionalidad seleccionando "Carro de andamio" desde el 'Ecosistema"Cuadro desplegable sobre el mapa. Los 'Carro de andamioEl elemento de menú 'solo aparece en el menú desplegable si hay UViG seleccionados en el carrito (Figura 4).

Visualización de la ubicación geográfica de genomas virales seleccionados. Se puede acceder de forma diferente a los genomas virales no cultivados y a los fragmentos de genoma (UViG). (1) Aquí, UViG del grupo viral "Vc_2912" fueron seleccionados de la "Clústeres virales"En la página de inicio de IMG / VR y se agregó al"Carro de andamio". (2) Se recuperaron 14 UViG y se mostró una tabla de características (no se muestra en la figura). (3) Para obtener un mapa de Google con la ubicación de las UViG seleccionadas, los usuarios deben volver a la página de inicio y seleccionar "Carro de andamio' desde el 'Ecosistema"Cuadro desplegable sobre el mapa. Los marcadores de mapa (en rojo) representan recuentos de ubicaciones de contigs virales y pueden contener múltiples muestras. Los pines del mapa se agrupan en grupos (número en negrita en un cuadrado de color basado en el número de miembros dentro del grupo) de acuerdo con la biblioteca de la utilidad API de JavaScript de Google Map. (4) A medida que hace zoom en cualquiera de las ubicaciones de los grupos, el número en el grupo disminuye y comienza a ver los marcadores individuales en el mapa desde los cuales se pueden seleccionar UViG específicas. Al alejar el mapa, los marcadores se consolidan nuevamente en grupos.

Visualización de la ubicación geográfica de genomas virales seleccionados. Se puede acceder de forma diferente a los genomas virales no cultivados y a los fragmentos de genoma (UViG). (1) Aquí, UViG del grupo viral "Vc_2912" fueron seleccionados de la "Clústeres virales"En la página de inicio de IMG / VR y se agregó al"Carro de andamio". (2) Se recuperaron 14 UViG y se mostró una tabla de características (no se muestra en la figura). (3) Para obtener un mapa de Google con la ubicación de las UViG seleccionadas, los usuarios deben volver a la página de inicio y seleccionar "Carro de andamio' desde el 'Ecosistema"Cuadro desplegable sobre el mapa. Los pines del mapa (en rojo) representan recuentos de ubicaciones de contigs virales y pueden contener múltiples muestras. Los pines del mapa se agrupan en grupos (número en negrita en un cuadrado de color basado en el número de miembros dentro del grupo) de acuerdo con la biblioteca de la utilidad API de JavaScript de Google Map. (4) A medida que hace zoom en cualquiera de las ubicaciones de los grupos, el número en el grupo disminuye y comienza a ver los marcadores individuales en el mapa desde los cuales se pueden seleccionar UViG específicas. Al alejar el mapa, los marcadores se consolidan nuevamente en grupos.

Funciones de búsqueda de similitud de secuencia mejoradas

Opciones de búsqueda de similitud de secuencia (parte inferior izquierda de la página de inicio debajo de "Explosión viral / espaciadora') Se han ampliado en IMG / VR v.2.0 (Figura 5) para permitir consultas BLAST (23) de secuencias enviadas por el usuario contra las bases de datos de nucleótidos o aminoácidos virales con valores de corte de valor electrónico personalizables. De manera similar, las secuencias de nucleótidos enviadas por el usuario se pueden consultar usando BLASTn contra una base de datos de secuencias espaciadoras CRISPR predichas derivadas de metagenomas ensamblados o genomas aislados para encontrar coincidencias con los huéspedes o hábitats potenciales.

Búsquedas en bases de datos IMG / VR v.2.0. (A) Ubicación de la herramienta de explosión en IMG / VR v.2.0 (cuadro rojo discontinuo). (B) Interfaz de usuario para secuencias de voladuras. Los usuarios pueden seleccionar entre búsquedas de nucleótidos o proteínas seleccionando el programa blastn o blastp cuando realizan consultas externas "Secuencias virales". Para búsquedas de nucleótidos, los usuarios pueden utilizar adicionalmente el espaciador que se muestra "Bases de datos Blast’.

Búsquedas en bases de datos IMG / VR v.2.0. (A) Ubicación de la herramienta de explosión en IMG / VR v.2.0 (cuadro rojo discontinuo). (B) Interfaz de usuario para secuencias de voladuras. Los usuarios pueden seleccionar entre búsquedas de nucleótidos o proteínas seleccionando el programa blastn o blastp cuando realizan consultas externas "Secuencias virales". Para búsquedas de nucleótidos, los usuarios pueden utilizar adicionalmente el espaciador que se muestra "Bases de datos Blast’.

Descarga masiva de contenidos de datos IMG / VR v.2.0

Además de la interfaz web que permite a los usuarios consultar y analizar genomas virales y fragmentos de genoma, IMG / VR v.2.0 ahora ofrece opciones de descarga masiva para todas las secuencias virales, familias de proteínas virales (VPF) y metadatos asociados. Esto permite a los usuarios realizar análisis adicionales y cálculos a gran escala utilizando sus propias herramientas y recursos computacionales. Los datos de la secuencia viral se pueden descargar a través del portal del genoma del Joint Genome Institute (https://genome.jgi.doe.gov/portal/IMG_VR/IMG_VR.home.html) en la sección "Descargar"Pestaña, o desde la"Descargar la base de datos IMG / VR‘En la esquina inferior izquierda de la página de inicio de IMG / VR (https://img.jgi.doe.gov/vr/) (Figura complementaria S2). Los archivos disponibles para descargar incluyen las secuencias de nucleótidos y aminoácidos (en formato FASTA), así como una tabla de metadatos extensos que incluyen la asociación de secuencias con vOTU, la calidad y completitud del genoma, la especificidad del hospedador predicha, así como información sobre el hábitat. Las versiones anteriores de IMG / VR también están disponibles para descargar en las mismas páginas.


Pon a prueba tu comprensión

  1. ¿Los virus son vivos o no vivos? Explica tu respuesta.
  2. En relación con la salud humana, ¿cuál es un uso positivo de los virus por parte de los científicos?
  3. Pensamiento crítico: ¿Las interacciones entre el virus del SIDA y las células que infecta son líticas o transformadoras? Explica tu razonamiento.
  4. Pensamiento crítico: compare un enfoque defensivo y otro ofensivo para combatir un virus a nivel celular.

Literatura primaria relacionada

  • T. Asselah, P. Marcellin y R. F. Schinazi, Tratamiento de la infección por el virus de la hepatitis C con agentes antivirales de acción directa: ¿cura al 100%? Int. De hígado, 38 (S1): 7–13, 2018 DOI: https://doi.org/10.1111/liv.13673
  • K. M. Stedman, recombinación viral: ecología, evolución y patogénesis, Virus, 10 (7): 358, 2018 DOI: https://doi.org/10.3390/v10070358
  • A. J. W. te Velthuis y E. Fodor, Influenza virus RNA polimerasa: Información sobre los mecanismos de síntesis de RNA viral, Nat. Rev. Microbiol., 14 (8): 479–493, 2016 DOI: https://doi.org/10.1038/nrmicro.2016.87
  • K. Voskarides, E. Christaki y G. K. Nikolopoulos, Virus de la influenza: coevolución del huésped: ¿una relación depredador-presa? Parte delantera. Immunol., 9: 2017, 2018 DOI: https://doi.org/10.3389/fimmu.2018.02017

Lectura adicional

  • P. Lostroh, Biología molecular y celular de los virus, Prensa CRC, 2019
  • T. Shors, Entendiendo los virus, 3d ed., Jones y Bartlett Learning, 2017
  • MedlinePlus: Infecciones virales
  • Instituto Suizo de Bioinformática: ViralZone
  • Escuela de Medicina de la Universidad de Washington: Virus: de la estructura a la biología

Para obtener más información sobre cómo suscribirse a AccessScience, o para solicitar una prueba sin riesgo de esta referencia científica galardonada para su institución, complete su información y un miembro de nuestro equipo de ventas se comunicará con usted lo antes posible.

Informe a su bibliotecario acerca de la galardonada puerta de entrada a la información científica más confiable y precisa.


Contenido

El término "pangenoma" fue definido con su significado actual por Tettelin et al. en 2005 [2] deriva 'pan' de la palabra griega παν, que significa 'todo' o 'todo', mientras que el genoma es un término de uso común para describir el material genético completo de un organismo. Tettelin y col. aplicó el término específicamente a las bacterias, cuyo pangenoma "incluye un genoma central que contiene genes presentes en todas las cepas y un genoma prescindible compuesto por genes ausentes de una o más cepas y genes que son únicos para cada cepa". [2]

Core Editar

Es la parte del pangenoma que comparten todos los genomas del conjunto probado. Algunos autores han dividido el pangenoma central en núcleo duro, aquellas familias de genes homólogos que tienen al menos una copia de la familia compartida por cada genoma (100% de los genomas) y el núcleo blando o núcleo extendido, [15] aquellas familias distribuidas arriba un cierto umbral (90%). En un estudio que involucra los pangenomas de Bacillus cereus y Staphylococcus aureus, algunos de ellos aislados de la estación espacial internacional, los umbrales utilizados para segmentar los pangenomas fueron los siguientes: "Cloud", "Shell" y "Core" correspondientes a familias de genes con presencia en & lt10%, 10 a 95% y & gt95 % de los genomas, respectivamente. [dieciséis]

El tamaño del genoma central y la proporción del pangenoma depende de varios factores, pero depende especialmente de la similitud filogenética de los genomas considerados. Por ejemplo, el núcleo de dos genomas idénticos también sería el pangenoma completo. El núcleo de un género siempre será más pequeño que el núcleo del genoma de una especie. Los genes que pertenecen al genoma central a menudo están relacionados con las funciones de mantenimiento y el metabolismo primario del linaje, sin embargo, el gen central también puede contener algunos genes que diferencian a la especie de otras especies del género, es decir, que pueden estar relacionados con la patogenicidad del nicho. adaptación. [17]

Shell Editar

Es la parte del pangenoma compartida por la mayoría de los genomas de un pangenoma. [18] No existe un umbral universalmente aceptado para definir el genoma de la cáscara, algunos autores consideran una familia de genes como parte del pangenoma de la cáscara si es compartida por más del 50% de los genomas en el pangenoma. [19] Una familia puede ser parte del caparazón por varias dinámicas evolutivas, por ejemplo, por pérdida de genes en un linaje donde anteriormente era parte del genoma central, tal es el caso de las enzimas en el operón triptófano en Actinomyces, [20] o por la ganancia de genes y la fijación de una familia de genes que anteriormente formaba parte del genoma prescindible, como es el caso de trpF gen en varios Corynebacterium especies. [21]

Edición prescindible

El genoma prescindible son aquellas familias de genes compartidas por un subconjunto mínimo de genomas en el pangenoma, [22] incluye genes únicos o genes presentes en solo uno de los genomas. También se le conoce como la nube o el genoma periférico. Las familias de genes de esta categoría suelen estar relacionadas con la adaptación ecológica.

El pangenoma se puede clasificar como abierto o cerrado según el valor alfa de la ley del montón: N = k n - α < displaystyle N = kn ^ <- alpha >> [23] [15]

Por lo general, el software pangenome puede calcular los parámetros de la ley Heap que mejor describen el comportamiento de los datos.

Abrir pangenome Editar

Un pangenoma abierto ocurre cuando en un linaje taxonómico sigue aumentando el número de nuevas familias de genes y este incremento no parece ser asintótico independientemente de cuántos nuevos genomas se agreguen al pangenoma. Escherichia coli es un ejemplo de una especie con un pangenoma abierto. Alguna E. coli El tamaño del genoma está en el rango de 4000-5000 genes y el tamaño del pangenoma estimado para esta especie con aproximadamente 2000 genomas está compuesto por 89,000 familias de genes diferentes. [24] El pangenoma del dominio de las bacterias también se considera abierto.

Pangenome cerrado Editar

Un pangenoma cerrado ocurre en un linaje cuando solo se agregan pocas familias de genes cuando se incorporan nuevos genomas en el análisis del pangenoma, y ​​la cantidad total de familias de genes en el pangenoma parece ser asintótica a un número. Se cree que el parasitismo y las especies que son especialistas en algún nicho ecológico tienden a tener pangenomas cerrados. Staphylococcus lugdunensis es un ejemplo de bacteria comensal con pangenoma cerrado. [25]

Pangenome Editar

El concepto de pangenoma original fue desarrollado por Tettelin et al. [2] cuando analizaron los genomas de ocho aislamientos de Streptococcus agalactiae, donde describieron un genoma central compartido por todos los aislados, que representa aproximadamente el 80% de cualquier genoma individual, más un genoma prescindible que consta de genes específicos de cepa y parcialmente compartidos. La extrapolación sugirió que el reservorio genético en el S. agalactiae El pangenoma es vasto y se seguirían identificando nuevos genes únicos incluso después de secuenciar cientos de genomas. [2] El pangenoma comprende la totalidad de los genes descubiertos en los genomas secuenciados de una determinada especie microbiana y puede cambiar cuando se secuencian e incorporan nuevos genomas al análisis.

El pangenoma de un linaje genómico explica la variabilidad del contenido de genes dentro del linaje. El pangenoma evoluciona debido a: la duplicación de genes, la dinámica de ganancia y pérdida de genes y la interacción del genoma con elementos móviles que son moldeados por selección y deriva. [26] Algunos estudios señalan que los pangenomas de procariotas son el resultado de una evolución adaptativa, no neutral, que confiere a las especies la capacidad de migrar a nuevos nichos. [27]

Supergenoma Editar

Se puede pensar en el supergenoma como el tamaño real del pangenoma si se secuenciaran todos los genomas de una especie. [28] Se define como todos los genes accesibles para ser adquiridos por una determinada especie. No se puede calcular directamente, pero su tamaño se puede estimar mediante el tamaño del pangenoma calculado a partir de los datos del genoma disponibles. La estimación del tamaño del genoma prescindible puede resultar preocupante debido a su dependencia de la aparición de genes y genomas raros. En 2011 se propuso la fluidez genómica como una medida para categorizar la similitud a nivel genético entre grupos de aislados secuenciados. [29] En algunos linajes aparecieron los supergenomas infinito, [30] como es el caso del dominio Bacteria. [31]

Metapangenome editar

El 'metapangenoma' se ha definido como el resultado del análisis de pangenomas junto con el entorno donde se recuperan la abundancia y la prevalencia de grupos de genes y genomas a través de metagenomas de escopeta. [32] La combinación de metagenomas con pangenomas, también denominada "metapangenómica", revela los resultados a nivel de población del filtrado específico del hábitat del acervo génico pangenómico. [33]


Otros autores consideran que la metapangenómica amplía el concepto de pangenoma incorporando secuencias de genes obtenidas de microorganismos no cultivados mediante un enfoque metagenómico. Un metapangenoma comprende tanto secuencias de genomas ensamblados en metagenomas (MAG) como de genomas obtenidos de microorganismos cultivados. [34] La metapangenómica se ha aplicado para evaluar la diversidad de una comunidad, la adaptación del nicho microbiano, la evolución microbiana, las actividades funcionales y las redes de interacción de la comunidad. [35] La plataforma Anvi'o desarrolló un flujo de trabajo que integra el análisis y la visualización de metapangenomas mediante la generación de pangenomas y su estudio junto con los metagenomas. [32]

Pangenoma procariota Editar

En 2018, el 87% de las secuencias del genoma completo disponibles eran bacterias que alimentaban el interés de los investigadores en el cálculo de pangenomas de procariotas en diferentes niveles taxonómicos. [22] En 2015, el pangenoma de 44 cepas de steotococos neumonia La bacteria muestra pocos genes nuevos descubiertos con cada nuevo genoma secuenciado (ver figura). De hecho, el número previsto de nuevos genes se redujo a cero cuando el número de genomas supera los 50 (tenga en cuenta, sin embargo, que este no es un patrón que se encuentra en todas las especies). Esto significaría que S. pneumoniae tiene un 'pangenoma cerrado'. [37] La ​​principal fuente de nuevos genes en S. pneumoniae era Streptococcus mitis a partir del cual los genes se transfirieron horizontalmente. El tamaño del pangenoma de S. pneumoniae aumentó logarítmicamente con el número de cepas y linealmente con el número de sitios polimórficos de los genomas muestreados, lo que sugiere que los genes adquiridos se acumulan proporcionalmente a la edad de los clones. [36] Otro ejemplo de pangenoma procariota es Proclorococo, el conjunto del genoma central es mucho más pequeño que el pangenoma, que es utilizado por diferentes ecotipos de Proclorococo. [38] Se ha observado pangenoma abierto en aislamientos ambientales como Alcaligenes sp. [39] y Serratia sp., [40] mostrando un estilo de vida simpático. Sin embargo, el pangenoma abierto no es exclusivo de los microorganismos de vida libre, según un estudio de 2015 sobre Prevotella bacterias aisladas de humanos, compararon los repertorios de genes de su especie derivados de diferentes sitios del cuerpo humano. También informó un pangenoma abierto que muestra una gran diversidad de acervo genético. [41]

Las arqueas también tienen algunos estudios de pangenoma. El pangenoma de halobacterias muestra las siguientes familias de genes en los subconjuntos de pangenoma: núcleo (300), componentes variables (Softcore: 998, Cloud: 36531, Shell: 11784). [42]

Pangenoma eucariota Editar

Los organismos eucariotas como hongos, animales y plantas también han mostrado evidencia de pangenomas. En cuatro especies de hongos cuyo pangenoma se ha estudiado, entre el 80 y el 90% de los modelos genéticos se encontraron como genes centrales. Los genes accesorios restantes participaron principalmente en la patogenia y la resistencia a los antimicrobianos. [43]

En animales, se está estudiando el pangenoma humano. En 2010, un estudio estimó que un pangenoma humano completo contendría entre 19 y 40 megabases de secuencia novedosa que no está presente en el genoma de referencia existente. [44] En 2021, el consorcio del pangenoma humano tiene como objetivo reconocer la diversidad del genoma humano.

Entre las plantas, hay ejemplos de estudios de pangenoma en especies modelo, tanto diploides [9] como poliploides, [10] y una lista creciente de cultivos. [45] [46] Un concepto emergente basado en plantas es el de pan-NLRome, que es el repertorio de proteínas de repetición rica en leucina (NLR) que se unen a nucleótidos, receptores inmunes intracelulares que reconocen proteínas patógenas y confieren resistencia a enfermedades. [47]

Pangenoma de virus Editar

El virus no necesariamente tiene genes ampliamente compartidos por clados, como es el caso de 16S en bacterias, y por lo tanto, el genoma central del dominio del virus completo está vacío. Sin embargo, varios estudios han calculado el pangenoma de algunos linajes virales. El genoma central de seis especies de pandoravirus comprende 352 familias de genes solo el 4,7% del pangenoma, lo que resulta en un pangenoma abierto. [48]

El número de genomas secuenciados crece continuamente "simplemente ampliar las líneas de bioinformática establecidas no será suficiente para aprovechar todo el potencial de estos ricos conjuntos de datos genómicos". [49] Los gráficos de pangenomas son estructuras de datos emergentes diseñadas para representar los pangenomas y para asignarles lecturas de manera eficiente. Han sido revisados ​​por Eizenga et al [50].

A medida que aumentaba el interés en los pangenomas, se han desarrollado varias herramientas de software para ayudar a analizar este tipo de datos. Para iniciar un análisis pangenómico, el primer paso es la homogeneización de la anotación del genoma. [23] Se debe utilizar el mismo software para anotar todos los genomas utilizados, como GeneMark [51] o RAST. [52] En 2015, un grupo revisó los diferentes tipos de análisis y herramientas que un investigador puede tener disponibles. [53] Hay siete tipos de software desarrollados para analizar pangenomas: Aquellos dedicados a genes homólogos de racimo identifican SNPs trazan perfiles pangenómicos construyen relaciones filogenéticas de genes ortólogos / familias de cepas / aislamientos basados ​​en funciones, anotaciones de búsqueda y / o curación y visualización. [53]

Las dos herramientas de software más citadas para el análisis pangenómico a finales de 2014 [53] fueron Panseq [54] y el proceso de análisis de pangenomas (PGAP). [55] Otras opciones incluyen BPGA - Un canal de análisis pangenómico para genomas procarióticos, [56] GET_HOMOLOGUES, [57] Roary. [58] y PanDelos. [59] En 2015 se publicó una revisión centrada en los pangenomas de procariotas [60] y otra para los pangenomas de plantas. [61] Entre los primeros paquetes de software diseñados para pangenomas de plantas se encuentran PanTools. [62] y GET_HOMOLOGUES-EST. [11] [57] En 2018 se lanzó panX, una herramienta web interactiva que permite la inspección de la historia evolutiva de las familias de genes. [63] panX puede mostrar una alineación de genomas, un árbol filogenético, mapeo de mutaciones e inferencia sobre la ganancia y pérdida de la familia en la filogenia del genoma central. En 2019, OrthoVenn 2.0 [64] permitió la visualización comparativa de familias de genes homólogos en diagramas de Venn de hasta 12 genomas. En 2020, Anvi'o [1] estaba disponible como una plataforma multiómica que contiene análisis pangenómicos y metapangenómicos, así como flujos de trabajo de visualización. En Anvi'o, los genomas se muestran en círculos concéntricos y cada radio representa una familia de genes, lo que permite comparar más de 100 genomas en su visualización interactiva.

En 2020, se lanzó una comparación computacional de herramientas para extraer contenido pangenómico basado en genes (como GET_HOMOLOGUES, PanDelos, Roary y otros). [65] Las herramientas se compararon desde una perspectiva metodológica, analizando las causas que llevan a una metodología dada a superar a otras herramientas. El análisis se realizó teniendo en cuenta diferentes poblaciones bacterianas, que se generan sintéticamente al cambiar los parámetros evolutivos. Los resultados muestran una diferenciación del rendimiento de cada herramienta que depende de la composición de los genomas de entrada.


¿Existe alguna referencia para la composición de los genomas virales? - biología

Borodovsky M. y Ekisheva S.
Problemas y soluciones en el análisis de secuencias biológicas
Prensa de la Universidad de Cambridge, 2006
Editorial | DOI | Amazonas | Revisión | Revisión 2 | Traducción rusa

StartLink +
Karl Gemayel, Alexandre Lomsadze y Mark Borodovsky
"StartLink +: predicción de inicios genéticos en genomas procarióticos mediante un algoritmo que integra fuentes independientes de evidencia"
bioRxiv

FRENO2
Tomáš Brůna, Katharina J. Hoff, Alexandre Lomsadze, Mario Stanke, Mark Borodovsky
"BRAKER2: Anotación automática del genoma eucariota con GeneMark-EP + y AUGUSTUS respaldada por una base de datos de proteínas"
Artículo | bioRxiv

GeneMark-EP +
Tomáš Brůna, Alexandre Lomsadze, Mark Borodovsky
"GeneMark-EP +: predicción de genes eucariotas con autoentrenamiento en el espacio de genes y proteínas"
NAR Genómica y Bioinformática, Volumen 2, Número 2, 2020
PubMed | Artículo | bioRxiv

GeneMarkS-2
Alexandre Lomsadze, Karl Gemayel, Shiyuyun Tang y Mark Borodovsky
"Modelar la transcripción sin líder y genes atípicos da como resultado una predicción genética más precisa en procariotas"
Genome Res. 28 de julio de 2018 (7): 1079-1089
PubMed | Artículo | bioRxiv

PGAP
Tatiana Tatusova, Michael DiCuccio, Azat Badretdin, Vyacheslav Chetvernin, Eric P. Nawrocki, Leonid Zaslavsky, Alexandre Lomsadze, Kim D. Pruitt, Mark Borodovsky y James Ostell
"Canal de anotación del genoma procariótico del NCBI"
Investigación de ácidos nucleicos, 2016, 24 de junio, doi: 10.1093 / nar / gkw569
PubMed | Artículo

FRENO1
Katharina J. Hoff, Simone Lange, Alexandre Lomsadze, Mark Borodovsky y Mario Stanke
"BRAKER1: anotación del genoma basada en secuencia de ARN no supervisada con GeneMark-ET y AUGUSTUS"
Bioinformática, 2016 Mar 132 (5): 767-9. doi: 10.1093 / bioinformatics / btv661. Epub 2015 11 de noviembre
PubMed | Artículo

GeneMarkS-T
Tang S., Lomsadze A y Borodovsky M.
"Identificación de regiones codificantes de proteínas en transcripciones de ARN"
Investigación de ácidos nucleicos, 2015, 13 de abril, doi: 10.1093 / nar / gkv227
PubMed | Artículo

GeneMark-ET
Lomsadze A., Burns P.D. y Borodovsky M.
"Integración de lecturas de RNA-Seq mapeadas en el entrenamiento automático del algoritmo de búsqueda de genes eucariotas".
Investigación de ácidos nucleicos, 2014, 2 de julio, doi: 10.1093 / nar / gku557
PubMed | Artículo

MetaGeneMark
Zhu W., Lomsadze A. y Borodovsky M.
"Ab initio identificación de genes en secuencias metagenómicas ".
Investigación de ácidos nucleicos, 2010, Vol.38, No.12, e132, doi: 10.1093 / nar / gkq275
PubMed | Artículo | Materiales suplementarios

GeneMark-ES, versión 2
Ter-Hovhannisyan V., Lomsadze A., Chernoff Y. y Borodovsky M.
"Predicción de genes en genomas fúngicos novedosos utilizando un algoritmo ab initio con entrenamiento no supervisado".
Investigación del genoma, 2008, 18 (12) de diciembre: 1979-90
PubMed | Artículo | Materiales suplementarios

GeneMark-ES, versión 1
Lomsadze A., Ter-Hovhannisyan V., Chernoff Y. y Borodovsky M.
"Identificación de genes en genomas eucariotas novedosos mediante algoritmo de autoaprendizaje".
Investigación de ácidos nucleicos2005, vol. 33, núm. 20, 6494-6506
PubMed | Artículo

Servidor web GeneMark
Besemer J. y Borodovsky M.
"GeneMark: software web para la búsqueda de genes en procariotas, eucariotas y virus".
Investigación de ácidos nucleicos2005, vol. 33, Problema del servidor web, págs. W451-454
PubMed | Artículo

VIOLÍN
Mills R., Rozanov M., Lomsadze A., Tatusova T. y Borodovsky M.
"Mejora de la anotación genética en genomas virales completos".
Investigación de ácidos nucleicos, 2003, vol. 31, núm. 23, 7041-7055
PubMed | Artículo

GeneMarkS
Besemer J., Lomsadze A. y Borodovsky M.
"GeneMarkS: un método de autoaprendizaje para la predicción de inicios de genes en genomas microbianos. Implicaciones para encontrar motivos de secuencia en regiones reguladoras".
Investigación de ácidos nucleicos, 2001, vol. 29, núm. 12, 2607-2618
PubMed | Artículo

Modelos heurísticos
Besemer J. y Borodovsky M.
"Enfoque heurístico para derivar modelos para la búsqueda de genes".
Investigación de ácidos nucleicos, 1999, vol. 27, núm. 19, págs.3911-3920
PubMed | Artículo

Cuadro por cuadro
Shmatkov A.M., Melikyan A.A., Chernousko F.L. y Borodovsky M.
"Encontrar genes procarióticos mediante el algoritmo 'fotograma por fotograma': inicio de genes de orientación y genes superpuestos".
Bioinformática, 1999, vol. 15, núm. 11, págs.874-886
PubMed | Artículo

GeneMark-Genesis
Hayes W. y Borodovsky M.
"Cómo interpretar un genoma bacteriano anónimo: enfoque de aprendizaje automático para la identificación de genes".
Investigación del genoma1998, vol. 8, núm. 11, págs. 1154-1171
PubMed | Artículo

GeneMark.hmm
Lukashin A. y Borodovsky M.
"GeneMark.hmm: nuevas soluciones para la búsqueda de genes".
Investigación de ácidos nucleicos1998, vol. 26, núm. 4, págs. 1107-1115
PubMed | Artículo

GeneMark
Borodovsky M. y McIninch J.
"GeneMark: reconocimiento de genes paralelos para ambas cadenas de ADN".
Computadoras y química de amplificadores1993, vol. 17, núm. 19, págs. 123-133
Resumen | Artículo

Borodovsky M.Yu., McIninch J.
"Reconocimiento de genes en secuencia de ADN con ambigüedades"
Biosistemas. , 1993 Vol 30 (1-3), págs. 161-71
PubMed | Artículo

Modelos de cadena de Markov de tres períodos
Borodovsky M.Yu., Sprizhitskii Y.A., Golovanov E.I. y Aleksandrov A.A.
"Patrones estadísticos en estructuras primarias de las regiones funcionales del genoma en Escherichia Coli".
Biología molecular1986, vol. 20, págs.826-833, 833-840, 1144-1150
Artículo

Antonov I, Coakley A, Atkins JF, Baranov PV, Borodovsky M.
"Identificación de la naturaleza de las transiciones del marco de lectura observadas en genomas procarióticos".
Investigación de ácidos nucleicos, 2013, 41(13):6514-30
PubMed | Artículo

Quemaduras PD, Li Y, Ma J, Borodovsky M.
"UnSplicer: mapeo de lecturas de RNA-seq empalmadas en genomas compactos y filtrado de empalmes ruidosos".
Investigación de ácidos nucleicos, 2013 nov 19
PubMed | Artículo | Materiales suplementarios

Antonov I., Baranov P. y Borodovsky M.
"Base de datos GeneTack: genes con cambios de marco en genomas procariotas y secuencias de ARNm eucariotas"
Investigación de ácidos nucleicos, Vol. 41, nº D1 (2013): D152-D156.
PubMed | Artículo

Tang S., Antonov I. y Borodovsky M.
"MetaGeneTack: ab initio detección de cambios de marco en secuencias metagenómicas ".
Bioinformática, Vol. 29, núm. 1 (2013): 114-116.
PubMed | Artículo

Martin J., Zhu W., Passalacqua K., Bergman N. y Borodovsky M.
"Bacillus Anthracis organización del genoma a la luz de la secuenciación completa del transcriptoma ".
Bioinformática BMC, 2010, 11 (Supl. 3): S10 doi: 10.1186 / 1471-2105-11-S3-S10
PubMed | Artículo | Materiales suplementarios

Antonov I. y Borodovsky M.
"GeneTack: Identificación de desplazamiento de marco en secuencias de codificación de proteínas mediante el algoritmo de Viterbi".
J Bioinformática y biología computacional, Vol. 8, núm. 3 (2010): 1-17.
Medline | Artículo

Azad R.K. y Borodovsky M.Y.
"Métodos probabilísticos de identificación de genes en genomas procarióticos: conexiones con la teoría HMM".
Sesiones informativas en bioinformática2004, vol. 5, núm. 2, págs.118-130
PubMed | Artículo

Azad R.K. y Borodovsky M.
"Efectos de la elección de la estructura del modelo de secuencia de ADN sobre la precisión de la identificación de genes".
Bioinformática2004, vol. 20, núm. 7, págs. 993-1005
PubMed | Artículo

Lea BA, Kegel J, Klute MJ, Kuo A, Lefebvre SC, et al.
"Pan genoma del fitoplancton Emiliania apuntala su distribución global".
Naturaleza. 2013, 499(7457):209-13
PubMed | Artículo

Junhuan Xu et al.
Descubrimiento de genes en secuencias EST del hongo de la roya de la hoja del trigo Puccinia triticina esporas sexuales, esporas asexuales y haustoria, en comparación con otros hongos de roya y carbón de maíz.
BMC Genomics, 2011 24 de marzo 10.1186 / 1471-2164-12-161
Artículo

Blanc G, Duncan G, Agarkova I, Borodovsky M, Gurnon J, Kuo A, et al.
"El genoma de Chlorella variabilis NC64A revela adaptación a la fotosimbiosis, coevolución con virus y sexo críptico"
Célula vegetal. 2010, 22 (9): 2943-55.
PubMed | Artículo

Guillaume Blanc et al.
los Chlorella variabilis El genoma NC64A revela adaptación a la fotosimbiosis, coevolución con virus y sexo críptico
La célula vegetal, 17 de septiembre de 2010 10.1105 / tpc.110.076406.
Artículo

Jason Stajich et al.
Información sobre la evolución de los hongos multicelulares a partir de los cromosomas ensamblados del hongo Coprinopsis cinerea (Coprinus cinereus)
Proc Natl Acad Sci EE. UU., 29 de junio de 2010 107 (26): 11889-94.
Artículo

Svetlana Ekisheva y Mark Borodovsky
"Exactitud uniforme de las estimaciones de máxima verosimilitud para modelos probabilísticos de secuencias biológicas".
Metodología y Computación en Probabilidad Aplicada, 2009 febrero 10.1007 / s11009-009-9125-7
Artículo

Mitrophanov A.Yu. y Borodovsky M.
"Estimación de la tasa de convergencia para el modelo TKF91 de evolución de la longitud de la secuencia biológica"
Math Biosci., Octubre de 2007, 2009 (2): 470-85. Epub 2007 13 de marzo.
PubMed | Artículo

Piriyapongsa J., Polavarapu N., Borodovsky M. y McDonald J.
"Exonización de los elementos transponibles LTR en el genoma humano"
BMC Genomics, 28 de agosto de 2007: 291.
PubMed | Artículo

Mitrophanov A.Yu., Churchward G. y Borodovsky M.
"Control de la virulencia de Streptococcus pyogenes: modelado del sistema de transducción de señales CovR / S"
J Theor Biol., 2007 mayo 7246 (1): 113-28. Epub 2006 21 de noviembre.
PubMed | Artículo

Aydin Z., Altunbasak Y. y Borodovsky M.
"Predicción de la estructura secundaria de proteínas para una sola secuencia utilizando modelos ocultos de semi-Markov".
Bioinformática BMC, 30 de marzo de 2006: 178
PubMed | Artículo

Kim S.B., Tsui K. y Borodovsky M.
"Pruebas múltiples en tablas de contingencia a gran escala: inferir patrones de asociación de aminoácidos por pares en hojas beta"
En t. J. Investigación y aplicaciones de bioinformática, 2006, vol. 2, núm. 2, págs. 193-217
Artículo

Ekisheva S. y Borodovsky M.
"Modelos probabilísticos para secuencias biológicas: selección y estimación de máxima verosimilitud"
En t. J. Investigación y aplicaciones de bioinformática, 2006, vol. 2, núm. 3, págs. 305-324
Artículo

Mitrophanov A.Yu. y Borodovsky M.
"Importancia estadística en el análisis de secuencias biológicas".
Sesiones informativas en bioinformática, 2006, vol. 7, n. ° 1, págs. 2-24
PubMed | Artículo

Mitrophanov A.Yu., Lomsadze A. y Borodovsky M.
"Sensibilidad de los modelos ocultos de Markov".
Diario de probabilidad aplicada2005, vol. 42, págs.632-642
Artículo

Kattenhorn L.M., Mills R., Wagner M., Lomsadze A., Makeev V., Borodovsky M., Ploegh H.L. y Kessler B.M
"Identificación de proteínas asociadas con viriones de citomegalovirus murinos".
Revista de Virología, 2004, vol. 78, núm. 20, págs. 11187-11197
PubMed | Artículo

Jean-F. Tumba et al.
La secuencia completa del genoma del patógeno gástrico. Helicobacter pylori
Naturaleza, 7 de agosto de 1997, 388 (6642): 539-47.
Artículo

Carol Bult et al.
Secuencia completa del genoma del arqueón metanogénico, Methanococcus jannaschii
Ciencias, Agosto de 1996, vol. 273. no. 5278, págs.1058-1073
Artículo

Kleffe J. y Borodovsky M.
"Primer y segundo momento de recuento de palabras en textos aleatorios generados por cadenas de Markov"
Computación. Apl. Biosci., 1992, vol. 8, núm. 5, págs. 433-441
PubMed | Artículo


Información de los autores

Informe del revisor 1: Dr. Eugene Koonin (Centro Nacional de Información Biotecnológica, EE. UU.)

Este es un artículo realmente emocionante que informa del descubrimiento de una entidad completamente inesperada, un aparente híbrido entre un virus ssDNA relacionado con circovirus y un virus RNA relacionado con tombusvirus. Este hallazgo es de gran interés en dos niveles. Primero, que yo sepa, nunca antes se había observado tal quimera entre los virus de ARN y ADN, no solo de estas familias en particular, sino en general. Por supuesto, hay muchos ejemplos de mezcla y emparejamiento en el mundo de los virus, pero de alguna manera hasta ahora se han limitado al mismo tipo de ácido nucleico. En segundo lugar, este trabajo destaca la nueva ruta hacia el descubrimiento en virología: la ruta metagenómica. Esta es, literalmente, una expedición de pesca, con todas sus ventajas e inconvenientes. La principal ventaja es la capacidad de descubrir esencialmente todo lo que está "ahí fuera", incluso con poca abundancia, sin la necesidad de los laboriosos y sesgados procedimientos del crecimiento de virus y hospedadores. Pero aquí también está la severa limitación de la metagenómica: ni el huésped ni, estrictamente hablando, el virus se identifican con los estándares habituales de microbiología y virología. En cualquier caso como éste, pero más especialmente cuando se descubrió una quimera extraña, es crucial mostrar de la manera más convincente posible que la secuencia presentada es de hecho el genoma del virus en lugar de algún artefacto de ensamblaje o clon quimérico. Creo que esto se hace de manera satisfactoria en este artículo, mediante PCR inversa a partir de una muestra ambiental independiente. Entonces creo que esto es un virus real. Además, es notable que los homólogos más cercanos tanto de la proteína Rep como de la proteína de la cápside se detectaron en otras muestras metagenómicas, las de GOS. Es extremadamente intrigante si estos representan el mismo tipo de genomas quiméricos o si el evento de recombinación de ARN-ADN propuesto es relativamente reciente, y estos vecinos son los parientes más cercanos de las respectivas familias de virus de ARN y ADN. Con el genoma de BSL-RDHV lanzado, esto no debería ser demasiado difícil de probar. En un plano más general, uno no puede evitar preguntarse cuántas de estas maravillas inesperadas del mundo de los virus aguardan en todo tipo de entornos y, de manera más práctica, son los criterios para reconocer un nuevo virus que van a cambiar pronto.

Tengo algunos problemas específicos menores con el artículo.-El título puede interpretarse como un poco engañoso ya que "vínculo evolutivo" parece implicar que los virus ssDNA evolucionaron a partir de virus ssRNA o viceversa. Sugeriría mencionar el genoma quimérico en el título mismo.

Respuesta del autor : El título ha sido revisado.

Me sorprende la metodología empleada para construir los árboles ("cladogramas de racimo aproximado") en la Figura 3. ¿Por qué usar este enfoque crudo en lugar del método regular de máxima verosimilitud (RaxML) y quizás incluso un método bayesiano además? No es que espere que el resultado cambie drásticamente, pero el nuevo virus es lo suficientemente interesante e inusual como para invertir un esfuerzo razonable para hacer que el análisis filogenético sea lo más sólido posible.

Respuesta del autor : Esta sección ha sido revisada y se presentan alineaciones mucho más extensas y se realizan análisis filogenéticos (Figuras 3 , 4 y 6 ).

Me parece bastante extraño el énfasis en la similitud en la organización del genoma entre el virus ssDNA circular que aparentemente es BSL-RDHV y los ssRNA tombusvirus. ¿No es mucho más sencilla la similitud con los circovirus? Para mí, esto se parece a un circovirus en el que la proteína de la cápside fue desplazada por una de un virus similar a un tombus.

Respuesta del autor : Esto ha sido revisado a lo largo del texto. Sin embargo, encontramos que la disposición del genoma es sorprendentemente diferente de la mayoría de los circovirus, por lo que se ha conservado la Figura1.

Informe del revisor 2: Dr. Mart Krupovic (designado por el Dr. Patrick Forterre) (Institut Pasteur, Francia):

Diemer y Stedman informan sobre la caracterización de un genoma viral putativo, que se ha obtenido en el curso de un análisis metagenómico de muestras de viroma recolectadas en el lago Boiling Springs. El genoma viral putativo (BSL-RDHV) codifica cuatro proteínas, dos de las cuales comparten similitud de secuencia con proteínas de virus previamente caracterizados. Una de estas proteínas está relacionada con las proteínas típicas de iniciación de la replicación del círculo rodante de la superfamilia II que se encuentran abundantemente en los virus y plásmidos de ADN. Sorprendentemente, el otro es muy similar a las proteínas de la cápside de los virus de ARN de sentido positivo icosaédricos eucariotas. La observación de que los genes para dos funciones virales clave, la formación de viriones y la replicación del genoma, aparentemente se derivan de virus / replicones de ARN y ADN no relacionados para formar una nueva entidad viral quimérica es emocionante, aunque no del todo novedosa (ver más abajo). Los hallazgos presentados en este documento mejoran sustancialmente nuestra comprensión no solo de la diversidad genética en la virosfera, sino también de los posibles mecanismos responsables de la aparición de nuevos tipos virales. Por tanto, creo que definitivamente vale la pena publicar el artículo. Sin embargo, algunas partes del manuscrito aún se pueden mejorar como se detalla a continuación.

Antecedentes: esta sección consta de cinco líneas que elogian la utilidad de la metagenómica en el estudio de la evolución del virus, seguida de algunos párrafos que se asemejan a los Resultados en lugar de la Introducción. Dado que el artículo trata sobre la evolución de los virus, la sección de Antecedentes podría aportar alguna información sobre las hipótesis actuales sobre el origen de los virus y los mecanismos de su evolución. Esto permitiría a los lectores apreciar más plenamente la importancia de los hallazgos presentados en la sección Resultados. Los autores pueden encontrar útiles las revisiones recientes sobre este tema de (Koonin y Dolja, 2011 Krupovic et al., 2011 Forterre y Prangishvili, 2009). Dolja VV, Koonin EV: Orígenes comunes y diversidad de viromas de plantas y animales dependientes del huésped. Curr Opin Virol 2011, 1 (5): 322–31. Krupovic M, Prangishvili D, Hendrix RW, Bamford DH: Genómica de virus bacterianos y arqueales: dinámica dentro de la virosfera procariota. Microbiol Mol Biol Rev 2011, 75 (4): 610–35. Forterre P, Prangishvili D: El origen de los virus. Res Microbiol 2009, 160 (7): 466–72.

Respuesta del autor : Esta sección ha sido revisada extensamente.

Resultados: I. Proteína de la cápside: La similitud de la proteína de la cápside BSL-RDHV con las de los virus de ARN parece ser muy significativa (especialmente con la PC del virus A de Sclerophthora macrospora). Sin embargo, la similitud se limita a los dominios S y P de las CP del virus ARN, que cubre solo la región central de la proteína de la cápside BSL-RDHV (residuos 156-302). El BSL-RDHV es 542 aa. ¿Podrían los autores comentar sobre las regiones N- y C-terminales del BSL-RDHV CP, que no se muestran en la alineación presentada en la Figura S1?

Respuesta del autor : Hemos revisado el texto para discutir estos aspectos y hemos incluido tablas de aciertos BLASTp y alineaciones extensas (Figuras 2 6 ).

¿Comparten estas regiones similitud de secuencia con las proteínas de las bases de datos? ¿Cuál es su estructura secundaria predicha? ¿Es probable que se plieguen en dominios funcionales independientes? ¿Cómo podría afectar esto la formación de la cápside? Además, los autores deben proporcionar más información sobre Sclerophthora macrospora virus A (SmV-A) y Plasmopara halstedii virus A (PhV-A), los dos virus que comparten la mayor similitud de secuencia con el CP de BSL-RDHV. No basta con afirmar que son virus ssRNA sin clasificar. Por ejemplo, cuál es el rango de hospedadores de SmV-A y PhV-A (si se conoce), cuál es la relación genómica entre estos virus y tembusvirus, etc.

Respuesta del autor : Esta sección también ha sido revisada y esperamos que este trabajo estimule la investigación sobre los virus SmV-A y PhV-A poco estudiados, ya que también pueden proporcionar información sobre el mecanismo de formación de los genomas del virus BSL tipo RDHV.

¿Quizás esta información podría proporcionar algunas pistas sobre el origen de BSL-RDHV? La organización del dominio S-P no es típica de todos los virus ssRNA icosaédricos (+). La información sobre cuán extendida está esta arquitectura CP entre los virus de ARN sería muy interesante. ¿Se encuentra solo en Tombusviridae y en algunos virus no clasificados?

Respuesta del autor : Esta configuración S-P sólo se conoce y se demuestra mediante cristalografía de rayos X en el grupo "similar a carmovirus" de Tombusviridae.

A partir de la alineación (Figura S1), parece que el dominio S está considerablemente más conservado entre BSL-RDHV y tombusvirus. ¿Ocurre lo mismo cuando se compara BSL-RDHV CP con SmV-A y PhV-A únicamente?

Respuesta del autor : Como se indicó anteriormente, esta sección se ha revisado considerablemente.

Además, la organización SP no se denomina "configuración de doble jelly-roll", como afirman los autores en la página 5. El doble jelly roll se encuentra en diversos virus dsDNA y es estructuralmente bastante diferente de la CP de los tombusvirus (Krupovic y Bamford , 2008). Krupovic M, Bamford DH: Evolución del virus: ¿hasta dónde se extiende el linaje viral de doble barril beta? Nat Rev Microbiol 2008, 6 (12): 941–8.

Respuesta del autor : Esto ha sido corregido.

Además, la coloración Qres del modelo CP en la Figura 2A no es muy significativa y puede eliminarse.

Respuesta del autor : Encontramos que, dado que la alineación no indica un alto grado de similitud en la secuencia de aminoácidos en el dominio P de las proteínas CP, se justifica una evaluación estructural para fundamentar mejor las afirmaciones de transferencia interviral y homología de las CP de tipo BSL y SP de tombusvirus. Que la congruencia estructural se extiende a toda la estructura se muestra mejor con una puntuación Qres.

II. Proteína Rep: los autores podrían presentar brevemente las proteínas de iniciación de la replicación del círculo rodante (RCR Reps). RCR Reps contiene tres motivos conservados (no solo el sitio activo Tyr): Ilyina TV, Koonin EV: motivos de secuencia conservada en las proteínas iniciadoras para la replicación del ADN en círculo rodante codificado por diversos replicones de eubacterias, eucariotas y arqueobacterias. Nucleic Acids Res 1992, 20 (13): 3279–85. ¿Se conservan los tres motivos en el BSL-RDHV? La Figura S2 muestra una alineación entre los dominios de nucleasa de RCR Reps de BSL-RDHV y PCV2 (por cierto, la leyenda no corresponde a esta figura). Se podría comparar un conjunto más inclusivo de RCR Reps (y no solo para la nucleasa, sino también para el dominio helicasa).

Respuesta del autor : Ver figura revisada6.

Además, el hecho de que haya un bucle de tallo que preceda al gen Rep no sugiere necesariamente la naturaleza monocatenaria del genoma de BSL-RDHV en el virión (página 6, segundo párrafo). Los virus dsDNA también usan RCR Reps para la replicación (por ejemplo, corticovirus PM2).

Respuesta del autor : Si bien no descarta por completo la posibilidad de que el virus BSL RDHV albergue un genoma bicatenario dentro del virión, el tallo-loop, la similitud de secuencia con la Rep de PCV y la evaluación estructural de Rep indican claramente un genoma similar al circovirus y ciclo de replicación. Hasta que se puedan producir viriones y extraer ADN para su análisis, esto no se puede demostrar definitivamente. Se están realizando experimentos para detectar ssDNA en muestras de BSL. Además, no se detectó similitud de secuencia detectable entre BSL / circoviral y PM2 Rep, y no se detectó similitud de secuencia de ácido nucleico entre los orígenes de replicación de BSL y PM2, lo que indica que no es probable que el virus BSL esté relacionado con el corticovirus PM2.

III. Los árboles: sugiero reemplazar los árboles agrupados en bruto (Figura 3) con las alineaciones correspondientes, ya que dichos árboles no son muy significativos. La Figura 3A muestra el árbol CP de BSL-RDHV, tombusvirus, virus satélite, geminivirus y nanovirus. Los autores dicen que BSL-RDHV se agrupa con tombusvirus, "con exclusión de las proteínas de la cápside que se encuentran en los virus que infectan plantas de ADNss que también codifican Rep". Ninguna de estas otras proteínas (para las que se dispone de información sobre la estructura) posee dominios S y P, mientras que la información sobre el nanovirus CP, que yo sepa, no está disponible en absoluto. Por lo tanto, no tiene sentido poner en el mismo árbol proteínas que podrían ni siquiera ser homólogas. De manera similar para la Figura 3B, que muestra el árbol de RCR Reps: la similitud entre los Reps de microvirus y circovirus se limita a los tres motivos del dominio nucleasa (el Rep microviral tampoco tiene el dominio helicasa). Los archivos complementarios 2 (puntajes Blast) y 3 (números de acceso) deben combinarse. También sería útil si los autores pudieran complementar la tabla con los valores de identidad por pares.

Respuesta del autor : Esto se ha hecho.

Conclusiones: “… la recombinación ARN-ADN solo se ha inferido”: Quizás podría mencionarse aquí que recientemente se descubrieron numerosos genomas de virus ARN (de diferentes familias) en los genomas de varios huéspedes eucariotas, lo que sugiere que la recombinación ARN-ADN podría ser no es tan infrecuente como se creía anteriormente.

Respuesta del autor : Esto se ha agregado y vea la respuesta del autor al Revisor 3.

Los autores señalan que “la transferencia lateral de genes de la cápside se produjo entre un antepasado de los virus satélite ssRNA y un geminivirus o nanovirus circular, ssDNA durante la coinfección [32]”. Sin embargo, lo que sugerimos en la referencia [32] es que los geminivirus se originaron a partir de plásmidos de bacterias fitopatógenas (fitoplasma) al adquirir el gen que codifica la cápside de un virus de ARN que infecta una planta, es decir, se produjo una recombinación entre dos ADN (plásmido) y ARN no relacionados. (virus) replicones para dar lugar a un elemento nuevo: el antepasado de los geminivirus. La afirmación de que "las proteínas de la cápside del virus ssRNA satélite se encuentran exclusivamente en los genomas del ssDNA de las grandes y bien caracterizadas familias Geminiviridae y Nanoviridae" tampoco está respaldada: (i) no hay evidencia de que el CP nanoviral adopte el pliegue de jelly-roll (aunque esto es probablemente cierto), (ii) entre los virus de ADN, este pliegue no está restringido a los geminivirus, ya que también se encuentra en los PC de parvovirus y microvirus (y ciertos virus de ADNdc), (iii) lo más importante, el pliegue de un solo rollo de gelatina es más generalizado en virus con genomas de ARN (¡12 familias diferentes!). La sugerencia de que “los virus satélite ssRNA probablemente adquirieron sus proteínas de la cápside de gemini y nanovirus” no tiene fundamento. El hecho de que los “satélites, gemini y nanovirus a menudo co-infectan los mismos huéspedes” no es una prueba, especialmente si se considera que el socio principal durante la coinfección de los virus satélites ssRNA son otros virus ssRNA (con CPs en gelatina).

Respuesta del autor : Hemos optado por eliminar este ejemplo en particular como un posible precedente para la recombinación de ARN-ADN intervírico porque las afirmaciones afirmadas en Krupovic et.al., 2009 aún no se han corroborado. Estamos de acuerdo en que el propio pliegue gelatinoso probablemente se originó en virus de ARN, y que la filogenia del gen CP indica una ascendencia común entre los CP de satélite de ARN, ADN gemini y nanovirus. Sin embargo, consideramos que la afirmación de que las PC de gemini y nanovirus se obtuvieron directa y recientemente de un virus de ARN similar a un satélite es especulativa. Si bien investigar las trayectorias evolutivas del pliegue del rollo de gelatina y determinar su origen último en los grupos de virus de ADN es ciertamente una perspectiva intrigante, tal esfuerzo está más allá del alcance de este informe.

Los autores prefieren un escenario según el cual "el gen de la cápside se transfirió de un virus ssRNA a un virus ssDNA en el predecesor de la supuesta familia RDHV". Sin embargo, ¿pueden los autores estar seguros de que en el origen del antepasado RDHV había un virus y no un plásmido? En principio, el aceptor del gen de la cápside tipo tombusvirus podría haber sido cualquier tipo de replicón (p. Ej., Un plásmido) con una RCR similar a un circovirus. Además, los plásmidos también podrían haber estado en el origen de los circovirus, como hemos visto. señalado anteriormente.

Respuesta del autor : La secuencia de la proteína BSL Rep tiene poca semejanza con el plásmido Reps, mientras que demuestra una similitud sustancial con Reps similares a circovirus. A menos que haya otros plásmidos no caracterizados con Reps similares a circovirus, los datos indican que es más probable que la recombinación ocurriera en un genoma similar a circovirus. Si bien es concebible que los circovirus se originaran finalmente a partir de plásmidos, el bajo nivel de divergencia de secuencia entre BSL RDHV Rep, CP y otras proteínas relacionadas indican una adquisición reciente de la proteína CP por un ancestro que ya es similar a un circovirus. La hipótesis alternativa requeriría la evolución convergente del BSL y CPs tipo tombusvirus, lo que consideramos altamente improbable.

Último párrafo de las Conclusiones: En mi opinión, es una exageración decir que las observaciones presentadas en este documento implican a los virus en la transición del mundo del ARN al mundo del ADN.

Respuesta del autor : Esta sección de la conclusión ha sido modificada para mayor claridad, pero nos gustaría confirmar nuestra diferencia de opinión sobre este tema.

Sin embargo, ciertamente estoy de acuerdo en que los hallazgos “amplían la teoría modular de la evolución del virus para abarcar una gama mucho más amplia de posibilidades”. Lo que también encuentro intrigante acerca de estos virus quiméricos es cómo su descubrimiento podría afectar nuestras opiniones sobre la línea de tiempo de los orígenes de los virus, así como nuestros intentos de diseñar niveles más altos de clasificación de virus. A menudo se asume que los virus surgieron aproximadamente al mismo tiempo o incluso antes que los organismos celulares, mientras que la posibilidad de que nuevos grupos de virus puedan estar emergiendo en la biosfera contemporánea rara vez se discute. Basándonos en la hipótesis de Koonin e Ilyina (1992), hemos sugerido que los geminivirus podrían representar uno de esos grupos de virus "nuevos" [32]. Koonin EV, Ilyina TV: Las proteínas de replicación de los geminivirus están relacionadas con las proteínas iniciadoras de la replicación del ADN del círculo rodante del plásmido procariota. J Gen Virol 1992, 73: 2763–6. El RDHV podría ser un ejemplo aún más convincente en apoyo del surgimiento continuo de nuevos grupos de virus a partir de elementos genéticos móviles preexistentes (virus y plásmidos).

Respuesta del autor : Estamos muy de acuerdo con su evaluación.

Para la clasificación de virus de orden superior, personalmente estoy a favor de la visión capsidocéntrica (Krupovic y Bamford, 2009, 2010), según la cual los determinantes de la arquitectura del virión se heredan en un grupo viral dado de su ancestro común, mientras que los determinantes genéticos de otras características funcionales. los módulos (por ejemplo, para las proteínas de replicación del genoma) se mueven con relativa libertad dentro y fuera de estos genomas virales. En otras palabras, el movimiento de los módulos funcionales se produce en relación con los genes que codifican la cápside. Krupovic M, Bamford DH: ¿La evolución de las polimerasas virales refleja el origen y la evolución de los virus? Nat Rev Microbiol 2009, 7 (3): 250. Krupovic M, Bamford DH: Orden al universo viral. J Virol 2010, 84 (24): 12476–9. Por el contrario, según otra línea de pensamiento, diferentes módulos funcionales en los genomas virales merecen el mismo peso cuando se consideran las relaciones entre virus: Koonin EV, Wolf YI, Nagasaki K, Dolja VV: La complejidad del mundo de los virus. Nat Rev Microbiol 2009, 7 (3): 250. Lawrence JG, Hatfull GF, Hendrix RW: Imbroglios de taxonomía viral: intercambio genético y fallas de enfoques fenéticos. J Bacteriol 2002, 184 (17): 4891–905. Por lo tanto, dependiendo del punto de vista, RDHV puede considerarse como un pariente de los tombusvirus, que tenían su maquinaria de replicación del genoma original (RdRp) reemplazada por un gen para RCR Rep. Por otro lado, también podría verse como un circovirus en el que el gen CP ancestral fue reemplazado por un gen de un virus de la tumba. ¿Qué piensan los autores sobre la clasificación (y la afiliación a los taxones virales existentes) del RDHV y otros virus quiméricos, que probablemente se descubran en el futuro?

Respuesta del autor : Estos puntos son muy intrigantes de considerar y este comentario es muy apreciado. Primero, el uso continuado de la metagenómica promete tener un efecto marcado en los esquemas actuales de taxonomía de virus. Solo podemos adivinar qué efectos tendrán el virus BSL RDHV y sus parientes en estos marcos taxonómicos. En segundo lugar, esta cuestión relacionada con las trayectorias de los módulos Rep y CP pone de relieve una cuestión importante sobre el origen de los virus ssDNA lineales y circulares. Es poco probable que el genoma de BSL tipo RDHV evolucionara de forma incremental a partir de un virus de ARN que contiene RdRp. Sin embargo, la noción de que los virus ssDNA lineales y circulares evolucionaron primero a partir de virus ssRNA de tal manera, primero mediante conversión a ADN y luego mediante la adquisición de un dominio RCRE (el dominio Rep S3H también se deriva de un virus ARN), en contraposición haber surgido en gran parte a través de intercambios modulares es ciertamente un tema muy digno de investigación.

Informe del revisor 3: Dr. Arcady Mushegian (Facultad de Medicina de la Universidad de Kansas, EE. UU.)

El manuscrito de Diemer y Stedman informa de la existencia del nuevo virus, que se caracteriza por un genoma circular de ADN monocatenario y una nueva configuración de dos genes, es decir, 1. proteína de replicación similar a un nanovirus o circovirus con el corte de ADN y el corte habituales previstos. Dominios NTPase y 2.la proteína de la cápside del rollo de gelatina está claramente relacionada con las proteínas de la cápside de los virus de ARN de cadena positiva (tombusvirudae) y dos virus de ARN no clasificados de hongos. Los experimentos indican que la muestra metagenómica del lago caliente contiene el genoma circular completo, y que es muy probable que existan genomas similares en las muestras oceánicas (en ese caso, no se mostró su forma circular, pero lo más probable es que sí). Este es un descubrimiento fascinante de un nuevo grupo de virus, que sugiere el antiguo acto de intercambio de material genético entre genomas de virus de ARN y ADN. Apoyo plenamente la publicación de este estudio, pero debo solicitar que se moderen algunas de las declaraciones más amplias del documento, a fin de concordar mejor con la evidencia. Resumen: “poco se sabe sobre su origen colectivo y su historia evolutiva” --- ver el siguiente comentario. Ibídem. “Actualmente no es posible determinar si los principales grupos de virus surgieron de forma independiente, o si tienen una historia evolutiva compartida” --- la hipótesis de que los virus de ARN surgieron antes del advenimiento de los genomas de ADN, cuando los genomas que codifican proteínas estaban hechos de ARN, no es descabellado. Esto abogaría por los orígenes independientes, o al menos separados en el tiempo, de los genomas de los virus de ADN y ARN. Por lo tanto, la palabra 'colectivo' en la primera oración está haciendo un trabajo pesado que probablemente no debería. Por otro lado, los virus de retrotranscripción y los virus de ARN parecen satisfacer la definición de cualquiera de dos "grupos de virus principales" y, sin embargo, hay muchas pruebas de que tienen una historia evolutiva compartida, al menos en su enzima de replicación.

Respuesta del autor : Esta sección ha sido revisada extensamente.

Ibídem. “Aún no se ha identificado ningún mecanismo para la recombinación de ARN-ADN” --- ¿qué pasa con el retrohome de los intrones del grupo II?

Respuesta del autor : Se agregó el siguiente pasaje a la sección de conclusiones en base a las sugerencias hechas por Mushegian y Krupovic: ”La presencia de genes del virus del ARN no retroviral en los genomas celulares [[61–66]] sugiere que existe algún mecanismo celular que permite la recombinación de ARN-ADN en lugar de una RT derivada de virus. Aunque el fenómeno de retro-homing del intrón del grupo II [[67]] y no se ha observado que los intercambios mediados por transposones medien la transferencia lateral de genes intervirales, estos o mecanismos similares basados ​​en células huésped pueden haber facilitado la formación de virus BSL tipo RDHV ".

p.5: El apodo de “virus híbrido ARN-ADN” (RDHV) debe desaparecer. Este es un nombre completamente engañoso. Los autores muestran abundante evidencia de un virus similar a un circovirus o un nanovirus con un genoma de ADN monocatenario que, en el pasado, ha adquirido una proteína de la cápside de un virus de ARN. No obstante, ahora es un virus de ADN. Este ni siquiera es el primer ejemplo de ese tipo de mosaicismo: las proteínas BL1 / BC1 de los geminivirus bipartitos son similares a la familia 30 K de proteínas de movimiento de los virus de ARN de plantas, pero nadie llama a los geminivirus bipartitos "virus de ADN-ARN" por eso. . Los genomas de ARN de closterovirus codifican homólogos de proteínas celulares HSP70, pero estos virus tampoco son virus de ARN-ADN. Un nombre descriptivo como "Boiling Spring Lake Virus 1" o algo de este tipo debería funcionar bien. Tenga en cuenta que esta objeción al "RDHV" no es la guerra de nomenclatura, sino que tiene como objetivo aclarar las cosas moleculares.

Respuesta del autor : El apodo “RDHV” se menciona en el texto como provisional. Creemos que se justifica un nombre descriptivo sucinto para este nuevo tipo de genoma de virus, al menos temporalmente. Otros nombres imaginables parecen insuficientes para describir un grupo de virus nuevo y probablemente muy extendido y su ascendencia, y serían significativamente más confusos o excesivamente complicados (por ejemplo, "un virus del lago Boiling Springs del mar de los Sargazos"). Estamos completamente de acuerdo en que el genoma descubierto representa un virus de ADN. Una vez que hayamos identificado el anfitrión y / o la estructura del virus, propondremos un nombre taxonómicamente apropiado a través del ICTV (y dejaremos que las guerras de nomenclatura se enfurezcan).

p.5 y posteriores: Estoy seguro de que existe un argumento sencillo de similitud de secuencia sobre la relación evolutiva de la proteína de la cápside “RDHV” y los virus de las tumbas. Pude obtener una similitud estadísticamente significativa entre el primero y el último mediante los enfoques PSI-BLAST y HHPred. Recomiendo que los autores hagan lo mismo. En su lugar, estamos leyendo “La estructura predicha de la proteína de la cápside BSL RDHV es congruente con la configuración de doble jelly-roll del dominio S-P que se encuentra en los tombusvirus de ssRNA Tomato Bushy Stunt (TBSV) y Melon Necrotic Spot (MNSV) [12, 13]. Las secuencias de aminoácidos se conservan moderadamente entre las tres proteínas basadas en BLOSUM80 [14], mientras que el porcentaje de identidad de secuencia es bajo (Figura 2A) (consulte la Figura 1 adicional para ver la alineación) ". Esto es ambiguo: si los argumentos de las estadísticas de búsqueda de la base de datos / similitud de secuencia (¡no es lo mismo que la identidad de secuencia!) No son suficientes para establecer la similitud evolutivamente significativa, entonces no hay base para el modelado de subprocesos y estructuras y si los argumentos de similitud de secuencia fueron usado, ¿por qué no decirlo?

Respuesta del autor : Esta sección ha sido revisada extensamente y se han agregado Figuras (Figuras 2 6 ).

pag. 7: “El escenario más parsimonioso” --- ¿más parsimonioso que otros escenarios?

Respuesta del autor : Esta sección también ha sido revisada. Véase la respuesta a Krupovic con respecto al origen de los virus ssDNA lineales y circulares.

págs. 7-8: Varias menciones de virus de ARN satélite parecen fuera de lugar - ¿los tombusvirus no son satélites y tampoco los virus fúngicos se analizan en el artículo?

Respuesta del autor : Estas referencias han sido aclaradas.

págs. 8-9: (último párrafo del artículo) "Suponiendo que los virus de ARN precedieron evolutivamente a todos los grupos de virus de ADN [33, 34], la evidencia de la transferencia de genes de los virus de ARN a los de ADN complementa la teoría del ARN primero [35]". --- No entiendo lo que esto significa. Primero, si asumimos que los virus de ARN precedieron evolutivamente a todos los grupos de virus de ADN, entonces tenemos una respuesta parcial a la pregunta que se decía que era imposible de responder en el Resumen (ver arriba). En segundo lugar, "complementar" más o menos significa proporcionar una parte faltante o una línea de argumento adicional compatible, ¿correcto? No estoy seguro de qué tiene que ver el virus descrito en este estudio con la precedencia evolutiva de los virus de ARN sobre los virus de ADN: seguramente, para que este virus emerja, tanto los virus de ARN como los de ADN ya tienen que estar presentes.

Respuesta del autor : Este último párrafo ha sido revisado y aclarado.


Ver el vídeo: Características do DNA - Genoma Eucariótico (Enero 2023).