Información

¿Cuáles son las diferencias entre las bases de datos HPRD y BIOGRID?

¿Cuáles son las diferencias entre las bases de datos HPRD y BIOGRID?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

¿Cuáles son las diferencias entre las bases de datos de interacciones proteína-proteína HPRD y BIOGRID?

  • ¿Cuáles son sus propósitos? ¿Por qué necesitamos dos bases de datos diferentes?
  • ¿Cómo se recopilan los datos en cada uno?
  • ¿Qué tan diferentes son en las interacciones que contienen?
  • ¿Se considera uno más confiable que el otro?
  • ¿Cuál se usa más comúnmente al comparar modelos?
  • ¿Existen otras bases de datos de PPI de uso común?

Respuesta corta

En pocas palabras, existen dos diferencias principales:

  • Gama de especies: BioGRID integra datos de interacción proteína-proteína (PPI) de múltiples especies, mientras que HPRD se centra principalmente en Humano datos.

  • Funcionalidad: HPRD tiene algunas herramientas GUI que pueden interactuar directamente con su base de datos (por ejemplo, BLAST, para buscar proteínas y sus socios de unión a través de la alineación de secuencias), mientras que BioGRID es principalmente una base de datos.

Respuesta larga

En negrita son las características únicas de cada base de datos.

Acerca de HPRD:

La base de datos de referencia de proteínas humanas representa una plataforma centralizada para representar e integrar visualmente información relacionada con arquitectura de dominio, modificaciones postraduccionales, redes de interacción y asociación de enfermedades para cada proteína en el humano proteoma. Toda la información en HPRD ha sido extraído manualmente desde el literatura por biólogos expertos que leen, interpretan y analizan los datos publicados. HPRD se ha creado utilizando una base de datos orientada a objetos en Zope, un servidor de aplicaciones web de código abierto, que proporciona versatilidad en las funciones de consulta y permite datos que se mostrarán dinámicamente.

Preguntas frecuentes HPRD: ¿Por qué decidió desarrollar otra base de datos en lugar de integrar otras bases de datos existentes? " Creemos que las bases de datos biológicas aún se encuentran en sus primeras etapas y ninguna base de datos de proteínas puede considerarse un estándar establecido. Creemos que una variedad de bases de datos que intentan resolver problemas de diversas maneras brindan a los biólogos la posibilidad de elegir su favorito. Nuestro enfoque es radicalmente diferente de las bases de datos existentes y queremos ofrecer a los biólogos la posibilidad de elegir en lugar de imponer una base de datos por defecto. Además, la mayoría de las bases de datos están automatizadas y el nuestro se cura manualmente para evitar errores. También estamos tratando de proporcionar información que pocas otras bases de datos proporcionan.

Acerca de Biogrid:

El Repositorio General Biológico para Conjuntos de Datos de Interacción (BioGRID) es una base de datos pública que archiva y difunde genético y datos de interacción de proteínas de organismos modelo y humanos (thebiogrid.org). BioGRID mantiene actualmente 720.000 interacciones curado de ambos conjuntos de datos de alto rendimiento y estudios enfocados individualmente, derivado de más 41.000 publicaciones en la literatura primaria. Cobertura completa del Se mantiene toda la literatura para la levadura en ciernes (S. cerevisiae)., levadura de fisión (S. pombe) y thale berro (A. thaliana)y se están realizando esfuerzos para expandir la curación en múltiples especies de metazoos. Actual Las campañas de curación se centran en áreas particulares de la biología. para permitir información sobre redes conservadas y caminos que son relevantes para salud humana. La interfaz web de BioGRID 3.2 contiene nuevas funciones de búsqueda y visualización que permiten consultas rápidas en múltiples fuentes y tipos de datos. BioGRID proporciona datos de interacción a varias bases de datos de organismos modelo, recursos como Entrez-Gene, SGD, TAIR, FlyBase y otras meta-bases de datos de interacción. Toda la colección de datos de BioGRID 3.2 se puede descargar en varios formatos de archivo, incluido PSI MI XML compatible con IMEx. Para los desarrolladores, las interacciones de BioGRID también están disponibles a través de un servicio web basado en REST y el complemento Cytoscape. Toda la documentación de BioGRID está disponible en línea en BioGRID Wiki.


Papel de las bases de datos de interacción proteína-proteína en la genética humana

Actualmente, existen numerosas bases de datos de interacción de proteínas disponibles públicamente que contienen información sobre interacciones específicas de humanos (Tabla 1). La mayoría de los IBP en estas bases de datos provienen de la curación de la literatura por parte de biólogos, sin embargo, algunos se incorporan mediante depósito directo antes de su publicación por parte del investigador. [73] En la mayoría de las bases de datos de PPI, el usuario ingresará una proteína de su elección ya sea por nombre de proteína o número de acceso, de acuerdo con RefSeq, Genbank, Online Mendelian Inheritance in Man (OMIM), SwissProt o Entrez Gene y, en regrese, reciba una lista de interactuadores de proteínas, información relacionada con la evidencia experimental de esa interacción, así como información sobre la proteína en sí. Otra característica común de la mayoría de las bases de datos es la capacidad de visualizar la red de la proteína consultada y sus interactores. Tocaremos algunas de las características clave de ciertas bases de datos. Para obtener una revisión más completa e información adicional sobre estas bases de datos y otras, consulte. [73–75]

Una de las bases de datos más grandes disponibles públicamente es el HPRD, que, hasta la fecha, tiene más de 38,000 PPI, más de 270,000 enlaces Pubmed y acceso a rutas seleccionadas, así como información sobre modificaciones postraduccionales (PTM), arquitectura de dominio, proteínas. funciones, relaciones enzima-sustrato, localización subcelular, expresión tisular y asociación de genes con enfermedades. Una característica interesante de esta base de datos es el Protein Distributed Annotation System, que permite a los investigadores anotar información proteómica en el contexto de los datos de HPRD para que se pueda compartir fácilmente con el resto de la comunidad científica. [76] Otra base de datos grande y en crecimiento que tiene componentes similares es la BioGrid, que actualmente alberga aproximadamente 42,800 PPI humanos, pero, en total, contiene más de 200,000 interacciones de Saccharomyces cerevisiae, Schizosaccharomyces pombe, Caenorhabditis elegans, Mus musculus y Drosophila melanogaster, además de Homo sapiens.

Otras bases de datos disponibles que son más pequeñas que HPRD y BioGrid pero que ofrecen características únicas adicionales son la base de datos de la red de interacción biomolecular (BIND), que es un componente de la base de datos de la red de objetos biomoleculares, la base de datos de interacción molecular (MINT), la base de datos de proteínas que interactúan. (DIP) y Reactome. Por ejemplo, BIND y MINT proporcionan puntuaciones de confianza para cada interacción, específicamente, para los experimentos Y2-H en BIND. En MINT, esta puntuación se basa en el número de interacciones, el número de citas y el tipo de experimento realizado para detectar esa interacción, mientras que en BIND, la puntuación se basa en anotaciones GO compartidas o relacionadas, perfiles fenotípicos, interacciones homólogas, dominio estructura y número de publicaciones. [73] MINT también contiene información relativa a las interacciones de las proteínas con las regiones promotoras y el ARNm. Exclusivo de DIP, el usuario puede seleccionar que se evalúen ciertos PPI en función de interacciones parálogas o perfiles de expresión comunes de interactores o mediante preferencias de interacción de dominio.

Reactome no es específicamente una base de datos de PPI, sino un recurso curado para datos de vías humanas basados ​​en redes de reacciones biológicas. Se describe que las reacciones del reactoma tienen lugar entre "entidades físicas", que incluyen no solo proteínas, sino también ácidos nucleicos, moléculas pequeñas individuales, complejos macromoleculares e incluso partículas subatómicas. Todas las proteínas, genes y reacciones tienen referencias cruzadas con una variedad de bases de datos ampliamente utilizadas, como Entrez Gene, Online Mendelian Inheritance in Man (OMIM) y KEGG, y cada reacción está respaldada por evidencia de literatura biomédica, así como documentada con citas. [77] El usuario tiene la capacidad de buscar en la base de datos utilizando un nombre de reacción, nombre de gen, nombre de proteína o cualquiera de varios identificadores alternativos. Las reacciones en la salida se representan gráficamente y el usuario tiene la opción de hacer clic en las rutas de 'nivel superior' para profundizar en la jerarquía con detalles cada vez mayores en cada nivel. Además, se pueden seleccionar especies no humanas y se pueden descargar todos los números de acceso de todos los genes y proteínas implicados. Para una revisión más profunda de esta base de datos, consulte. [77]

Recursos como STRING, Unified Human Interactome (UniHI) y GeneNetwork acceden a varias de las bases de datos revisadas para integrar la información de interacción de proteínas. La versión más reciente de STRING, 8.0, cubre aproximadamente 2,5 millones de proteínas de 630 organismos diferentes e incorpora información de PPI de varias bases de datos de interacción, como HPRD, BioGrid, MINT, BIND y DIP, y también importa reacciones conocidas de las vías de Reactome y KEGG. . Las adiciones recientes a esta base de datos incorporan interacciones de IntACT, EcoCyc, NCI-Nature Pathway Interaction Database y GO. Minería de texto automatizada de resúmenes de PubMed, OMIM e información de otras bases de datos, como la Saccharomyces Genome Database, Wormbase y Interactive Fly complementan esta información. [78,79] Para interacciones en organismos que no se han confirmado experimentalmente, STRING es capaz de ejecutar un conjunto de algoritmos de predicción y transferir interacciones conocidas de organismos modelo a otras especies basándose en la ortología de predicción para esas proteínas. [79] El usuario, sin embargo, tiene la opción de seleccionar a qué organismo pertenecerán la proteína consultada y sus interactores. A cada interacción se le asigna una puntuación de confianza numérica basada en la evidencia experimental y la evidencia ortóloga detrás de esa interacción, lo que permite al usuario filtrar las redes de acuerdo con un umbral de confianza deseado.

Unified Human Interactome no solo integra PPI de grandes pantallas Y2-H y bases de datos seleccionadas, como HPRD, DIP, BIND y Reactome (así como otras que no hemos discutido), sino que también predice interacciones basadas en ortología y enfoques de minería de texto computacional. . Esta base de datos también proporciona información detallada sobre cada interacción, incluida la validación de interacción estadística mediante datos de coexpresión de genes y la validación por longitud de ruta compartida de acuerdo con la jerarquía de co-anotación de GO. Las fuentes de las interacciones también se documentan y proporcionan, junto con enlaces para acceder a más información sobre esa fuente de evidencia en particular. Una característica útil de UniHI es que permite una búsqueda altamente dirigida, mediante la cual el usuario puede excluir ciertos enfoques de mapeo, como Y2-H, mostrar solo proteínas que son compañeros de interacción comunes para múltiples proteínas en una consulta, mostrar solo interacciones que ocurren en varios mapas o muestran solo interacciones directas. [80]

GeneNetwork se compone de interacciones conocidas de BIND, HPRD, Reactome y KEGG. Similar a STRING y UniHI, GeneNetwork proporciona interacciones predichas basadas en procesos biológicos y anotaciones de funciones moleculares de la base de datos GO. Se incorporan datos experimentales adicionales, como datos de coexpresión de aproximadamente 450 micromatrices de la base de datos de micromatrices de Stanford y el Centro Nacional de Información Biotecnológica de Expresión Genética Omnibus. También se incluyen las interacciones Y-2H humanas e interacciones basadas en IBP ortólogos de alto rendimiento de eucariotas inferiores. Después de enviar una consulta para un gen determinado, se le devuelve al usuario una lista de interactores, cada uno de los cuales tiene una puntuación de probabilidad general, junto con puntuaciones de probabilidad para esa interacción basada en la coexpresión de microarrays, predicción de PPI humano y predicciones de PPI ortóloga. La evidencia positiva de interacciones conocidas de HPRD, BIND, KEGG y Reactome se indica en columnas adicionales. Un estudio reciente utilizó esta base de datos para clasificar a los mejores candidatos posicionales en loci de susceptibilidad sobre la base de sus interacciones utilizando un método que desarrollaron conocido como "Prioritizer". [81]

Un estudio reciente que examina las redes de PPI para los trastornos neurodegenerativos hereditarios humanos caracterizados por ataxia (es decir, pérdida de equilibrio o coordinación) ilustra cómo estas bases de datos se han utilizado para ayudarnos a comprender mejor los mecanismos patogénicos subyacentes a las enfermedades humanas. Lim et al., examinaron las redes de interacción de proteínas implicadas en la degeneración de las células de Purkinje del cerebelo, que es la causa principal de la pérdida de coordinación y equilibrio en las ataxias hereditarias. [82] Desarrollaron una red para 54 proteínas involucradas en 23 ataxias, primero mediante pantallas Y2-H y luego expandieron esta red basándose en información de interacciones conservadas evolutivamente y curadas por la literatura. Se agregaron PPI directos relevantes de las redes de interacción disponibles desarrolladas por Rual et al. y Stelzl et al., [83,84] y se identificaron interacciones binarias para los 54 cebos asociados con ataxia y 561 proteínas de presa que interactúan utilizando información basada en la literatura de BIND, HPRD, DIP, MINT y la base de datos de PPI de mamíferos. Además, se identificaron 1527 interlogs humanos potenciales (es decir, interacciones potencialmente conservadas evolutivamente) de más de una especie utilizando la base de datos InParanoid. Dado que el 68 y el 63% de las interacciones curadas por la literatura y entre registros se anotan en compartimentos GO similares, respectivamente, este grupo sugiere que estas interacciones identificadas son de calidad similar a las interacciones que identificaron en sus pantallas Y2-H. La red demostró que varias proteínas de ataxia interactúan y que existen vías y mecanismos compartidos en esta clase de enfermedades. Este estudio de Lim et al. Se espera que pueda proporcionar conocimientos adicionales sobre la función de las proteínas individuales y genes candidatos para otras enfermedades con fenotipos similares.

Estas son solo algunas de las bases de datos disponibles públicamente más ampliamente utilizadas que brindan información sobre los PPI. Ciertamente, cada uno tiene características únicas que permiten a los investigadores obtener acceso a grandes cantidades de información biológica útil que se puede aplicar ampliamente. En particular, creemos que esta información sería extremadamente útil cuando se aplicara a estudios de todo el genoma que tengan como objetivo detectar interacciones epistáticas o gen-gen. Existen muchos desafíos cuando se trata de detectar la epistasis, y proponemos que seremos capaces de utilizar esta abundancia de información no solo para mejorar la eficiencia computacional de los estudios de la epistasis en todo el genoma, sino también para facilitar la interpretación biológica de los resultados.


Abstracto

El BioGRID (Repositorio General Biológico para Conjuntos de Datos de Interacción, thebiogrid.org) es un recurso de base de datos de acceso abierto que alberga interacciones genéticas y de proteínas seleccionadas manualmente de múltiples especies, incluidas levaduras, gusanos, moscas, ratones y humanos. los

Se pueden usar 1,93 millones de interacciones seleccionadas en BioGRID para construir redes complejas que faciliten los descubrimientos biomédicos, particularmente en lo relacionado con la salud y las enfermedades humanas. Todo el contenido de BioGRID se selecciona a partir de evidencia experimental primaria en la literatura biomédica e incluye tanto estudios enfocados de bajo rendimiento como grandes conjuntos de datos de alto rendimiento. BioGRID también captura modificaciones postraduccionales de proteínas e interacciones de proteínas o genes con moléculas pequeñas bioactivas, incluidos muchos fármacos conocidos. Una herramienta de visualización de red incorporada combina todas las anotaciones y permite a los usuarios generar gráficos de red de interacciones proteicas, genéticas y químicas. Además de la curación general en todas las especies, BioGRID lleva a cabo proyectos de curación temáticos en aspectos específicos de la regulación celular, por ejemplo, el sistema ubiquitina-proteasoma, así como áreas específicas de enfermedades, como el virus SARS-CoV-2 que causa COVID-19. Síndrome respiratorio agudo severo. Una extensión reciente de BioGRID, denominada repositorio abierto de pantallas CRISPR (ORCS, orcs.thebiogrid.org), captura fenotipos mutantes únicos e interacciones genéticas de pantallas genéticas publicadas de alto rendimiento basadas en CRISPR / Cas9 en todo el genoma. BioGRID-ORCS contiene conjuntos de datos para más de 1.042 pantallas CRISPR realizadas hasta la fecha en líneas celulares de humanos, ratones y moscas. La comunidad de investigación biomédica puede acceder libremente a todos los datos de BioGRID a través de la interfaz web, descargas de archivos estandarizadas o mediante bases de datos de organismos modelo y meta-bases de datos de socios.


INTERACCIONES DERIVADAS DE LA LITERATURA

Los conjuntos de datos de HTP están cargados de interacciones falsas positivas y negativas (4, 5). Este déficit compromete tanto la predicción de la función de genes / proteínas como el análisis a nivel de red. La literatura primaria contiene una amplia colección de interacciones físicas y genéticas bien validadas que, aunque se pueden buscar publicación por publicación en PubMed, no están disponibles en una base de datos relacional. Un conjunto completo de interacciones derivadas de la literatura serviría como un estándar de oro tanto para los conjuntos de datos HTP como para los enfoques de minería de texto automatizada, aumentaría el poder predictivo de los datos HTP y permitiría un nuevo análisis de las propiedades de la red global. Estimulado por estas aplicaciones potenciales, varias bases de datos (6-11), así como el consorcio Gene Ontology (GO), están realizando esfuerzos significativos para conservar los datos de interacción de la literatura primaria (26). Recientemente hemos analizado manualmente todo S. cerevisiae literatura sobre interacciones genéticas y de proteínas [Reguly, T., Breitkreutz, A., Boucher, L., Breikreutz, B.-J., Hon, G., Myers, C., Parsons, A., Friesen, H., Oughtred, R., Tong, A. et al., enviado para publicación]. Este esfuerzo de curación integral produjo 19 744 interacciones de proteínas y 11 234 interacciones genéticas, todas las cuales se han incluido en BioGRID. Observamos que el tamaño de este conjunto de datos de literatura excede todos los conjuntos de datos de HTP combinados. BioGRID también contiene importaciones de 10 943 interacciones genéticas derivadas de la literatura de Flybase (27) y 30 761 interacciones derivadas de la literatura de HPRD (8). El número total de interacciones bibliográficas en BioGRID supera actualmente las 70 000 (Tabla 1). Además de S. cerevisiae literatura, tenemos esfuerzos de curación en curso para la levadura de fisión Schizosaccharomyces pombe, la mosca de la fruta Drosophila melanogaster y aspectos específicos de la literatura sobre interacciones de proteínas humanas, todos los cuales se depositarán en BioGRID.


CONTENIDO Y ACCESO A LOS DATOS

Desde nuestro informe 2011 de la base de datos NAR (12), el número de interacciones seleccionadas y acumuladas en BioGRID ha aumentado en un & gt30%. En septiembre de 2012 (versión 3.1.92), BioGRID contiene 527 569 interacciones genéticas y de proteínas, de las cuales 360 375 son interacciones no redundantes. Estas interacciones corresponden a 309 819 (209 354 no redundantes) interacciones de proteínas y 217 750 (157 849 no redundantes) interacciones genéticas (Tabla 1). Los datos se extrajeron directamente de 33 858 publicaciones revisadas por pares anotadas manualmente, que se identificaron del corpus de literatura biomédica mediante búsquedas de palabras clave, enfoques de minería de textos e inspección manual de resúmenes de candidatos. Todos los registros de interacción de BioGRID se asignan directamente a la evidencia experimental en la publicación de respaldo, según la clasificación de un conjunto estructurado de códigos de evidencia (12).

Aumento del contenido de datos de BioGRID desde la actualización de la base de datos NAR de 2011

Organismo. Escribe . Agosto de 2010 (3.0.67). Septiembre de 2012 (3.1.92).
. . Nodos. Bordes. Publicaciones. Nodos. Bordes. Publicaciones.
Arabidopsis thalianaPi 1735 4719 747 5915 16 476 1118
soldado americano 88 174 55 107 188 62
Caenorhabditis elegansPi 2813 4663 12 2927 5010 93
soldado americano 1030 2112 5 1109 2326 22
Drosophila melanogasterPi 7396 24 480 167 7998 35 843 314
soldado americano 982 9994 1466 1023 9934 1468
Homo sapiensPi 9467 48 368 10 203 14 896 123 436 17 134
soldado americano 479 463 178 1291 1609 237
Saccharomyces cerevisiaePi 5783 90 769 5444 6003 114 506 6601
soldado americano 5357 146 081 5606 5561 189 692 6686
Schizosaccharomyces pombePi 1441 4019 769 1773 6019 968
soldado americano 1340 11 527 953 1907 14 015 1158
Otros organismos TODOS 2288 2985 830 8435 15 978 2724
Total TODOS 30 665 347 966 23 451 44 515 527 569 33 858
Organismo. Escribe . Agosto de 2010 (3.0.67). Septiembre de 2012 (3.1.92).
. . Nodos. Bordes. Publicaciones. Nodos. Bordes. Publicaciones.
Arabidopsis thalianaPi 1735 4719 747 5915 16 476 1118
soldado americano 88 174 55 107 188 62
Caenorhabditis elegansPi 2813 4663 12 2927 5010 93
soldado americano 1030 2112 5 1109 2326 22
Drosophila melanogasterPi 7396 24 480 167 7998 35 843 314
soldado americano 982 9994 1466 1023 9934 1468
Homo sapiensPi 9467 48 368 10 203 14 896 123 436 17 134
soldado americano 479 463 178 1291 1609 237
Saccharomyces cerevisiaePi 5783 90 769 5444 6003 114 506 6601
soldado americano 5357 146 081 5606 5561 189 692 6686
Schizosaccharomyces pombePi 1441 4019 769 1773 6019 968
soldado americano 1340 11 527 953 1907 14 015 1158
Otros organismos TODOS 2288 2985 830 8435 15 978 2724
Total TODOS 30 665 347 966 23 451 44 515 527 569 33 858

Datos extraídos de la versión mensual 3.0.67 y 3.1.92 de BioGRID. Los nodos se refieren a genes o proteínas, los bordes se refieren a interacciones. PI, interacción de proteínas GI, interacción genética.

Aumento del contenido de datos de BioGRID desde la actualización de la base de datos NAR de 2011

Organismo. Escribe . Agosto de 2010 (3.0.67). Septiembre de 2012 (3.1.92).
. . Nodos. Bordes. Publicaciones. Nodos. Bordes. Publicaciones.
Arabidopsis thalianaPi 1735 4719 747 5915 16 476 1118
soldado americano 88 174 55 107 188 62
Caenorhabditis elegansPi 2813 4663 12 2927 5010 93
soldado americano 1030 2112 5 1109 2326 22
Drosophila melanogasterPi 7396 24 480 167 7998 35 843 314
soldado americano 982 9994 1466 1023 9934 1468
Homo sapiensPi 9467 48 368 10 203 14 896 123 436 17 134
soldado americano 479 463 178 1291 1609 237
Saccharomyces cerevisiaePi 5783 90 769 5444 6003 114 506 6601
soldado americano 5357 146 081 5606 5561 189 692 6686
Schizosaccharomyces pombePi 1441 4019 769 1773 6019 968
soldado americano 1340 11 527 953 1907 14 015 1158
Otros organismos TODOS 2288 2985 830 8435 15 978 2724
Total TODOS 30 665 347 966 23 451 44 515 527 569 33 858
Organismo. Escribe . Agosto de 2010 (3.0.67). Septiembre de 2012 (3.1.92).
. . Nodos. Bordes. Publicaciones. Nodos. Bordes. Publicaciones.
Arabidopsis thalianaPi 1735 4719 747 5915 16 476 1118
soldado americano 88 174 55 107 188 62
Caenorhabditis elegansPi 2813 4663 12 2927 5010 93
soldado americano 1030 2112 5 1109 2326 22
Drosophila melanogasterPi 7396 24 480 167 7998 35 843 314
soldado americano 982 9994 1466 1023 9934 1468
Homo sapiensPi 9467 48 368 10 203 14 896 123 436 17 134
soldado americano 479 463 178 1291 1609 237
Saccharomyces cerevisiaePi 5783 90 769 5444 6003 114 506 6601
soldado americano 5357 146 081 5606 5561 189 692 6686
Schizosaccharomyces pombePi 1441 4019 769 1773 6019 968
soldado americano 1340 11 527 953 1907 14 015 1158
Otros organismos TODOS 2288 2985 830 8435 15 978 2724
Total TODOS 30 665 347 966 23 451 44 515 527 569 33 858

Datos extraídos de la versión mensual 3.0.67 y 3.1.92 de BioGRID. Los nodos se refieren a genes o proteínas, los bordes se refieren a interacciones. PI, interacción de proteínas GI, interacción genética.

La curación de BioGRID se centra en los enfoques paralelos de curación orientada a organismos modelo y curación temática en biología y enfermedades humanas. Además de albergar datos de interacción seleccionados para más de 30 organismos, BioGRID ha logrado una anotación exhaustiva de la literatura sobre la levadura en gemación. Saccharomyces cerevisiae (304198 interacciones), la levadura de fisión Schizosaccharomyces pombe (20 034 interacciones) y la planta modelo Arabidopsis thaliana (16664 interacciones) (Tabla 1). Estos conjuntos de datos se actualizan mensualmente y están directamente vinculados desde los respectivos MOD, la base de datos del genoma de Saccharomyces (SGD) (13), PomBase (14) y el recurso de información de Arabidopsis (TAIR) (15).

La anotación manual completa de todos los datos de interacción humana documentados en la literatura biomédica sigue siendo una tarea abrumadora debido a la gran cantidad de publicaciones potencialmente relevantes, ahora muy por encima de los 12 millones de artículos en PubMed. Para permitir una comprensión significativa de las redes de interacción humana, hemos realizado una curación integral de las interacciones en áreas particulares de interés biomédico. Los proyectos enfocados actuales incluyen conductos de señalización central implicados en el desarrollo y la enfermedad, como el objetivo de la rapamicina (TOR), las redes Wnt y TGF-β, las redes centradas en la enfermedad en el cáncer de mama y el VIH, y procesos globales vitales como la modificación de la cromatina ( CM) (16) y sistemas de ubiquitina-proteasoma (UPS). Por ejemplo, la compleja red de modificaciones de la cromatina que controla la expresión génica está dictada por al menos 470 genes humanos anotados por el término del proceso Gene Ontology (GO) "remodelación de la cromatina" (16). Basándonos en búsquedas y minería de texto con este conjunto de genes, recientemente seleccionamos más de 15 000 publicaciones priorizadas para producir 57 141 interacciones de proteínas de 7561 artículos. En otro ejemplo de una función celular global, la conjugación de la pequeña proteína conservada ubiquitina a una miríada de sustratos controla la estabilidad, actividad y localización de la mayor parte del proteoma (17). Anotamos manualmente un conjunto de 1140 genes que median las funciones centrales del UPS, incluidas las enzimas E1, E2 y E3, las enzimas deubiquitinantes, las proteínas del dominio de unión a ubiquitina y las subunidades auxiliares y del núcleo del proteasoma. Actualmente, hemos seleccionado más de 5800 publicaciones que muestran evidencia de 48 679 interacciones (24 400 interacciones no redundantes) en el UPS. Estos y otros conjuntos de datos temáticos anticipados facilitarán la predicción de la función de genes individuales y el comportamiento de la red dentro de los principales sistemas reguladores celulares.


ESTRATEGIA DE CURACIÓN Y PROYECTOS ESPECÍFICOS

Toda la actividad de curaduría en BioGRID continúa siendo controlada por una base de datos interna dedicada llamada Interaction Management System (IMS), que se utiliza para administrar listas clasificadas de publicaciones para la curaduría de diferentes proyectos, para estandarizar todos los aspectos de la curaduría basados ​​en vocabularios controlados para experimentación. evidencia y nombres de genes, y para rastrear las contribuciones individuales de los curadores. BioGRID ahora contiene datos de interacción para 71 especies modelo diferentes, un aumento de cinco especies con respecto a la actualización anterior. Como BioGRID ahora mantiene el soporte de anotaciones para 350 especies, un aumento de más de 100 especies desde la actualización anterior, la base de datos está bien posicionada para incorporar rápidamente datos para nuevas especies adicionales a medida que surgen oportunidades.

BioGRID continúa manteniendo una cobertura completa de la literatura primaria para las principales levaduras modelo S. cerevisiae (ahora en 736 850 interacciones totales y 535 436 interacciones no redundantes) y S. pombe (ahora 72 172 interacciones totales y 58 711 interacciones no redundantes). Estos conjuntos de datos también se redistribuyen a través de SGD (19) y PomBase (25). También se lleva a cabo una curación exhaustiva de las interacciones de proteínas para la planta modelo. A. thaliana (28), ahora realizado en colaboración con la base de datos BAR (ver más abajo). La curación de otros organismos modelo se lleva a cabo junto con los respectivos MOD, pero no es completa debido a las limitaciones en la capacidad de curación.

Para maximizar el contenido de los datos y facilitar el acceso a conjuntos de datos de interacción a gran escala entre especies, BioGRID se esfuerza por seleccionar todas las publicaciones que contienen proteína HTP y datos de interacción genética. Por ejemplo, BioGRID anotó casi 13000 interacciones de proteínas de la envoltura celular de un estudio HTP sobre una red de interacción de proteínas basada en espectrometría de masas para E. coli (33). En otro ejemplo, 326790 interacciones genéticas binarias y 19 847 ternarias detectadas en S. cerevisiae por matriz genética sintética (SGA) se seleccionaron pantallas de dos publicaciones recientes (34, 35). Con respecto a los datos humanos, se han seleccionado 84 295 interacciones de proteínas desde la actualización anterior, incluidas 32 761 nuevas interacciones informadas en el conjunto de datos de BioPlex 2.0 basado en una tubería de espectrometría de masas de captura de afinidad (36). Otros tipos de datos de interacción de proteínas humanas a gran escala agregados a BioGRID incluyen interacciones 8744 generadas por el etiquetado / captura de proximidad de BioID seguido de identificación espectrométrica de masas, como se informa en 25 publicaciones. Las interacciones genéticas detectadas en líneas celulares humanas mediante pantallas CRISPR / Cas9 a gran escala también han sido seleccionadas por BioGRID (consulte la sección de pantallas CRISPR / Cas9 a continuación). Los curadores de BioGRID frecuentemente trabajan con los autores para la deposición y / o publicación de grandes conjuntos de datos antes de la publicación. Los registros de datos previos a la publicación se archivan y se pueden buscar por completo, pero se excluyen de las descargas de BioGRID hasta que se convierten en registros completos de BioGRID tras la publicación del conjunto de datos.

La literatura biomédica humana colosal y cada vez mayor, ahora en 18 millones de publicaciones depositadas en PubMed, presenta un callejón sin salida para el rendimiento limitado de los enfoques de curación manual. Este problema se ve agravado por el hecho de que solo una fracción de las publicaciones candidatas devueltas por las consultas de PubMed contienen datos de interacción validados experimentalmente, por lo que los curadores dedican un esfuerzo considerable a la inspección de publicaciones no relevantes (Figura 1). Este problema puede aliviarse en parte mediante el uso de enfoques de minería de textos para clasificar las publicaciones en función de la probabilidad de que contengan datos de interacción. Aunque los sistemas automatizados de extracción de información siguen siendo inferiores a la curación manual experta basada en métricas de precisión / recuperación (37, 38), los métodos de procesamiento del lenguaje natural (NLP) pueden aumentar el rendimiento de la anotación manual (39). BioGRID es un participante desde hace mucho tiempo en el consorcio BioCreative que tiene como objetivo desarrollar y comparar enfoques de minería de textos biomédicos (40). Desde la actualización anterior, BioGRID ha contribuido a la generación de conjuntos de referencia de alta calidad para anotar resúmenes de PubMed y artículos de texto completo (41) y para la extracción de interacciones de proteínas que son interrumpidas por mutaciones naturales o sintéticas (Doğan et al., en prensa).

Dado que la cobertura completa de la literatura no es factible, la estrategia de curación de BioGRID se centra en parte en la curación profunda de proyectos temáticos específicos sobre procesos biológicos críticos y / o enfermedades específicas. Un proyecto temático comienza con consultas de expertos y búsquedas de literatura en PubMed para definir un amplio conjunto de publicaciones candidatas. El conjunto de publicaciones se prioriza con un algoritmo que utiliza la PNL para extraer características sintácticas y el aprendizaje automático para clasificar los resúmenes según las características de orden superior (42). Luego, las publicaciones clasificadas se seleccionan y la lista de genes se amplía de forma recursiva en función de los conjuntos de datos de interacción. Dichos proyectos de curación temáticos sobre procesos biológicos incluyen inflamación, modificación de cromatina, autofagia, el sistema ubiquitina-proteasoma (UPS), la respuesta al daño del ADN (DDR), la señalización basada en fosforilación y reguladores de células madre. Los proyectos de curación temáticos centrados en enfermedades particulares incluyen enfermedades cardiovasculares e hipertensión, glioblastoma (GBM), Anemia de Fanconi (FA), diabetes y enfermedades infecciosas prevalentes, como la tuberculosis y el VIH.

Continuamos ampliando la cobertura en cada proyecto de curación temático actual. Por ejemplo, en el proyecto UPS hemos recopilado 596293 sitios (312296 no redundantes) de modificación de ubiquitina en ∼10 000 proteínas humanas y 44 074 sitios en ∼3600 proteínas de levadura, un aumento de más de 3,5 × para sitios humanos y 1,2 × para sitios de levadura en comparación con la actualización anterior de BioGRID. La mayoría de estos sitios se extraen de estudios de espectrometría de masas HTP que detectan la presencia de un remanente de ubiquitina GG en péptidos sustrato (43). También hemos seleccionado 76 304 interacciones adicionales asociadas con proteínas y enzimas del UPS. De manera similar, para los proyectos de autofagia y DDR, hemos agregado otras interacciones 1845 y 2710 respectivamente. Nuestro proyecto temático de enfermedad sobre GBM, una forma agresiva y en gran medida intratable de cáncer de cerebro con opciones de tratamiento limitadas (44), ha progresado en colaboración con expertos del equipo de células madre Stand Up to Cancer (SU2C) (consulte www.standup2cancer.ca). ). Un conjunto de 56 genes asociados a GBM que se sabe están mutados o con un número de copias alterado en muestras de tumores derivadas de pacientes (45, 46) ha producido una red curada de 12 200 interacciones de 3173 publicaciones hasta el momento. Las interacciones biológicas para todos los proyectos temáticos existentes se actualizan a través de la curación general de BioGRID y en campañas de curación dedicadas periódicas.

Recientemente se han llevado a cabo dos nuevos proyectos temáticos en colaboración con grupos apoyados por el Traductor de datos biomédicos (ver https://ncats.nih.gov/translator). En un proyecto, los curadores de BioGRID han capturado interacciones asociadas con la vía FA, que ayuda a mediar el DDR y está implicado en una variedad de cánceres humanos (47). En consulta con expertos en AF, los curadores de BioGRID reunieron una lista central de 53 genes DDR asociados con los 20 genes centrales conocidos de AF, originalmente definidos por grupos de complementación genética en pacientes humanos. Utilizando estas listas de genes como puntos de entrada, hemos seleccionado 12 960 interacciones de más de 2200 publicaciones. Un segundo nuevo proyecto temático asociado con el traductor de datos biomédicos se ha centrado en la diabetes de inicio en la madurez de los jóvenes (MODY), una enfermedad de herencia autosómica caracterizada por defectos genéticos en las células β pancreáticas que comprometen la producción de insulina (48). En la actualidad, 14 genes están ligados genéticamente a varios subtipos de MODY y se sabe que cuatro de estos genes (HNF1A, HNF4A, HNF1B y GCK) representan & gt90% de los casos de MODY (49). A partir de estos 14 puntos de entrada, se ha seleccionado una red MODY de 483 interacciones de proteínas de 149 publicaciones hasta la fecha. Los conjuntos de datos de interacción FA y MODY se utilizarán como entradas y puntos de referencia para los métodos computacionales predictivos que se están desarrollando a través de la iniciativa del Traductor de datos biomédicos.


Papel de las bases de datos de interacción proteína-proteína en la genética humana

Deseamos aprovechar los datos de interacción de proteínas para mejorar el análisis genético de enfermedades humanas comunes. Como hemos ilustrado, la información disponible para la comunidad científica en las bases de datos curadas de interacción de proteínas es abundante, y ciertamente creemos que los datos proteómicos serán un complemento útil para los datos genéticos y que existe una relación valiosa entre los dos. Podemos comenzar a analizar esta relación simplemente examinando si las interacciones epistáticas detectadas estadísticamente, como con MDR u otros métodos, también se encuentran a nivel de proteínas en las bases de datos de interacciones mencionadas anteriormente.

Para ilustrar esto, utilizamos una serie de bases de datos para consultar las interacciones de proteínas representadas por interacciones SNP significativas en tres estudios de asociación genética. Coutinho et al. used MDR to analyze seven candidate genes in the serotonin metabolic and neurotransmission pathways mapping autism linkage regions and reported a significant interaction between polymorphisms in the 5-hydroxytryptamine (serotonin) receptor 5A (HTR5A), integrin-β3 precursor (ITGB3), and sodium-dependent serotonin transporter (SLC6A4 p = 0.001). [85] Evidence for physical interactions between SLC6A4 and HTR5A was found for these genes in the STRING database when querying HTR5A and was based on evidence from text mining. When querying SLC6A4 or ITGB3 in STRING, evidence for interaction between these two genes was provided and was also based on information from text mining. Both interactions use this specific paper along with others as sources of evidence. Asselbergs et al. analyzed interactions in polymorphisms influencing levels of tissue plasminogen activator and plasminogen activator inhibitor 1, which influence the risk of arterial thrombosis. [86] Using a twoway analysis-of-variance statistical test, the investigators found significant interactions between a polymorphism in the bradykinin B2 gene (BDKRB2) and the angiotensin-converting enzyme (p = 0.003) on tissue plasminogen activator in females, and between polymorphisms in bradykinin B2 and angiotensin II type 1 receptor (AT1R/AGT1R) on tissue plasminogen activator in males (p = 0.006). This latter interaction was also significant for plasminogen activator inhibitor 1 levels in both males and females. Strong evidence for interaction for all three of these genes is seen when querying STRING (Figure 1) and is supported by both experimental, based on en vivo assays, and text-mining evidence. One or more of these interactions are found in the databases that STRING integrates, such as HPRD, BIND, Reactome, MINT, BioGrid, DIP and KEGG annotated pathways, and DIP. Another more recent study examined SNPs in topoisomerase 3-α, RECQ-mediated genome instability 1 protein (RMI1) and Bloom syndrome protein (BLM) and their association with cancer risk in acute myeloid leukemia/myelodysplatic syndromes, malignant melanoma, breast cancer and bladder cancer. Since mutations in BLM are known to be associated with elevated cancer risk, it was reasoned that genetic variants of BLM and the proteins that complex with it might play a role in influencing the risk for different cancers. It was determined that variant interactions in topoisomerase 3-α and BLM showed increased risk in all four cancers. While this study did not show statistical evidence of interaction with RMI1, it was shown to confer increased risk of acute myeloid leukemia/myelodysplatic syndromes and malignant melanoma. [87] STRING showed that all three of these proteins interacted according to both text mining and experimental evidence based on co-immunoprecipitation, molecular sieving and fluorescence-imaging assays. While this provides stronger evidence that PPI databases can be useful as expert knowledge, we need to find a logical way to incorporate this information into the analysis process.

Protein-interaction network as displayed in Search Tool for the Retrieval of Interacting Genes/Proteins (STRING) when querying ACE. Interactions between angiotensin-converting enzyme, BDKRB2 and AGTR1, are shown. Evidence for these interactions is derived from both experimental evidence (purple lines) and text-mining evidence (green lines).
ACE: Angiotensin-converting enzyme AGTR1: Angiotensin II type I receptor BDKRB2: Bradykinin B2 gene.

Similar to the approaches developed by Emily et al. (2009), one possible method would be to identify all of the genes associated with the SNPs in a dataset for whose protein products have evidence of direct interaction with each other and filter that dataset accordingly. Filtering based on the direct interactions may prove to be a simple solution, but doing so may ignore potentially important biological information. Interactions do not have to be direct, and it may be beneficial to include the SNPs and genes to a certain level according to their indirect interactions, in other words, by taking a more pathway-based approach, as did Shriner et al. (2008) and Askland et al. (2009). Another option would be to utilize or develop a confidence score for present interactions based on information available from a PPI database or even multiple databases. As mentioned, MINT, BIND, STRING, UniHI and GeneNetwork all provide a confidence score for interactions based on information such as the type of experiment conducted to detect that interaction and the supporting literature for that interaction. Specific metrics could be developed that would allow all SNPs or genes to be prioritized or weighted based on biological information on their interactions or allow investigators to filter SNPs or genes based on a determined interaction confidence threshold.

If one were to take any of these approaches, it would appear that the vital information to extract from these databases would be the direct and indirect interaction partners found in the dataset (to a certain level) as well as the evidence or confidence score to support those interactions. While this also seems to be a rather simple approach, one needs to consider that the number of databases available that could provide this information is abundant and that this information may not be consistent between databases. For example, Mathivanan et al. thoroughly reviewed the features of a number of databases, including MINT, BIND, HPRD, DIP and Reactome, and concluded that while there may be good overlap at the protein level between these databases, the level of overlap between PPIs is not as great. [73] They also find that for PPIs that do overlap between databases, there exists a difference in annotation, partly on account of differences that arise according to how biologists interpret the experimental results. This presents an obstacle when attempting to apply this expert knowledge from multiple databases and may lead to the exclusion of important interactions or the inclusion of noninfluential interactions in a dataset. Considering this, it may be beneficial to use an integrated database, such as STRING, UniHI or GeneNetwork, which have, in their own respective ways, brought together the various information in a number of databases.


Fondo

The mitochondrion is an essential organelle in eukaryotic cells that plays important roles in a variety of important processes such as apoptosis, signal transduction and cell cycle [1]. Mitochondrial dysfunction is linked to many common diseases including heart disease, diabetes, Parkinson disease and dementia. To understand the mechanism underlying the biological functions and diseases associated with the mitochondria, it is important to determine protein-protein interactions (PPIs) that facilitate mitochondrial functions.

The extensive use of experimental approaches including 2D gel electrophoresis and mass spectrometry, has led to the construction of many databases for mitochondrial proteomics, such as MitoCarta [2], MitoProteome [3], MitoP2 [4] and HMPDb [5]. Increasing interest in mitochondrial proteomics is promoting studies on PPIs of mitochondria at a systems level. By unraveling the interplays between mitochondrial proteins and mitochondrial/non-mitochondrial proteins, the entire interaction map that contributes to mitochondrial functions will be revealed.

Although several PPI databases have been distributed, such as HPRD [6], BioGRID [7], IntAct [8] and DIP [9], there are very few PPI databases that are designed specifically for mitochondria. MitoInteractome [10] is a representative interaction database for mitochondria. However, this database only contains interactions between mitochondrial proteins which are predicted based on structural and homologous information. None of the interactions between mitochondrial proteins and non-mitochondrial proteins have been included. These types of interactions are very important for characterizing the mechanisms of mitochondrial function because they contain information about how the mitochondrion communicates with the intracellular environment. Therefore, it is necessary to construct a database covering the entire PPI map that characterizes the global mitochondrial functions.

Here, we have developed a database termed InterMitoBase, which covers the biological pathways mediated by mitochondrial proteins and the PPIs between mitochondrial and mitochondrial/non-mitochondrial proteins. The interactions in InterMitoBase are integrated from a wide range of resources including PubMed, KEGG [11], HPRD, BioGRID, IntAct and DIP, all of which are well annotated according to the information collected from their original sources GenBank and GO. InterMitoBase features as a user-friendly graphic visualization tool and provides functional and topological analysis of PPI networks that should facilitate an understanding of the underlying biological properties. As an analysis platform and a PPI database for human mitochondria, InterMitoBase should significantly aid researchers aiming to develop a comprehensive and deep understanding of complex mitochondrial functions.


Métodos

Protein and PPI datasets

The UniProtKB/Swiss-Prot manually reviewed human “complete” proteome

From UniProtKB, the knowledgebase of the Universal Protein (UniProt) resource [24], we downloaded the tab-delimited files of: (a) the entire set of human UniProt identifiers, and (b) the manually reviewed human “complete” proteome. The latter contained 20,242 UniProt identifiers in the Dec 14 2011 release of UniProtKB downloaded on Jan 23 2012. The two tab-delimited files included all default columns augmented by the cross-references with the EMBL nucleotide, the NCBI nucleotide and the Entrez Gene databases. The text file indicating the correspondence of the secondary to the respective primary UniProt identifier(s) was downloaded too.

The Human Protein Reference Database (HPRD)

HPRD is a manually curated reference database for human protein information [25]. In this study, we used only its binary PPI dataset, which is provided in the form of interactions between HPRD identifiers. From the total 19651 HPRD identifiers in the HPRD version 9, downloaded on Jan 23 2012, 9673 were involved in at least one of the 39204 PPIs reported as binary interactions. Only the primary one-to-one correspondence of the HPRD identifiers to nucleotide sequence identifiers was considered. Any necessary updating or conversion of the nucleotide sequence identifiers to other molecular levels of biological information (i.e. gene or protein level) was carried out through cross-reference with current versions of the relevant databases.

IntAct

IntAct, a main partner of the International Molecular Exchange (IMEx) Consortium [10], is a repository of molecular interaction data for multiple organisms [26]. In the single file supplied by IntAct for external use, including interaction information from all species, PPIs are provided mainly at the UniProt protein identifier level. From the Jan 3, 2012 release downloaded on Jan 30, 2012, only the non - “spoke” PPIs between two human protein identifiers were retained, as the label “spoke” characterizes the PPIs originated from protein complex expansion.

The Molecular INTeraction database (MINT)

Similarly to IntAct, MINT [27] is a repository of literature-curated PPIs from multiple organisms and an IMEx consortium partner with PPI information provided mainly at the UniProt protein identifier level. The binary PPI file for human used in the present study was downloaded on Jan 30, 2012 (release date: Dec 8, 2011).

Database of Interacting Proteins (DIP)

DIP [28] is also a collection of experimentally supported protein interactions from multiple organisms and among the first partners of the IMEx consortium. In the downloaded on Jan 30, 2012 PPI file for human (release date: Oct 27 2011), PPIs are provided as interactions between DIP identifiers. The latter are corresponded mainly to UniProt protein identifier(s) and most to NCBI nucleotide RefSeq identifier(s), too.

The Biological General Repository for Interaction Datasets (BioGRID)

BioGRID [29] is the most recently initiated among the five source PPI databases used in this study, currently participating in the IMEx consortium as an affiliate member. The PPI file for human was downloaded from the BioGRID web site on Jan 30, 2012 (release 3.1.84 tab2 file). PPIs are provided as interactions between BioGRID identifiers, which are in one to one correspondence to Entrez Gene identifiers (GeneID). BioGRID provides extensive information about the experimental method and the nature, i.e. low- or high- throughput, of the experimental set-up used for any PPI detection however, it does neither make a distinction between binary interaction and protein complex data nor provide a relevant filtering criterion. To avoid including PPI data expanded from protein complexes, we opted to keep (a) all physical associations identified in low-throughput setups and (b) from the physical associations detected only in high-throughput experiments, those derived from any of “protein complementation assay (PCA)”, “reconstituted complex”, “protein-peptide”, “FRET”, “two-hybrid” or “co-crystal structure” methods. Genetic interactions provided in BioGRID were de facto filtered out.

PPI data mining

Direct PPIs with both interactors belonging to the set of the 20,242 primary UniProt identifiers included in the manually reviewed human “complete” proteome were mined from: (a) the binary PPI dataset of HPRD, (b) all PPIs of IntAct not characterized with the term “spoke” in the “expansion” field, (c) the binary PPI dataset of MINT, (d) the DIP dataset, which is provided as containing only binary manually reviewed PPIs, and (e) all physical associations in BioGRID detected in at least one low-throughput experiment or by any of the detection methods mentioned above, if identified only in high-throughput setups.

Protein identifier normalization

Normalization of the protein identifiers to the UniProt identifier level was required for: (a) HPRD, since it reports the interactors at the nucleotide sequence level, (b) BioGRID, which reports the interactors at the gene level and (c) few cases of IntAct, MINT and DIP, for which other than the default UniProt identifier has been used.

Source PPI dataset uploading

To upload, store and handle the five PPI datasets and integrate them into the final reconstructed PPI network, the Microsoft SQL Server (MSSQL) 2008 Developer Edition platform equipped with SQL Server Integration Services (SSIS) was used under the University of Patras academic license. The source PPI dataset uploading was organized in a set of SSIS modules executed at the server side. Each module involves a series of subtasks for the filtering and updating of certain data from the source PPI dataset, along with a large number of checks to monitor and handle exceptions, avoiding thus the contamination of the final database with erroneous or ill-formatted data. Additional file 1 shows the workflow for the IntAct uploading sub-module.

The first subtask of the filtering and updating algorithm involves the extraction of the interactions between human protein identifiers. In sequence, the main interactor identifiers are retained for each PPI. For IntAct, MINT and DIP, the interactors are expected to be represented by a UniProtKB accession number. If the relevant format is not recovered from the algorithm for any of the two interactors, then the non-UniProt interactor identifier is compared against a maintained interactor identifier dictionary. If matched to a dictionary entry and identified as active, the non-UniProt interactor identifier is replaced by the corresponding primary UniProt identifier. If it has become obsolete or cannot be assigned to a UniProtKB accession number, it is removed from the finally uploaded dataset along with all associated PPIs. If active, all isoform UniProt protein identifiers are replaced by their primary UniProt identifier(s). Any remaining non-UniProt interactor identifiers are stored in a separate table, for the curator to appropriately update the interactor identifier dictionary, so that the “patching” process is completed in a second iteration. In HPRD, the interactor identifier dictionary is used to update the nucleotide sequence identifiers to their currently active entries. Notably, among the 9673 HPRD identifiers involved in PPIs, 119 were identified to correspond to obsolete nucleotide sequence identifiers, 4 corresponded to non protein-coding RNAs, while 16 were replaced by new nucleotide sequence identifiers due to this updating, in three cases, two HPRD identifiers were assigned to the same nucleotide sequence identifier. In BioGRID, all interactors were identified by an active Entrez GeneID, thus no updating was necessary. For the PPIs remaining after the interactor identifier patching step, the algorithm inspects the identifier of the supporting publication(s). If no publication is provided, the PPI is removed from the uploaded dataset. If a non-PubMed publication identifier is provided, this is patched based on an in-memory maintained dictionary as described for the interactor identifiers in the previous step. The utilized interactor identifier dictionary was created based on information recovered from the online UniProt converter and the online versions of all relevant databases on February 2, 2012. The Digital Object Identifier (DOI) numbers and IMEx reference identifiers were assigned to their PubMed publication identifiers based on an online converter and the online version of MINT, respectively. After uploading IntAct, MINT and DIP, their PPI data were further processed based on information from UniProtKB to include only interactions between two active primary UniProt identifiers in the human manually reviewed “complete” proteome.

Gene functional classification analysis

Gene functional classification analysis was carried out using the DAVID Bioinformatics Resources version 6.7 [31, 32] by combining all available gene annotation categorizations.

Identification of network characteristics

The identification of the reconstructed PPI network characteristics was carried out using the relevant “Network Analysis” tool of the open source network visualization and analysis software Cytoscape - version 2.8 [33].


Referencias

Fields S, Song O: A novel genetic system to detect protein-protein interactions. Naturaleza. 1989, 340: 245-246. 10.1038/340245a0.

Rigaut G, Shevchenko A, Rutz B, et al: A generic protein purification method for protein complex characterization and proteome exploration. Nat Biotech. 1999, 17: 1030-1032. 10.1038/13732.

Gavin AC, Aloy P, Grandi P, et al: Proteome survey reveals modularity of the yeast cell machinery. Naturaleza. 2006, 440: 631-636. 10.1038/nature04532.

Bouwmeester T, Bauch A, Ruffner H, et al: A physical and functional map of the human TNF-alpha/NF-kappa B signal transduction pathway. Nat Cell Biol. 2004, 6: 97-105. 10.1038/ncb1086.

Gavin AC, Bosche M, Krause R, et al: Functional organization of the yeast proteome by systematic analysis of protein complexes. Naturaleza. 2002, 415: 141-147. 10.1038/415141a.

Berggård T, Linse S, James P: Methods for the detection and analysis of protein-protein interactions. Proteómica. 2007, 7: 2833-2842. 10.1002/pmic.200700131.

Phizicky EM, Fields S: Protein-protein interactions: Methods for detection and analysis. Microbiol Rev. 1995, 59: 94-123.

Shoemaker BA, Panchenko AR: Deciphering protein-protein interactions. Parte I. Técnicas experimentales y bases de datos. PLoS Comput Biol. 2007, 3: e42-10.1371/journal.pcbi.0030042.

Suderman M, Hallett M: Tools for visually exploring biological networks. Bioinformática. 2007, 23: 2651-2659. 10.1093/bioinformatics/btm401.

Cline MS, Smoot M, Cerami E, et al: Integration of biologi-cal networks and gene expression data using Cytoscape. Nat Protocols. 2007, 2: 2366-2382. 10.1038/nprot.2007.324.

Albert R, Barabasi AL: Statistical mechanics of complex networks. Rev Mod Phys. 2002, 74: 47-97. 10.1103/RevModPhys.74.47.

Futschik ME, Chaurasia G, Herzel H: Comparison of human protein protein interaction maps. Bioinformática. 2007, 23: 605-611. 10.1093/bioinformatics/btl683.

Huber W, Carey V, Long L, et al: Graphs in molecular biology. BMC Bioinformática. 2007, 8: S8-

Sharan R, Ulitsky I, Shamir R: Network-based prediction of protein function. Mol Syst Biol. 2007, 3: 88-

von Mering C, Krause R, Snel B, et al: Comparative assessment of large-scale data sets of protein-protein interactions. Naturaleza. 2002, 417: 399-403.

Schwikowski B, Uetz P, Fields S: A network of protein-protein interactions in yeast. Nat Biotechnol. 2000, 18: 1257-1261. 10.1038/82360.

Kerrien S, Orchard S, Montecchi-Palazzi L, et al: Broadening the horizon - Level 2.5 of the HUPO-PSI format for molecular interactions. BMC Biol. 2007, 5: 44-10.1186/1741-7007-5-44.

Stark C, Breitkreutz BJ, Reguly T, et al: BioGRID: A general repository for interaction datasets. Nucl Acids Res. 2006, 34: D535-D539. 10.1093/nar/gkj109.

Zanzoni A, Montecchi-Palazzi L, Quondam M, et al: MINT: A Molecular INTeraction database. FEBS Lett. 2002, 513: 135-140. 10.1016/S0014-5793(01)03293-8.

Bader GD, Donaldson I, Wolting C, et al: BIND - The Biomolecular Interaction Network Database. Nucl Acids Res. 2001, 29: 242-245. 10.1093/nar/29.1.242.

Xenarios I, Rice DW, Salwinski L, et al: DIP: The Database of Interacting Proteins. Nucl Acids Res. 2000, 28: 289-291. 10.1093/nar/28.1.289.

Hermjakob H, Montecchi-Palazzi L, Lewington C, et al: IntAct: An open source molecular interaction database. Nucl Acids Res. 2004, 32: D452-D455. 10.1093/nar/gkh052.

Peri S, Navarro JD, Amanchy R, et al: Development of human protein reference database as an initial platform for approaching systems biology in humans. Genome Res. 2003, 13: 2363-2371. 10.1101/gr.1680803.

Cusick ME, Hu H, Smolyar A, et al: Literature-curated protein interaction datasets. Nat Meth. 2009, 6: 39-46. 10.1038/nmeth.1284.

Giot L, Bader JS, Brouwer C, et al: A protein interaction map of Drosophila melanogaster, Science. 2003, 302: 1727-1736.

Rual J-F, Venkatesan K, Hao T, et al: Towards a proteome-scale map of the human protein-protein interaction network. Naturaleza. 2005, 437: 1173-1178. 10.1038/nature04209.

John PM, Russell SL, Asa BH, et al: Large-scale identification of yeast integral membrane protein interactions. Proc Natl Acad Sci USA. 2005, 102: 12123-12128. 10.1073/pnas.0505482102.

Formstecher E, Aresta S, Collura V, et al: Protein interaction mapping: A Drosophila case study. Genome Res. 2005, 15: 376-384. 10.1101/gr.2659105.

The UniProt C: The Universal Protein Resource (UniProt). Nucl Acids Res. 2008, 36: D190-D195. 10.1093/nar/gkn141.

Prieto C, De Las Rivas J: APID: Agile Protein Interaction Data Analyzer. Nucl Acids Res. 2006, 34: W298-W302. 10.1093/nar/gkl128.

Ashburner M, Ball CA, Blake JA, et al: Gene ontology: Tool for the unification of biology. El Consorcio de Ontología Genética. Nat Genet. 2000, 25: 25-29. 10.1038/75556.

Finn RD, Tate J, Mistry J, et al: The Pfam protein families database. Nucl Acids Res. 2008, 36: D281-D288. 10.1093/nar/gkn226.

Chaurasia G, Iqbal Y, Hanig C, et al: UniHI: An entry gate to the human protein interactome. Nucl Acids Res. 2007, 35: D590-D594. 10.1093/nar/gkl817.

Jensen LJ, Kuhn M, Stark M, et al: STRING 8 - A global view on proteins and their functional interactions in 630 organisms. Nucl Acids Res. 2009, 37: D412-D416. 10.1093/nar/gkn760.

Bader GD, Cary MP, Sander C: Pathguide: A pathway resource list. Nucl Acids Res. 2006, 34: D504-D506. 10.1093/nar/gkj126.