Información

¿Qué técnicas analíticas podrías usar para investigar las relaciones entre 2 proteínas?

¿Qué técnicas analíticas podrías usar para investigar las relaciones entre 2 proteínas?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Se sabe que dos de las proteínas que estoy investigando interactúan. Sin embargo, me gustaría saber si también interactúan con otras proteínas y posiblemente forman una vía. ¿Qué técnica (s) analítica (s) debo utilizar para determinar esto si hice todo en silico análisis ya? Cualquier sugerencia es bienvenida.

Estoy usando un nematodo C. elegans en mi investigación, y RNAi no es una opción, ya que ya lo he realizado.


Hay muchos métodos para usar. Aquí hay una descripción general y antecedentes de algunos métodos comunes escritos por ThermoFisher:

https://www.thermofisher.com/se/en/home/life-science/protein-biology/protein-biology-learning-center/protein-biology-resource-library/pierce-protein-methods/overview-protein- análisis-de-interacción-de-proteínas.html

También hay visualización de fagos si desea encontrar socios de unión, que es un método muy interesante para reducir los socios de unión de un interactoma completo. Es fácil de configurar en un laboratorio y puede realizarlo todo en una placa de 96 pocillos usando ELISA y varias rondas de selección de fagos. Y, por supuesto, también hay, por ejemplo, levadura-2-híbrido (Y2H) o co-inmunoprecipitación (Co-IP).


¿Qué técnicas analíticas podrías usar para investigar las relaciones entre 2 proteínas? - biología

A pesar de los esfuerzos realizados durante el último medio siglo, todavía se necesitan métodos y datos armonizados internacionalmente. De hecho, como se describe en el Capítulo 1, el desarrollo de nuevos métodos para analizar componentes específicos de los macronutrientes que producen energía ha aumentado la complejidad y ha hecho que esta necesidad sea mayor que nunca.

Este capítulo discute los métodos analíticos comúnmente usados ​​para proteínas, grasas y carbohidratos, y hace recomendaciones con respecto a los métodos preferidos para el estado actual de la técnica y la tecnología disponible. También se indican los métodos que siguen siendo aceptables cuando no se pueden utilizar los métodos preferidos. Los métodos analíticos para el alcohol, que puede ser una fuente importante de energía en algunas dietas, los polioles y los ácidos orgánicos no se discutieron y, por lo tanto, no se hicieron recomendaciones sobre los métodos.

2.1 MÉTODOS ANALÍTICOS PARA LAS PROTEÍNAS EN LOS ALIMENTOS

Durante muchos años, el contenido de proteínas de los alimentos se ha determinado sobre la base del contenido de nitrógeno total, mientras que el método Kjeldahl (o similar) se ha aplicado casi universalmente para determinar el contenido de nitrógeno (AOAC, 2000). Luego, el contenido de nitrógeno se multiplica por un factor para llegar al contenido de proteínas. Este enfoque se basa en dos supuestos: que los carbohidratos y las grasas de la dieta no contienen nitrógeno, y que casi todo el nitrógeno de la dieta está presente como aminoácidos en las proteínas. Sobre la base de las primeras determinaciones, se encontró que el contenido medio de nitrógeno (N) de las proteínas era de aproximadamente el 16 por ciento, lo que llevó al uso del cálculo N x 6,25 (1 / 0,16 = 6,25) para convertir el contenido de nitrógeno en contenido de proteínas.

Este uso de un solo factor, 6.25, se ve confundido por dos consideraciones. En primer lugar, no todo el nitrógeno de los alimentos se encuentra en las proteínas: también está contenido en cantidades variables de otros compuestos, como aminoácidos libres, nucleótidos, creatina y colina, donde se lo conoce como nitrógeno no proteico (NPN). Solo una pequeña parte de NPN está disponible para la síntesis de aminoácidos (no esenciales). En segundo lugar, el contenido de nitrógeno de aminoácidos específicos (como porcentaje del peso) varía según el peso molecular del aminoácido y el número de átomos de nitrógeno que contiene (de uno a cuatro, según el aminoácido en cuestión). Con base en estos hechos, y las diferentes composiciones de aminoácidos de varias proteínas, el contenido de nitrógeno de las proteínas en realidad varía entre un 13 y un 19 por ciento. Esto equivaldría a factores de conversión de nitrógeno que oscilan entre 5,26 (1 / 0,19) y 7,69 (1 / 0,13).

En respuesta a estas consideraciones, Jones (1941) sugirió que se abandonara N x 6.25 y se reemplazara por N x, un factor específico para el alimento en cuestión. Estos factores específicos, ahora denominados & # 147 Jones factores & # 148, han sido ampliamente adoptados. Los factores de Jones para los alimentos que se consumen con mayor frecuencia oscilan entre 5,18 (nueces, semillas) y 6,38 (leche). Sin embargo, resulta que la mayoría de los alimentos con una alta proporción de nitrógeno como NPN contienen cantidades relativamente pequeñas de N total (Merrill y Watt, 1955 y 1973). [4] Como resultado, el rango de factores de Jones para las principales fuentes de proteína en la dieta es más estrecho. Los factores de Jones para las proteínas animales como la carne, la leche y los huevos se encuentran entre 6,25 y 6,38, los de las proteínas vegetales que aportan cantidades sustanciales de proteína en las dietas a base de cereales / legumbres se encuentran generalmente en el rango de 5,7 a 6,25. El uso del factor de gama alta (6,38) en relación con 6,25 aumenta el contenido aparente de proteína en un 2 por ciento. El uso de un factor específico de 5.7 (Sosulski e Imafidon, 1990) en lugar del factor general de 6.25 disminuye el contenido aparente de proteína en un 9 por ciento para alimentos específicos. En términos prácticos, el rango de diferencias entre el factor general de 6.25 y los factores de Jones es más estrecho de lo que parece a primera vista (alrededor del 1 por ciento), especialmente para las dietas mixtas. La tabla 2.1 da ejemplos de los factores de Jones para una selección de alimentos.

Debido a que las proteínas están formadas por cadenas de aminoácidos unidas por enlaces peptídicos, pueden hidrolizarse a los aminoácidos que las componen, que luego pueden medirse mediante cromatografía de intercambio iónico, gas-líquido o líquida de alta resolución. La suma de los aminoácidos representa el contenido de proteínas (en peso) del alimento. Esto a veces se denomina & # 147proteína verdadera & # 148. La ventaja de este enfoque es que no requiere suposiciones ni conocimientos sobre el contenido de NPN del alimento o las proporciones relativas de aminoácidos específicos, eliminando así los dos problemas con el uso de N total x un factor de conversión. Su desventaja es que requiere un equipo más sofisticado que el método Kjeldahl y, por lo tanto, puede estar más allá de la capacidad de muchos laboratorios, especialmente aquellos que solo realizan análisis intermitentes. Además, la experiencia con el método es importante, algunos aminoácidos (por ejemplo, los aminoácidos que contienen azufre y el triptófano) son más difíciles de determinar que otros. A pesar de las complejidades del análisis de aminoácidos, en general ha habido un acuerdo razonablemente bueno entre laboratorios y métodos (King-Brink y Sebranek, 1993).

TABLA 2.1
Factores específicos (Jones) para la conversión del contenido de nitrógeno en contenido de proteínas (alimentos seleccionados)

Fuente: Adaptado y modificado de Merrill y Watt (1973).

  • alimentos utilizados como única fuente de nutrición, como la fórmula infantil
  • alimentos / fórmulas diseñadas específicamente para condiciones dietéticas especiales
  • nuevos alimentos.

2.2 MÉTODOS ANALÍTICOS PARA LAS GRASAS EN LOS ALIMENTOS

Quizás haya más acuerdo sobre los métodos estandarizados de análisis de grasas que de proteínas y carbohidratos. La mayor parte de la grasa de la dieta se encuentra en forma de triglicéridos (tres ácidos grasos esterificados en una estructura de molécula de glicerol). También hay componentes que no son glicéridos como esteroles, p. Ej. colesterol. Si bien existe un interés considerable en las funciones que estos componentes no glicéridos pueden desempeñar en el metabolismo, no son fuentes importantes de energía en la dieta (FAO, 1994).

Existen métodos gravimétricos de la AOAC aceptados para la grasa cruda, que incluye fosfolípidos y ésteres de cera, así como cantidades menores de material no graso (AOAC, 2000). La grasa total se puede expresar como equivalentes de triglicéridos determinados como la suma de ácidos grasos individuales y expresados ​​como triglicéridos (FAO, 1994). Este método es satisfactorio para la determinación de grasas en una amplia variedad de alimentos.

1) Con fines energéticos, se recomienda que las grasas se analicen como ácidos grasos y se expresen como equivalentes de triglicéridos, ya que este enfoque excluye las ceras y el contenido de fosfato de los fosfolípidos, ninguno de los cuales puede usarse para generar energía (James, Body y Smith, 1986 ).

2) Un método gravimétrico, aunque menos deseable, es aceptable para fines de evaluación energética (AOAC, 2000).

2.3 MÉTODOS ANALÍTICOS PARA LOS CARBOHIDRATOS EN LOS ALIMENTOS

La FAO / OMS celebró una consulta de expertos sobre carbohidratos en 1997. El informe de esta reunión (FAO, 1998) presenta una descripción detallada de los diversos tipos de carbohidratos y una revisión de los métodos utilizados para el análisis, que se resume conceptualmente en los siguientes párrafos. Otras recomendaciones de la consulta de 1997, p. Ej. la nomenclatura de los carbohidratos, fueron considerados por los participantes del actual taller técnico.

Durante muchos años, el contenido total de carbohidratos de los alimentos se ha calculado por diferencia, en lugar de analizarse directamente. Según este enfoque, los demás componentes del alimento (proteínas, grasas, agua, alcohol, cenizas) se determinan individualmente, se suman y se restan del peso total del alimento. Esto se conoce como carbohidratos totales por diferencia y se calcula mediante la siguiente fórmula:

100 - (peso en gramos [proteína + grasa + agua + ceniza + alcohol] en 100 g de comida)

Debe quedar claro que los carbohidratos estimados de esta manera incluyen fibra, así como algunos componentes que no son carbohidratos estrictamente hablando, p. Ej. ácidos orgánicos (Merrill y Watt, 1973). Los carbohidratos totales también se pueden calcular a partir de la suma de los pesos de los carbohidratos individuales y la fibra después de que cada uno se haya analizado directamente.

Los carbohidratos disponibles representan la fracción de carbohidratos que pueden ser digeridos por las enzimas humanas, se absorben y entran en el metabolismo intermedio. (No incluye fibra dietética, que puede ser una fuente de energía solo después de la fermentación; consulte las siguientes subsecciones). Se puede llegar a los carbohidratos disponibles de dos maneras diferentes: se pueden estimar por diferencia o analizar directamente. [6] Para calcular los carbohidratos disponibles por diferencia, la cantidad de fibra dietética se analiza y se resta del carbohidrato total, así:

100 - (peso en gramos [proteína + grasa + agua + ceniza + alcohol + fibra dietética] en 100 g de comida)

Esto produce el peso estimado de carbohidratos disponibles, pero no da ninguna indicación de la composición de los diversos sacáridos que comprenden carbohidratos disponibles. Alternativamente, los carbohidratos disponibles se pueden derivar sumando los pesos analizados de los carbohidratos disponibles individuales. En cualquier caso, los carbohidratos disponibles se pueden expresar como el peso del carbohidrato o como equivalentes de monosacáridos. Para obtener un resumen de todos estos métodos, consulte la Tabla 2.2.

La fibra dietética es un concepto fisiológico y nutricional relacionado con los componentes carbohidratos de los alimentos que no se digieren en el intestino delgado. La fibra dietética pasa sin digerir del intestino delgado al colon, donde puede ser fermentada por bacterias (la microflora), y el resultado final son cantidades variables de ácidos grasos de cadena corta y varios gases como dióxido de carbono, hidrógeno y metano. Los ácidos grasos de cadena corta son una importante fuente directa de energía para la mucosa colónica; también se absorben y entran en un metabolismo intermedio (Cummings, 1981).

TABLA 2.2
Carbohidrato total y disponible

Por diferencia: 100 - (peso en gramos [proteína + grasa + agua + ceniza + alcohol] en 100 g de comida)
Por análisis directo: peso en gramos (mono- + disacáridos + oligsacáridos + polisacáridos, incluida la fibra)

Por diferencia: 100 - (peso en gramos [proteína + grasa + agua + ceniza + alcohol + fibra] en 100 g de comida)
Por análisis directo: peso en gramos (mono- + disacáridos + oligosacáridos + polisacáridos, excluida la fibra) *

* Puede expresarse en peso (forma anhidra) o como equivalentes de monosacáridos (forma hidratada, incluida el agua).

Químicamente, la fibra dietética puede comprender: celulosa, hemicelulosa, lignina y pectinas de las paredes de las células, almidón resistente y varios otros compuestos (ver Figura 2.1). A medida que se ha aprendido más sobre la fibra, se han desarrollado una variedad de métodos de análisis. Muchos de estos miden diferentes componentes de la fibra y, por lo tanto, producen diferentes definiciones y valores de la misma. Tres métodos han tenido suficientes pruebas colaborativas para ser generalmente aceptados por organismos como AOAC International y el Bureau Communautaire de Reference (BCR) de la Comunidad Europea (CE) (FAO, 1998): el método enzimático gravimétrico AOAC (2000) - Prosky (985.29) el método químico enzimático de Englyst y Cummings (1988) y el método químico enzimático de Theander y Aman (1982). Monro y Burlingame (1996) han señalado, sin embargo, que se aplican al menos 15 métodos diferentes para determinar los valores de fibra dietética utilizados en las tablas de composición de alimentos. Su publicación, y el informe de la FAO / OMS sobre los carbohidratos en la nutrición humana (FAO, 1998), discuten estos temas con más detalle. El efecto de tener tal variedad de métodos para la fibra dietética, cada uno con un valor algo diferente, afecta no solo los valores en las tablas de composición de alimentos para la fibra dietética per se, sino también los de los carbohidratos disponibles por diferencia.

1) Los carbohidratos disponibles son un concepto útil en la evaluación energética y deben conservarse. Esta recomendación está en desacuerdo con la opinión de la consulta de expertos en 1997, que aprobó el uso del término & # 147 carbohidrato glucémico & # 148 para significar & # 147 que proporciona carbohidratos para el metabolismo & # 148 (FAO, 1998). El grupo actual expresó su preocupación de que el & # 147 carbohidrato glucémico & # 148 pueda confundirse o incluso equipararse con el concepto de & # 147 índice glucémico & # 148, que es un índice que describe la respuesta relativa de la glucosa en sangre a diferentes & # 147 carbohidratos disponibles & # 148. El término & # 147available & # 148 parece transmitir adecuadamente el concepto de & # 147proporcionar carbohidratos para el metabolismo & # 148, evitando al mismo tiempo esta confusión.

2) Los carbohidratos deben analizarse mediante un método que permita determinar tanto los carbohidratos disponibles como la fibra dietética. Para fines de evaluación energética, se prefiere el análisis directo y estandarizado de los carbohidratos disponibles mediante la suma de los carbohidratos individuales (Southgate, 1976 Hicks, 1988) a la evaluación de los carbohidratos disponibles por diferencia, es decir, carbohidratos totales por diferencia menos fibra dietética. Esto permite la separación de mono y disacáridos de los almidones, lo cual es útil para determinar el contenido de energía, como se discutió en el Capítulo 3.

3) La determinación de los carbohidratos disponibles por diferencia se considera aceptable a los efectos de la evaluación energética para la mayoría de los alimentos, pero no para los alimentos nuevos o para los que se debe hacer una declaración de contenido energético reducido. En estos casos, se debe realizar un análisis directo y estandarizado de los carbohidratos disponibles.

4) & # 147Fibra dietética & # 148 es un concepto útil que es familiar para los consumidores y debe mantenerse en el etiquetado de los alimentos y en las tablas de alimentos. Debido a que la característica física de solubilidad / insolubilidad no se correlaciona estrictamente con la fermentabilidad / no fermentabilidad, la distinción entre fibra soluble e insoluble no tiene valor en la evaluación energética, ni tiene valor para el consumidor.

5) El análisis AOAC (2000) - Prosky (985.29) o un método similar debe usarse para el análisis de fibra dietética.

6) Debido a que la fibra dietética se puede determinar mediante varios métodos que producen resultados diferentes, cuando no se utiliza el método Prosky, se debe indicar el método utilizado y el valor debe identificarse mediante etiquetas INFOODS [7] (Klensin et al., 1989 ). Además, el método debe identificarse con el nombre de etiqueta en las tablas de composición de alimentos.

7) Se necesitan más investigaciones y consenso científico para desarrollar métodos estandarizados de análisis del almidón resistente.

Figura 2.1 - Fibra dietética: constituyentes y fracciones de polisacáridos asociadas


Datos cuantitativos y cualitativos: ¿cuál es la diferencia?

El primer paso para elegir la técnica de análisis de datos adecuada para su conjunto de datos comienza con la comprensión de qué tipo de datos son: cuantitativos o cualitativos. Como su nombre indica, datos cuantitativos se ocupa de cantidades y números duros. Estos datos incluyen cifras de ventas, datos de marketing como tasas de clics, datos de nómina, ingresos y otros datos que pueden contarse y medirse objetivamente.

Datos cualitativos es un poco más difícil de precisar en lo que respecta a aspectos de una organización que son más interpretativos y subjetivos. Esto incluye información obtenida de encuestas a clientes, entrevistas con empleados y, en general, se refiere a cualidades sobre cantidades. Como tal, los métodos de análisis utilizados están menos estructurados que las técnicas cuantitativas.

Tendencias de análisis de 2021 que necesita conocer:


Analizar datos cualitativos

El análisis de datos cualitativos funciona de manera un poco diferente a los datos cuantitativos, principalmente porque los datos cualitativos se componen de palabras, observaciones, imágenes e incluso símbolos. Derivar un significado absoluto de tales datos es casi imposible, por lo tanto, se usa principalmente para investigaciones exploratorias. Si bien en la investigación cuantitativa existe una clara distinción entre la etapa de preparación y análisis de datos, el análisis para la investigación cualitativa a menudo comienza tan pronto como los datos están disponibles.

Preparación de datos y análisis de datos básicos

El análisis y la preparación ocurren en paralelo e incluyen los siguientes pasos:

  1. Familiarizarse con los datos: Dado que la mayoría de los datos cualitativos son solo palabras, el investigador debe comenzar por leer los datos varias veces para familiarizarse con ellos y comenzar a buscar observaciones o patrones básicos. Esto también incluye la transcripción de datos.
  2. Revisando los objetivos de la investigación: Aquí, el investigador vuelve a visitar el objetivo de la investigación e identifica las preguntas que se pueden responder a través de los datos recopilados.
  3. Desarrollando un marco: También conocido como codificación o indexación, aquí el investigador identifica ideas, conceptos, comportamientos o frases amplios y les asigna códigos. Por ejemplo, codificar la edad, el género, el estado socioeconómico e incluso conceptos como la respuesta positiva o negativa a una pregunta. La codificación es útil para estructurar y etiquetar los datos.
  4. Identificar patrones y conexiones: Una vez codificados los datos, la investigación puede comenzar a identificar temas, buscar las respuestas más comunes a las preguntas, identificar datos o patrones que puedan responder a las preguntas de la investigación y encontrar áreas que se puedan explorar más a fondo.

Métodos de análisis de datos cualitativos

Hay varios métodos disponibles para analizar datos cualitativos. Los métodos de análisis de datos más utilizados son:

  • Análisis de contenido: Este es uno de los métodos más comunes para analizar datos cualitativos. Se utiliza para analizar información documentada en forma de textos, medios o incluso elementos físicos. Cuándo usar este método depende de las preguntas de investigación. El análisis de contenido se suele utilizar para analizar las respuestas de los entrevistados.
  • Análisis narrativo: Este método se utiliza para analizar contenido de diversas fuentes, como entrevistas a los encuestados, observaciones de campo o encuestas. Se centra en utilizar las historias y experiencias compartidas por las personas para responder a las preguntas de la investigación.
  • Análisis del discurso: Al igual que el análisis narrativo, el análisis del discurso se utiliza para analizar las interacciones con las personas. Sin embargo, se centra en analizar el contexto social en el que se produjo la comunicación entre el investigador y el encuestado. El análisis del discurso también analiza el entorno cotidiano del encuestado y utiliza esa información durante el análisis.
  • Teoría fundamentada: Se refiere al uso de datos cualitativos para explicar por qué sucedió un determinado fenómeno. Lo hace mediante el estudio de una variedad de casos similares en diferentes entornos y utilizando los datos para derivar explicaciones causales. Los investigadores pueden alterar las explicaciones o crear otras nuevas a medida que estudian más casos hasta llegar a una explicación que se ajuste a todos los casos.

Estos métodos son los que se utilizan con más frecuencia. Sin embargo, también están disponibles otros métodos de análisis de datos, como el análisis conversacional.

El análisis de datos es quizás el componente más importante de la investigación. Un análisis débil produce resultados inexactos que no solo obstaculizan la autenticidad de la investigación, sino que también hacen que los hallazgos sean inutilizables. Es imperativo elegir cuidadosamente sus métodos de análisis de datos para asegurarse de que sus hallazgos sean reveladores y procesables.


Fondo

La predicción de la función de las proteínas es una técnica que asigna roles biológicos o bioquímicos a las proteínas con respecto a sus secuencias genómicas. Lo esencial de comprender la función de las proteínas ha atraído la atención de los investigadores sobre la mejora del desempeño predictivo de las funciones de las proteínas. En las últimas décadas se han propuesto numerosas soluciones para este propósito. Las dos soluciones más efectivas son encontrar conjuntos de funciones sólidas y adoptar modelos de redes neuronales potentes. Estudios anteriores han revelado que el uso de conjuntos de características sólidas, por ejemplo, la matriz de puntuación específica de posición (PSSM) [1], las propiedades bioquímicas (AAindex) [2] y PseAAC [3], pueden lograr resultados de predicción satisfactorios. Con la popularidad del aprendizaje profundo, muchos investigadores en el campo de la bioinformática intentaron aplicar la técnica a la predicción de la función de las proteínas. Algunos de los trabajos recientes como [4, 5] han demostrado algunos éxitos. Motivados por estas dos observaciones, tenemos la intención de aprovechar las ventajas de los conjuntos de características sólidas y la red neuronal profunda para mejorar aún más el rendimiento al derivar un enfoque novedoso para la predicción de la función de las proteínas. En este trabajo, ponemos especial énfasis en la predicción de la proteína adaptadora, que es una de las funciones moleculares más importantes en la transducción de señales.

La transducción de señales, llamada señalización celular, es la transmisión desde el exterior al interior de una célula de señales moleculares. Las señales recibidas deben transportarse de manera viable a las células para garantizar una reacción adecuada. Esta progresión la inician los receptores de la superficie celular. Uno de los principales objetivos de los investigadores que realizan sus experimentos sobre transducción de señales es decidir los mecanismos que regulan la intercomunicación entre cascadas de señalización y decidir la realización de la señalización. Una clase creciente de proteínas que contribuye en gran medida al proceso de transducción de señales son las proteínas adaptadoras (o adaptadoras). En las proteínas adaptadoras, hay numerosos módulos de unión a proteínas que unen a los socios de unión a proteínas. Además, son capaces de facilitar la creación de complejos de señalización [6]. Son vitales en las interacciones intermoleculares y juegan un papel en el control de la transducción de señales iniciada por el compromiso de los receptores de superficie en todos los tipos de células.

En detalle, se ha demostrado que las proteínas adaptadoras están asociadas con muchas enfermedades humanas. Por ejemplo, las proteínas adaptadoras de Gab desempeñan un papel importante como dianas terapéuticas para las enfermedades hematológicas [7]. XB130, una proteína adaptadora específica, juega un papel importante en el cáncer [8]. Asimismo, las proteínas adaptadoras similares a Src (SLAP-1 y SLAP-2) son importantes en la patogenia de la osteoporosis, la hipersensibilidad de tipo I y numerosas enfermedades malignas [9]. En [10], también se observa que la proteína adaptadora es un objetivo terapéutico en la enfermedad renal crónica. Además, un artículo de revisión de [11] mostró la asociación de las proteínas adaptadoras con la regulación de las enfermedades cardíacas. Además, la participación del complejo de proteína adaptadora 4 en la muerte celular hipersensible inducida por bacterias avirulentas se ha demostrado en [12].

Dada la importancia de las proteínas adaptadoras para las funciones y estructuras de la transducción de señales, dilucidar los mecanismos moleculares de las proteínas adaptadoras es, por lo tanto, un área de investigación muy importante que recientemente ha ganado un rápido avance. Sin embargo, es costoso y requiere mucho tiempo con estas técnicas experimentales. Por lo tanto, es muy deseable desarrollar métodos de predicción automatizados para la identificación rápida y precisa de proteínas adaptadoras.

PSSM es uno de los conjuntos de características más importantes de la biología para decodificar la información evolutiva de una secuencia de proteínas. Muchos estudios computacionales han investigado la predicción de la función de las proteínas utilizando perfiles de PSSM como el reconocimiento de pliegues de proteínas [13], la predicción de fosfoglicerilación [14], la predicción de succinilación [15] y la predicción de localización subcelular de proteínas [16]. Sin embargo, entre los enfoques existentes, ninguno de ellos ha encontrado una solución para prevenir la pérdida de información de la secuencia de aminoácidos en los perfiles de PSSM. Aquí, para abordar este problema, presentamos un enfoque innovador mediante el uso de una arquitectura de red neuronal recurrente (RNN).

La red neuronal estándar generalmente asume una relación independiente entre las señales de entrada, pero este no suele ser el caso en el mundo real. Asimismo, utilizar la correlación entre las secuencias del genoma puede ayudar en la predicción de la función de las proteínas.

Por lo tanto, presentamos un nuevo marco de aprendizaje profundo que utiliza perfiles RNN y PSSM para clasificar proteínas adaptadoras. Se ha demostrado recientemente que las RNN extraen información secuencial de secuencias para predecir diversas propiedades de las secuencias de proteínas en varios estudios [17-19]. Sin embargo, cómo aplicarlo en los perfiles de PSSM para abordar la información de pedido de ellos sigue siendo una pregunta de investigación abierta. Las principales contribuciones de este artículo incluyen (1) la introducción de un primer modelo basado en secuencias para distinguir proteínas adaptadoras de proteínas generales, (2) proponer una arquitectura de aprendizaje profundo eficiente construida a partir de perfiles RNN y PSSM para la predicción de funciones de proteínas, (3) presentando una conjunto de datos de referencia y datos recién descubiertos para proteínas adaptadoras, y (4) proporcionar información valiosa a biólogos e investigadores para comprender mejor las estructuras de las proteínas adaptadoras.


Una vez que los datos se recopilan, limpian y procesan, están listos para el análisis. A medida que manipula los datos, es posible que descubra que tiene la información exacta que necesita o que necesite recopilar más datos. Durante esta fase, puede utilizar herramientas de análisis de datos y software que le ayudarán a comprender, interpretar y derivar conclusiones basadas en los requisitos.

Después de analizar sus datos, finalmente es el momento de interpretar sus resultados. Puede elegir la forma de expresar o comunicar su análisis de datos, ya sea que puede usar simplemente en palabras o tal vez en una tabla o gráfico. Luego, use los resultados de su proceso de análisis de datos para decidir su mejor curso de acción.


Interpretación de datos: el uso de paneles de control para salvar la brecha

Como hemos visto, los métodos cuantitativos y cualitativos son tipos distintos de análisis de datos. Ambos ofrecen un grado variable de retorno de la inversión (ROI) con respecto a la investigación de datos, las pruebas y la toma de decisiones. Debido a sus diferencias, es importante comprender cómo se pueden implementar los cuadros de mando para cerrar la brecha de información cuantitativa y cualitativa. ¿De qué manera las soluciones de paneles de datos digitales juegan un papel clave en la fusión de la desconexión de datos? Estas son algunas de las formas:

1) Conexión y combinación de datos. Con el ritmo de innovación actual, ya no es factible (ni deseable) tener datos masivos ubicados de forma centralizada. A medida que las empresas continúen globalizándose y las fronteras continúen disolviéndose, será cada vez más importante que las empresas posean la capacidad de ejecutar diversos análisis de datos sin las limitaciones de ubicación. Los paneles de datos descentralizan los datos sin comprometer la velocidad necesaria del pensamiento mientras combinan datos cuantitativos y cualitativos. Ya sea que desee medir las tendencias de los clientes o el desempeño organizacional, ahora tiene la capacidad de hacer ambas cosas sin la necesidad de una selección única.

2) Datos móviles. Relacionado con la noción de "datos conectados y combinados" está el de datos móviles. En el mundo digital actual, los empleados pasan menos tiempo en sus escritorios y, al mismo tiempo, aumentan la producción. Esto es posible gracias al hecho de que las soluciones móviles para herramientas analíticas ya no son independientes. Hoy en día, las aplicaciones de análisis móviles se integran a la perfección con las herramientas comerciales cotidianas. A su vez, los datos cuantitativos y cualitativos ahora están disponibles bajo demanda donde se necesitan, cuando se necesitan y cómo se necesitan.

3) Visualización. Los paneles de datos están fusionando la brecha de datos entre los métodos cualitativos y cuantitativos de interpretación de datos, a través de la ciencia de la visualización. Las soluciones de tablero vienen "listas para usar" bien equipadas para crear demostraciones de datos fáciles de entender. Las modernas herramientas de visualización de datos en línea proporcionan una variedad de patrones de filtros y colores, fomentan la interacción del usuario y están diseñadas para ayudar a mejorar la predictibilidad de tendencias futuras. Todas estas características visuales facilitan la transición entre los métodos de datos: solo necesita encontrar los tipos correctos de visualización de datos para contar su historia de datos de la mejor manera posible.

Para darle una idea de cómo un tablero de investigación de mercado satisface la necesidad de unir análisis cuantitativo y cualitativo, y ayuda a comprender cómo interpretar los datos en la investigación gracias a la visualización, eche un vistazo al siguiente. Reúne datos cualitativos y cuantitativos analizados con conocimiento y los visualiza de una manera significativa que todos pueden entender, lo que permite a cualquier espectador interpretarlos:

**Click para agrandar**


1. Antecedentes

Los proyectos de secuenciación del genoma a gran escala han descubierto muchas proteínas nuevas. De todas las proteínas cuyas secuencias se conocen, las funciones se han determinado experimentalmente sólo en un pequeño porcentaje [1]. La anotación de un genoma implica la asignación de funciones a proteínas en la mayoría de los casos sobre la base de la similitud de secuencia. Las asignaciones de funciones proteicas basadas en la homología postulada reconocida por la identidad de secuencia o el valor esperado significativo de alineación se utilizan de forma rutinaria en el análisis del genoma. En los últimos años, se han desarrollado muchos métodos computacionales [2-11] para predecir la función mediante la identificación de la similitud de secuencia entre una proteína de función desconocida y una o más proteínas con funciones caracterizadas experimentalmente o predichas computacionalmente. Sin embargo, se reconoce ampliamente que las anotaciones funcionales deben transferirse con precaución, ya que la similitud de secuencia no garantiza una relación evolutiva o funcional. Además, si a una proteína se le asigna una función incorrecta en una base de datos, el error podría trasladarse a otras proteínas cuyas funciones se infieren por la relación de secuencia con la proteína con asignación de función errante [12-14].

A pesar del papel central que juegan los programas de comparación de secuencias en la anotación funcional, no se ha realizado un análisis exhaustivo de la calidad de los métodos basados ​​en un conjunto de datos a gran escala. Las mejoras en la sensibilidad de los algoritmos de comparación de secuencias han llegado al punto de que las proteínas con una relación de secuencia previamente indetectable, por ejemplo con un 10-15% de residuos idénticos, pueden clasificarse como similares [15]. Por otro lado, es más probable que los alineamientos sean correctos para niveles más altos de identidad de secuencia por pares y es menos probable que sean correctos en la llamada "zona crepuscular", donde la similitud de secuencia es baja [16]. Una estimación del valor esperado de una alineación proporciona una buena evaluación de si las dos proteínas alineadas son homólogas [17]. Sin embargo, la predicción de la función de la proteína a partir de la secuencia es un problema difícil, porque no solo la similitud de secuencia no garantiza la homología, sino que también las proteínas homólogas a menudo tienen funciones diferentes [18, 19]. En particular, cuando dos proteínas están relacionadas lejanamente, no hay un buen indicador para evaluar de manera confiable si son homólogas o no. La figura 1 muestra el número de pares ortólogos únicos entre la levadura Saccharomyces cerevisiae y Arabidopsis thaliana adquirido del sitio web de clústeres de grupos ortólogos de proteínas (COG) [37]. Los pares COG se distribuyen en una amplia gama de identidad de secuencia y valor esperado. Está claro que ni el porcentaje de identidad de secuencia ni el valor esperado pueden dar una idea completa de la relación entre las dos proteínas. Con este fin, deseamos estudiar la relación cuantitativa detallada en términos de funciones y relacionarla con la identidad de secuencia y los intervalos de valores esperados.

Distribución de levadura y Arabidopsis pares ortólogos únicos de los COG contra la identidad de secuencia y los intervalos de valores esperados.

Se han realizado varios estudios sobre la relación secuencia-función. Shah y col. [20] mostró que muchas clases de la CE (Comisión de Enzimas) no podían discriminarse perfectamente por la similitud de secuencia en ningún umbral. Pawlowski y col. [15] han estudiado la relación entre la similitud de secuencia y las similitudes funcionales basadas en la clasificación CE para el E. coli genoma. Sin embargo, este estudio se limita solo a comparaciones dentro del genoma y carece de análisis basado en comparaciones entre genomas. Devos y col. [21] han estudiado la complejidad en la transferencia de funciones entre secuencias similares. Su estudio muestra que el sitio de unión, las palabras clave y las anotaciones de clase funcional están menos conservadas que los números de EC, y todas ellas, a su vez, están menos conservadas que la estructura de la proteína. Wilson y col. demostraron que el porcentaje de identidad en la alineación de secuencias es más eficaz para cuantificar la conservación funcional de su clasificación simple de dominios SCOP que las puntuaciones probabilísticas modernas [22]. Sin embargo, todos estos estudios no utilizaron una definición amplia de funciones para un análisis sistemático a gran escala. En este artículo, construiremos un punto de referencia integral y sistemático para la relación secuencia-función utilizando cuatro organismos modelo (Arabidopsis thaliana, Saccharomyces cerevisiae, Caenorrhabditis elegans, y Drosophila melanogaster) y vocabularios controlados de términos de anotación de funciones en la Ontología Genética [38] desde tres perspectivas diferentes, es decir, proceso biológico, función molecular y componente celular.


IMPLEMENTACIÓN DE LA BASE DE DATOS

Predictome se implementa como una base de datos relacional accesible desde la web utilizando PostgreSQL RDBMS. El esquema y las instrucciones de uso de esta base de datos se pueden ver en la página web de la base de datos http://predictome.bu.edu. Los usuarios pueden navegar por la base de datos ingresando nombres de genes o palabras clave, y navegar a través de la red de enlaces predichos. Un subprograma opcional basado en Java permite la visualización de pequeñas secciones de la red. La lista completa de enlaces de proteínas y datos de apoyo, así como las especificaciones técnicas del sistema de base de datos, son de acceso público a través de la página de inicio.


Técnicas para determinar la correlación

Existen varias técnicas de correlación diferentes. El módulo de estadísticas opcional del Survey System incluye el tipo más común, denominado correlación de Pearson o producto-momento. El módulo también incluye una variación de este tipo denominada correlación parcial. Este último es útil cuando desea ver la relación entre dos variables mientras elimina el efecto de una o dos variables más.

Como todas las técnicas estadísticas, la correlación solo es apropiada para ciertos tipos de datos. La correlación funciona para datos cuantificables en los que los números son significativos, generalmente cantidades de algún tipo. No se puede usar para datos puramente categóricos, como género, marcas compradas o color favorito.

Escalas de calificación

Las escalas de calificación son un caso intermedio controvertido. Los números en las escalas de calificación tienen significado, pero ese significado no es muy preciso. No son como cantidades. Con una cantidad (como dólares), la diferencia entre 1 y 2 es exactamente la misma que entre 2 y 3. Con una escala de calificación, ese no es realmente el caso. Puede estar seguro de que sus encuestados piensan que una calificación de 2 está entre una calificación de 1 y una calificación de 3, pero no puede estar seguro de que piensen que está exactamente a medio camino. Esto es especialmente cierto si etiquetó los puntos medios de su escala (no puede asumir que "bueno" está exactamente a medio camino entre "excelente" y "regular").

La mayoría de los estadísticos dicen que no se pueden usar correlaciones con escalas de calificación, porque las matemáticas de la técnica asumen que las diferencias entre los números son exactamente iguales. Sin embargo, muchos investigadores de encuestas usan correlaciones con escalas de calificación, porque los resultados generalmente reflejan el mundo real. Nuestra propia posición es que puede usar correlaciones con escalas de calificación, pero debe hacerlo con cuidado. Cuando se trabaja con cantidades, las correlaciones proporcionan medidas precisas. Cuando se trabaja con escalas de calificación, las correlaciones proporcionan indicaciones generales.

Coeficiente de correlación

El resultado principal de una correlación se llama coeficiente de correlación (o "r"). Va de -1,0 a +1,0. Cuanto más cerca esté r de +1 o -1, más estrechamente se relacionan las dos variables.

Si r está cerca de 0, significa que no hay relación entre las variables. Si r es positivo, significa que a medida que una variable aumenta, la otra aumenta. Si r es negativo, significa que a medida que uno se hace más grande, el otro se hace más pequeño (a menudo llamado correlación "inversa").

Si bien los coeficientes de correlación normalmente se informan como r = (un valor entre -1 y +1), cuadrarlos hace que sean más fáciles de entender. El cuadrado del coeficiente (o r cuadrado) es igual al porcentaje de la variación en una variable que está relacionada con la variación en la otra. Después de elevar al cuadrado r, ignore el punto decimal. Una r de .5 significa que el 25% de la variación está relacionada (.5 al cuadrado = .25). Un valor r de .7 significa que el 49% de la varianza está relacionada (.7 al cuadrado = .49).

Un informe de correlación también puede mostrar un segundo resultado de cada prueba: significancia estadística. En este caso, el nivel de significancia le dirá qué tan probable es que las correlaciones reportadas puedan deberse al azar en forma de error de muestreo aleatorio. Si trabaja con tamaños de muestra pequeños, elija un formato de informe que incluya el nivel de significancia. Este formato también informa el tamaño de la muestra.

Una cosa clave para recordar cuando se trabaja con correlaciones es nunca asumir que una correlación significa que un cambio en una variable causa un cambio en otra. Las ventas de computadoras personales y calzado deportivo han aumentado fuertemente a lo largo de los años y existe una alta correlación entre ellos, pero no se puede asumir que la compra de computadoras hace que la gente compre calzado deportivo (o viceversa).

La segunda advertencia es que la técnica de correlación de Pearson funciona mejor con relaciones lineales: a medida que una variable se hace más grande, la otra se hace más grande (o más pequeña) en proporción directa. No funciona bien con relaciones curvilíneas (en las que la relación no sigue una línea recta). Un ejemplo de relación curvilínea es la edad y el cuidado de la salud. Están relacionados, pero la relación no sigue una línea recta. Tanto los niños pequeños como las personas mayores tienden a utilizar mucho más atención médica que los adolescentes o los adultos jóvenes. La regresión múltiple (también incluida en el Módulo de estadísticas) se puede utilizar para examinar las relaciones curvilíneas, pero está más allá del alcance de este artículo.


Ver el vídeo: Γιώργος Μουλίνος Η αλήθεια για τις μπάρες δημητριακών και πρωτεϊνών (Julio 2022).


Comentarios:

  1. Rafiq

    En mi opinión usted comete un error. Puedo defender la posición. Escríbeme por MP.

  2. Brigham

    Poohsticks!

  3. Ruck

    Creo que no tienes razón. Discutamos.

  4. Jayden

    Gracias por tu ayuda en este asunto. Todos simplemente brillantes.

  5. Meztiktilar

    Sé actuar, escribir en el personal



Escribe un mensaje