Información

Significado de los valores de la matriz PAM

Significado de los valores de la matriz PAM


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Si la matriz PAM-1 se refiere al tiempo o evento evolutivo para un cambio del 1% en la secuencia de aminoácidos de una proteína, ¿cómo es que existe PAM250? ¿No debería PAM 100 ser el más alto cuando las dos secuencias en cuestión son 100% diferentes?


Entendió mal un poco lo que significa PAM1; es en realidad (de Wikipedia) "1 mutación [PAM] que se producirá por cada 100 aminoácidos". Entonces PAMnorte tiene sentido para cualquier norte, ya que los 100 aminoácidos pueden mutar más de una vez cada uno, en promedio.

O si lo pones en términos de distancia PAM ...

¿Es posible que dos secuencias estén separadas por más de 100 PAM? Sí: una posición puede mutar varias veces.

Un intento de analogía: ¿qué significa una tasa de bajas del 600% (para los soldados)? Bueno, significa que no solo murió el tipo original, sino que sus 5 reemplazos también fueron asesinados (sucesivamente).


BLOSUM

Guoqiang Zhang,. Claudia Schmidt-Dannert, en Métodos en enzimología, 2019

6.1.1 Herramientas de software

NCBI BLAST (Basic Llocal Aalineación Sbuscar Tool)

BLOSUM ( BLOcks SUsustitución METROatrix)

MÚSCULO (MUltiple Ssecuencia Ccomparación por Log- miexpectativa)

MEGA 7 (METROolecular mivolucionario GRAMOenetica Aanálisis)

SWISS-MODEL (servidor de modelado de homología de proteínas)

QMEAN (Qcualitativo METROodel minergy UNanálisis)

PyMOL (sistema de visualización molecular, versión 2.0, Schrödinger, LLC)

ExPASY (Eximpertinente PAGrotein Aanálisis Symadre)


¿Qué son los privilegios y cómo se crean?

El privilegio, en un contexto de tecnología de la información, se puede definir como la autoridad que tiene una cuenta o proceso determinado dentro de un sistema o red de computación. Privilege proporciona la autorización para anular o eludir ciertas restricciones de seguridad y puede incluir permisos para realizar acciones como apagar sistemas, cargar controladores de dispositivos, configurar redes o sistemas, aprovisionar y configurar cuentas e instancias en la nube, etc.

En su libro, Vectores de ataque privilegiados, los autores y líderes de pensamiento de la industria Morey Haber y Brad Hibbert (ambos de BeyondTrust) ofrecen la definición básica “el privilegio es un derecho especial o una ventaja. Es una elevación por encima de lo normal y no un escenario o permiso otorgado a las masas ".

Los privilegios cumplen un propósito operativo importante al permitir que los usuarios, las aplicaciones y otros procesos del sistema tengan derechos elevados para acceder a ciertos recursos y completar tareas relacionadas con el trabajo. Al mismo tiempo, el potencial de uso indebido o abuso de privilegios por parte de intrusos o atacantes externos presenta a las organizaciones un formidable riesgo de seguridad.

Los privilegios para varias cuentas de usuario y procesos están integrados en sistemas operativos, sistemas de archivos, aplicaciones, bases de datos, hipervisores, plataformas de administración de la nube, etc. Los privilegios también pueden ser asignados por ciertos tipos de usuarios privilegiados, como un administrador de sistema o red.

Dependiendo del sistema, alguna asignación o delegación de privilegios a personas puede basarse en atributos que se basan en roles, como la unidad de negocio (por ejemplo, marketing, RR.HH. o TI), así como una variedad de otros parámetros (por ejemplo, , antigüedad, hora del día, circunstancia especial, etc.).


Matriz de puntuación

El objetivo de una secuencia de alineación es hacer coincidir "los elementos más similares" de dos secuencias. Esta similitud debe evaluarse de alguna manera. Por ejemplo, considere las siguientes dos alineaciones:

Parecen bastante similares: ambos contienen un "indel" y una sustitución, solo que en diferentes posiciones. Sin embargo, si pensamos en las letras como residuos de aminoácidos en lugar de elementos de cadenas, la alineación (a) es la mejor, porque la isoleucina (I) y la leucina (L) son cadenas laterales similares, mientras que el triptófano (W) tiene un aspecto muy diferente. estructura. Esta es una medida físico-química que podríamos preferir en estos días para decir que la leucina simplemente sustituye a la isoleucina con mayor frecuencia, sin dar una "razón" subyacente para esta observación.

Independientemente de cómo lo expliquemos, es mucho más probable que una mutación haya cambiado I en L y que W se haya perdido, como en (a), que que W se haya convertido en L y yo esté perdido. Es de esperar que un cambio de I a L no afecte la función tanto como una mutación de W a L --- pero esto merece su propio tema.

Para cuantificar la similitud lograda por una alineación, matrices de puntuación se utilizan: contienen un valor para cada posible sustitución, y el puntuación de alineación es la suma de las entradas de la matriz para cada par de aminoácidos alineados. Para espacios (indeles), un especial puntaje de brecha es necesario --- uno muy simple es simplemente agregar una puntuación de penalización constante para cada indel. los alineación óptima es el que maximiza la puntuación de alineación.

PAM las matrices son una familia común de matrices de puntuación. PAM significa PAGercent Aaceptado METROutaciones, donde "aceptado" significa que la mutación ha sido adoptada por la secuencia en cuestión. Por lo tanto, el uso de la matriz de puntuación de PAM 250 significa que pueden haber ocurrido aproximadamente 250 mutaciones por 100 aminoácidos, mientras que con PAM 10 solo se asumen 10 mutaciones por 100 aminoácidos, de modo que solo secuencias muy similares alcanzarán puntuaciones de alineación útiles.

Las matrices PAM contienen valores positivos y negativos: si el puntaje de alineación es mayor que cero, las secuencias se consideran relacionadas (son similares con respecto a la matriz de puntaje utilizada), si el puntaje es negativo, se asume que no están relacionado. "Relación" aquí puede referirse tanto a la evolución como a la funcionalidad de las proteínas y, por supuesto, la elección de la matriz afecta el resultado, por lo que hay que suponer la similitud de las secuencias para obtener un resultado útil: más bien las secuencias distantes no producirán una buena alineación con PAM 10, y la alineación óptima de dos secuencias muy similares con PAM 500 puede ser menos útil que con PAM 50.

Por último, cabe señalar que solo algunas matrices de puntuación utilizan semejanza para evaluar alineaciones, pero otros usan distancia, así que tenga cuidado al interpretar los resultados.

Después de esta breve y necesariamente superficial descripción general, es posible que desee leer un poco más sobre las matrices de puntuación.


Discusión

Orden inferido de entrada de aminoácidos en el código genético

Sobre la base del cambio en la frecuencia de aminoácidos entre el LUA y hoy, podemos hacer inferencias con respecto al establecimiento del código genético (Brooks y Fresco 2002). Es razonable suponer que a medida que evolucionó el código genético, los aminoácidos asignados recientemente adoptaron codones utilizados con poca frecuencia en las secuencias de codificación para minimizar la alteración estructural de la proteína codificada (Osawa et al. 1992). En consecuencia, se habrían introducido gradualmente nuevos aminoácidos en las proteínas primitivas existentes. Por lo tanto, en el momento en que el código genético se estableció por completo, los aminoácidos que se habían agregado relativamente temprano habrían estado sobrerrepresentados y los que se habían agregado relativamente tarde habrían estado subrepresentados, en relación con la composición de las proteínas modernas. A partir de una composición de aminoácidos sesgada tan temprana, las proteínas primitivas habrían evolucionado hacia sus composiciones modernas. En tal escenario, los aminoácidos que se introdujeron en el código genético relativamente temprano deberían haber disminuido en frecuencia a lo largo de la evolución, mientras que los aminoácidos añadidos relativamente tarde deberían haber aumentado en frecuencia (es decir, entre el establecimiento del código genético , la LUA, y hoy).

Los nueve aminoácidos que han disminuido en frecuencia entre el LUA y hoy (fig.3A ) puede inferirse, por tanto, que se introdujo en el código antes. La mayoría de estos aminoácidos se encuentran entre los que se presume fueron más abundantes en el ambiente prebiótico, como se infiere a través de simulaciones de tubos de chispa (Miller 1953, 1987) y análisis del meteorito Murchison (Kvenvolden et al. 1970). En contraste, los ocho aminoácidos que han aumentado en frecuencia entre el LUA y hoy (fig.3B ), y que por lo tanto se infiere que fueron adiciones tardías al código, incluyen varios de los aminoácidos más biosintéticamente complejos (por ejemplo, los tres aminoácidos aromáticos, que comparten un intermedio metabólico complejo común, se infiere que fueron tardíos adiciones) la mayoría de estos se presume que han sido inexistentes o de muy baja abundancia en el ambiente prebiótico. Dos de estos, la cisteína y el triptófano, se estima conservadoramente que han sido menos de la mitad de frecuentes dentro de este conjunto de proteínas en el LUA que en la actualidad.

Enfatizamos que la validez de las inferencias extraídas en este estudio depende de la confiabilidad de las probabilidades de sustitución de Jones, Taylor y Thornton (1992) para modelar la evolución durante períodos de tiempo muy largos y a lo largo de todos los linajes. Con el desarrollo de modelos de evolución específicos de linaje, se puede esperar que mejoren las estimaciones de la composición de aminoácidos ancestrales. Mientras tanto, aunque indudablemente existen limitaciones para utilizar las matrices de Jones, Taylor y Thornton (1992) para modelar la evolución desde la LUA, creemos que proporcionan las mejores estimaciones disponibles de estas probabilidades de sustitución. Cabe señalar que anteriormente, sobre la base de un enfoque independiente, se infirió que la cisteína, la tirosina y la fenilalanina se habían utilizado con menos frecuencia en las proteínas de la LUA que en la actualidad (Brooks y Fresco 2002).

Las inferencias extraídas aquí con respecto a la introducción relativamente temprana o tardía de aminoácidos en el código genético son generalmente consistentes con propuestas anteriores que se basaban en la presunta presencia o ausencia de varios aminoácidos en el entorno primordial (véase, por ejemplo, Wong 1975). Sin embargo, para algunos aminoácidos, nuestra asignación tan temprana como tardía no está de acuerdo con las ideas anteriores. Por ejemplo, la histidina y la asparagina, que se cree que estaban ausentes en el entorno prebiótico, se infiere a través del presente trabajo que se agregaron al código relativamente temprano, mientras que el glutamato, que se cree que estuvo presente en el entorno prebiótico, se infiere que se han añadido tarde (figs. 3 y 4). Curiosamente, cada uno de estos tres aminoácidos comparte un bloque de cuatro codones con un segundo aminoácido: histidina con glutamina, asparagina con lisina y glutamato con aspartato (fig. 4). La captura de codones, en la que un aminoácido pierde algunos de sus codones a otro, se propone comúnmente como un mecanismo para introducir aminoácidos, especialmente los que llegan más tarde, en el código (Crick 1968 Wong 1975). De acuerdo con la captura de codones, es plausible que primero se haya agregado un aminoácido al bloque de cuatro codones y que este aminoácido luego cediera dos de sus codones al segundo aminoácido que ahora comparte el bloque.

En consecuencia, los aminoácidos que se asignaron originalmente al bloque de codones (es decir, aspartato, asparagina e histidina) tendrían la apariencia de ser agregados al código temprano, mientras que aquellos que se agregaron al bloque más tarde a través de la captura de codones (es decir, glutamato, lisina y glutamina) tendrían la apariencia de ser agregados tardíamente. Por lo tanto, los aminoácidos tempranos y tardíos no corresponden a un orden cronológico estricto de introducción en el código. En cambio, como se define aquí sobre la base de las frecuencias cambiantes de aminoácidos, los aminoácidos tempranos son probablemente aquellos que en algún momento perdieron algunos de sus codones a través de la captura de codones y, en consecuencia, se volvieron menos frecuentes con el tiempo dentro de las proteínas, mientras que los aminoácidos tardíos son aquellos que ingresaron al código a través de la captura de codones, no perdieron posteriormente ninguno de sus codones y, por lo tanto, se hicieron más frecuentes con el tiempo (fig. 4). Finalmente, vale la pena señalar que la distinción entre los aminoácidos inferidos aquí como agregados al código genético temprano o tarde no se correlaciona en absoluto con las dos clases estructurales principales de las aminoacil-tRNA sintetasas. Esto es consistente con la sugerencia anterior de que estas enzimas probablemente no tuvieron un papel específico en la evolución del código genético (Woese 2000).

Las ideas existentes sobre el origen y la evolución del código genético se han basado en gran medida en investigaciones teóricas y experimentos que involucran la unión de aminoácidos con aptámeros de oligonucleótidos (revisado en Knight, Freeland y Landweber 1999). Los presentes hallazgos sugieren que, a pesar del impacto de la mutación en el largo curso de la evolución molecular, con la ayuda de las herramientas y conocimientos analíticos apropiados, las secuencias de proteínas contemporáneas también proporcionan una vía importante para explorar estos eventos evolutivos tempranos.


Significado de los valores de la matriz PAM - Biología

Partición (agrupación) de los datos en k agrupaciones `` alrededor de medoides '', una versión más robusta de K-means.

Uso

Argumentos

X matriz de datos o marco de datos, o matriz de disimilitud u objeto, dependiendo del valor del argumento de disimilitud.
En el caso de una matriz o marco de datos, cada fila corresponde a una observación y cada columna corresponde a una variable. Todas las variables deben ser numéricas. Se permiten valores perdidos (NA) siempre que cada par de observaciones tenga al menos un caso que no falte.
En caso de una matriz de disimilitud, x es típicamente la salida de daisy o dist. También se permite un vector de longitud n * (n-1) / 2 (donde n es el número de observaciones), y se interpretará de la misma forma que la salida de las funciones antes mencionadas. No se permiten valores perdidos (NA).
k entero positivo que especifica el número de conglomerados, menor que el número de observaciones.
disgusto bandera lógica: si es VERDADERO (predeterminado para objetos de disimilitud o dist), entonces x se considerará como una matriz de disimilitud. Si es FALSO, entonces x se considerará como una matriz de observaciones por variables.
métrico cadena de caracteres que especifica la métrica que se utilizará para calcular las diferencias entre las observaciones.
Las opciones disponibles actualmente son "euclidiana" y "manhattan". Las distancias euclidianas son la raíz de la suma de cuadrados de las diferencias y las distancias de Manhattan son la suma de las diferencias absolutas. Si x ya es una matriz de disimilitud, este argumento se ignorará.
medoides NULL (predeterminado) o vector de longitud-k de índices enteros (en 1: n) que especifican los medoides iniciales en lugar de usar el algoritmo & lsquo build & rsquo.
pararse lógico si es cierto, las medidas en x se estandarizan antes de calcular las diferencias. Las mediciones se estandarizan para cada variable (columna), restando el valor medio de la variable y dividiendo por la desviación absoluta media de la variable. Si x ya es una matriz de disimilitud, este argumento se ignorará.
cluster.only lógico si es verdadero, solo se calculará y devolverá la agrupación en clústeres, consulte los detalles.
keep.diss, keep.data lógicos que indiquen si las diferencias y / o los datos de entrada x deben mantenerse en el resultado. Establecerlos en FALSE puede dar resultados mucho más pequeños y, por lo tanto, incluso ahorrar tiempo de asignación de memoria.
trace.lev entero que especifica un nivel de seguimiento para imprimir diagnósticos durante la fase de creación e intercambio del algoritmo. El valor predeterminado 0 no imprime nada. Los valores más altos se imprimen cada vez más.

Detalles

pam se describe completamente en el capítulo 2 de Kaufman y Rousseeuw (1990). En comparación con el enfoque de k medias en k medias, la función pam tiene las siguientes características: (a) también acepta una matriz de disimilitudes (b) es más robusta porque minimiza una suma de disimilitudes en lugar de una suma de distancias euclidianas al cuadrado ( c) proporciona una pantalla gráfica novedosa, el diagrama de silueta (ver plot.partition) (d) permite seleccionar el número de conglomerados usando mean (silhouette (pr)) en el resultado pr & lt- pam (..), o directamente su componente pr $ silinfo $ avg.width, vea también pam.object.

Cuando cluster.only es verdadero, el resultado es simplemente un vector entero (posiblemente nombrado) que especifica el agrupamiento, es decir,
pam (x, k, cluster.only = TRUE) es lo mismo que
pam (x, k) $ agrupación en clústeres pero se calculó de manera más eficiente.

El algoritmo pam se basa en la búsqueda de k objetos representativos o medoides entre las observaciones del conjunto de datos. Estas observaciones deben representar la estructura de los datos. Después de encontrar un conjunto de k medoides, se construyen k grupos asignando cada observación al medoide más cercano. El objetivo es encontrar k objetos representativos que minimicen la suma de las diferencias de las observaciones con su objeto representativo más cercano.
Por defecto, cuando no se especifican medoides, el algoritmo busca primero un buen conjunto inicial de medoides (esto se llama fase de construcción). Luego encuentra un mínimo local para la función objetivo, es decir, una solución tal que no haya un solo cambio de una observación con un medoide que disminuya el objetivo (esto se llama fase de intercambio).

Cuando se especifican los medoides, su orden no importa en general, los algoritmos han sido diseñados para no depender del orden de las observaciones.

Valor

un objeto de clase "pam" que representa el agrupamiento. Consulte? Pam.object para obtener más detalles.

Para conjuntos de datos mayores de (digamos) 200 observaciones, pam tomará mucho tiempo de cálculo. Entonces es preferible la función clara.


Permítanos respaldar sus procesos comerciales con información sobre lanzamientos de software, actualizaciones y mantenimiento.

Matriz de disponibilidad de productos

La matriz de disponibilidad de productos (PAM) le proporciona información sobre las versiones de software de SAP: tipos de versiones, duraciones de mantenimiento, disponibilidad planificada y rutas de actualización. El PAM también ofrece información sobre la disponibilidad de la plataforma, incluida la plataforma de la base de datos y los sistemas operativos.

Para descargar el software SAP de su empresa, el Centro de descarga de software SAP (SWDC) es la ubicación central para usted.

Estrategia de lanzamiento y mantenimiento del amplificador

Diseñamos nuestra estrategia de lanzamiento y mantenimiento para:

  • Apoyar la planificación de implementaciones y actualizaciones de software de SAP®
  • Proporcione información sobre la estrategia para productos de software y ofertas en la nube.
  • Describir cómo ponemos a disposición nuestro software estándar y nuestros servicios en la nube.
  • Muestre qué reglas de la estrategia de mantenimiento se aplican a qué productos de software
  • Describir la duración y las condiciones de mantenimiento de las versiones de software de SAP.
  • Explicar cómo se integran entre sí las distintas versiones de productos de software.

Información de actualización

Acceda a la información relacionada con las actualizaciones de la suite y las rutas de transición a SAP S / 4HANA. Aquí le proporcionamos una colección de información importante, documentación y plataformas de colaboración que respaldan su proyecto de actualización.

Mejora de rutas y enfoque de amplificador

Obtenga información sobre los enfoques de actualización, cómo identificar su ruta de actualización y si debe complementar su enfoque con SAP S / 4HANA.

Herramientas de actualización

Obtenga una descripción general de las herramientas de actualización más importantes y cómo pueden respaldar cada fase del proyecto de actualización.

Servicios de actualización

Descubra cómo nuestros servicios pueden ayudar a mejorar y facilitar la implementación y adopción de soluciones SAP a lo largo de sus ciclos de vida.

Actualizaciones específicas de la aplicación

Acceda a información y documentación específicas que pueden ayudarlo a actualizar sus aplicaciones centrales de SAP Business Suite, incluidas SAP NetWeaver y SAP Business Objects.

Boletín de novedades de SAP Upgrade & amp Innovations

Esta publicación bimensual le brinda noticias relacionadas con las actualizaciones y migraciones de aplicaciones de SAP Business Suite, las innovaciones de SAP y las ofertas de SAP relacionadas.

Información de mantenimiento

Consulte la comunicación de las fechas de lanzamiento planificadas para las entregas de mantenimiento de SAP.


Significado de los valores de la matriz PAM - Biología

La nube ha abierto muchas oportunidades para que las empresas mantengan sus operaciones durante la pandemia, pero también ha creado.

Los marcos de seguridad en la nube ayudan tanto a los CSP como a los clientes, proporcionando líneas de base de seguridad fáciles de entender, validaciones y.

La experta Carla Roncato explica lo que las organizaciones deben saber sobre las tendencias emergentes de seguridad e identidad digital para la nube.

A pesar de cinco brechas importantes que obstaculizan la implementación de SASE, Gartner recomendó que las empresas planifiquen su cronograma de migración y.

Averiguar cómo calcular los requisitos de ancho de banda es vital para garantizar que su red funcione sin problemas, y es mejor usar.

La función de autocorrección de Aruba en AI Insights soluciona automáticamente los problemas que se consideran seguros de reparar según los comentarios de los clientes.

Esta semana, la UE inició una investigación sobre las prácticas publicitarias de Google. Mientras tanto, el Reino Unido se centra en las críticas falsas y en Alemania.

Seis proyectos de ley de reforma antimonopolio pasaron por la revisión del Comité Judicial de la Cámara y ahora serán considerados por la Cámara de.

Para los CIO, comprender lo que implica la modernización de sistemas heredados, cuándo es necesario y qué enfoques son adecuados para ellos.

Microsoft 365 cuenta con diferentes planes de licencias para todo tipo de negocios. Conozca los diferentes planes de suscripción que.

Cuando una organización migra sus perfiles y servidores de correo electrónico a Microsoft 365, podría utilizar varios procesos diferentes. Clasificar .

La última actualización de Chrome cambia la forma en que el navegador maneja las pestañas para reducir la CPU y el consumo de energía. Chrome 91 también permite a las personas.

HPE dio otro paso hacia su objetivo de ser principalmente una empresa de software como servicios para 2022 con nuevos servicios para GreenLake.

La última apuesta de Oracle para atraer cargas de trabajo de clientes a su nube pública implica descuentos en licencias de software tradicionales.

La conectividad de red puede hacer o deshacer una implementación en la nube. Descubra los conceptos básicos de los servicios de red de Azure con esta lista de claves.

El arquitecto de una de las políticas gubernamentales más grandes y controvertidas - y fallas de TI - de la última década da la suya.

El gigante tecnológico Apple ha solicitado una extensión de cinco años a la fecha límite para el permiso de planificación para su centro de datos abandonado en Irlanda.

Microsoft ha intentado acaparar los titulares con la última encarnación de su sistema operativo de escritorio, luciendo un botón de inicio reposicionado y.


Matriz

En la antigua Roma, un matriz era un animal hembra mantenido para la reproducción, o una planta (a veces llamada "planta madre" o "planta madre") cuyas semillas se usaban para producir otras plantas. En inglés, la palabra ha adquirido muchos significados relacionados. Los matemáticos lo usan para una organización rectangular de números o símbolos que se pueden usar para hacer varios cálculos, los geólogos lo usan para el suelo o la roca en la que se descubre un fósil, como un bebé en el útero. Y matriz Fue una buena elección como nombre de la realidad en la que todos los humanos se encuentran viviendo en una famosa serie de películas de ciencia ficción.


Clase 3: Alineación global de secuencias de proteínas (NW, SW, PAM, BLOSUM)

Descarga el video de iTunes U o del Archivo de Internet.

Descripción: En esta conferencia, el profesor Burge analiza la alineación de secuencia global y la alineación de secuencia local con huecos. Más tarde habla de matrices de sustitución para la comparación de proteínas.

Instructor: Christopher Burge

Clase 1: Introducción a.

Clase 2: Alineación local.

Clase 3: Alineación global.

Clase 4: Geno comparativo.

Clase 5: Biblioteca Complexi.

Clase 6: Ensamblaje del genoma

Leture 7: Análisis ChIP-seq.

Clase 8: Secuencia de ARN Ana.

Clase 9: Modelado y Dis.

Clase 10: Markov y Hidd.

Clase 11: ARN secundario de S.

Leture 12: Introducción a.

Clase 13: Predicción de Prot.

Clase 14: Predicción de Prot.

Clase 15: Regulador de genes.

Clase 16: Protein Interac.

Clase 17: Modelado lógico.

Clase 18: Análisis de Chr.

Clase 19: Descubriendo Qua.

Clase 20: Genética humana.

Clase 21: Biolo sintético.

Clase 22: Causalidad, Natu.

El siguiente contenido se proporciona bajo una licencia Creative Commons. Su apoyo ayudará a que MIT OpenCourseWare continúe ofreciendo recursos educativos de alta calidad de forma gratuita. Para hacer una donación o ver materiales adicionales de cientos de cursos del MIT, visite [email protected]

PROFESOR: Muy bien, empecemos. Así que hoy revisaremos la alineación local, de la que hablamos la última vez, e introduciremos la alineación global, y también hablaremos de cuestiones relacionadas con las secuencias de proteínas, que incluyen algunas matrices de puntuación más interesantes. Así que solo algo de información sobre el tema uno, en el que todavía estamos. Así que tendré una diapositiva general. Tendrá un fondo azul y habrá una diapositiva de revisión con un fondo morado en cada conferencia.

Así que la última vez hablamos sobre la alineación local y algunas de las estadísticas asociadas con eso, y también un poco sobre la secuenciación, las tecnologías, tanto la secuenciación convencional del ADN de Sanger como la secuenciación de segunda generación. Y al comienzo de la sección de alineación local, presentamos un algoritmo simple similar a BLAST, y luego hablamos de estadísticas, frecuencias objetivo, penalizaciones no coincidentes, ese tipo de cosas.

Así que había un par de preguntas al final que solo quería responder brevemente. Así que creo que fue Joe quien preguntó cómo se une el tinte al DNTP en la secuenciación del terminador de tinte. Y parece que está unido a la base, una especie de parte trasera de la base, no a la cara de Watson-Crick, obviamente. Esa parece ser la forma común en que se hace.

Y luego hubo otra pregunta de alguien en la parte de atrás. No recuerdo quién preguntó sobre cuándo está creando bibliotecas, ¿cómo se asegura de que cada una de sus secuencias de inserción tenga dos adaptadores diferentes, un adaptador en un lado y el otro adaptador en el otro lado? Y hay al menos tres formas de hacerlo. Lo más simple es en la ligadura de ARN, cuando se aprovecha la química diferente en los cinco extremos principales y tres extremos del ARN pequeño que está tratando de clonar. Entonces, solo usa el fosfato y el NLH para unir dos adaptadores diferentes.

Otra forma más complicada ocurre en el perfil de la huella de ribosoma, que es un método para mapear las ubicaciones precisas de los ribosomas a lo largo de los ARNm, e involucra la cola de poliA, y luego la introducción de los adaptadores juntos, los dos adaptadores, con un cebador de poliT que prepara la cola de poliA. . Y luego circulares, y luego haces PCR fuera de los círculos. Y es un poco complicado, pero puede buscarlo en la referencia que está aquí en la diapositiva. Está funcionando ahora.

Y luego, finalmente, la forma en que se usa más comúnmente para protocolos como RNA seq y secuenciación de ADN genómico es que después de hacer su ADN de doble hebra, hay una enzima que agrega una sola A a los tres extremos principales de cada hebra. Entonces ahora tienes una molécula simétrica. Pero luego agrega estos divertidos adaptadores en forma de Y que tienen una T que sobresale, digamos, el tipo rojo aquí.

Entonces, lo que sucederá es que cada una de estas Y se puede ligar aquí. Pero cada una de las inserciones, independientemente de la hebra que sea, tendrá un adaptador rojo en el extremo principal de cinco y un adaptador azul en el extremo principal de tres. ¿Alguna pregunta sobre esto o sobre tecnologías de secuenciación antes de pasar a las alineaciones locales? Está bien. Fue una buena pregunta y esa es la respuesta.

Así que motivamos nuestra discusión sobre alineamientos locales la última vez hablando de este ejemplo, donde tienes un ARN no codificante que encontraste inhumano. Lo EXPLOTAS contra el mouse y obtienes esta alineación. ¿Es esto significativo? Entonces, ¿es realmente probable que sea una secuencia homóloga? ¿Y cómo encuentras las alineaciones?

Y entonces dijimos que, bueno, existe esta teoría que es exacta, al menos exacta en el sentido asintótico para consultas grandes y tamaños de bases de datos que nos dice la importancia estadística de la alineación local sin huecos con la puntuación más alta. Y está dado por esta fórmula aquí, que es el valor extremo o distribución de Gumbel. Y luego hablamos sobre las limitaciones o la puntuación esperada tiene que ser negativa, pero las puntuaciones positivas tienen que ser posibles para que esta teoría funcione. Y también hablamos de un algoritmo.

Pero si recuerdas, los algoritmos eran muy simples. Implicaba, esto es cero, realizar un seguimiento de la puntuación acumulada. Entonces tenemos un desajuste y un emparejamiento, desajuste, desajuste, desajuste, concordancia, concordancia, concordancia. Ese es un segmento de alta puntuación, etcétera. Por lo tanto, realiza un seguimiento del punto más bajo en el que ha estado, así como del puntaje actual. Y cuando el puntaje actual excede el punto más bajo en el que ha estado en más de lo que hemos visto antes, más que esto, entonces ese es su segmento de puntaje más alto.

Ahora resulta que, si esto no es intuitivo para usted, hay otro algoritmo que, personalmente, encuentro más intuitivo. Así que solo quiero contarte sobre eso también. Y es básicamente lo mismo, excepto que cada vez que se vuelve negativo, se restablece a cero.

Así que aquí, íbamos a volvernos negativos, así que simplemente lo restablecimos a cero. Eso fue en este desajuste aquí. Entonces tenemos un partido. Ahora estamos en más 1. Está bien. Ahora tenemos un desajuste. Ahora estamos a cero. No necesitamos hacer nada.

Ahora tenemos otro desajuste. Aquí, todavía estamos en cero. Recuerde, nos quedamos en cero. Íbamos a volvernos negativos, pero nos quedamos en cero. Otro desajuste, todavía nos mantenemos en cero. Y ahora tenemos estos tres partidos seguidos. Mi línea no se mantiene muy plana.

Pero esto debería haber estado aquí plano en cero. El punto es que ahora el segmento de puntuación más alta es el punto más alto que jamás hayas alcanzado. Entonces es muy simple. Entonces, esto es en realidad un poco más fácil de implementar. Y eso es una especie de pequeño truco. Por lo tanto, para las alineaciones locales, a menudo se puede restablecer a cero. ¿Alguna pregunta sobre eso?

Bueno, hablamos sobre la eficiencia computacional, esta gran notación O, donde se considera el número de cálculos individuales que se requieren para ejecutar un algoritmo en función del tamaño de la entrada, básicamente el número de unidades en los pares de bases del problema, residuos de aminoácidos, lo que sea. Entonces, los científicos de la computación miran el peor tiempo de ejecución asintótico. Eso es porque son pesimistas o quizás porque quieren garantizar las cosas. Quieren decir que no va a ser peor que esto. Tal vez sea más rápido y luego serás feliz. Pero les puedo garantizar que no va a ser peor que esto. Y así, en este caso, el algoritmo del que hablamos era de orden n por n, donde esas son las longitudes de las dos secuencias.

Entonces, hacia el final la última vez, hablamos sobre este parámetro lambda y dijimos que lambda es la única solución positiva a esta ecuación aquí, donde sij son las puntuaciones y pi y rj son las frecuencias de nucleótidos. Y luego aparece esta fórmula de frecuencia objetivo que dice que si usa un sistema de puntuación sij para aplicar a las secuencias, y luego extrae solo los segmentos de puntuación alta, los que tienen una puntuación inusualmente alta, tendrán una frecuencia de qij de nucleótidos coincidentes que está dado por el producto de las frecuencias en las dos secuencias ponderadas básicamente por e al lambda sij. Por lo tanto, las coincidencias ocurrirán con más fuerza, porque eso tiene un trabajo positivo y los desajustes serán menos fuertes.

Y eso da lugar a esta noción de que hay una penalización por desajuste óptimo, si solo considera los sistemas de puntuación que tienen más 1 para un partido ym para un desajuste, algún número negativo, que está dado por esta ecuación aquí, y aquí he elaboró ​​un par de valores. Entonces, la teoría dice que para encontrar coincidencias que sean 99% idénticas, debe usar una puntuación no coincidente de menos 3, pero para 75% idénticas, debe usar menos 1. Y le pedí que pensara si eso tiene sentido, o cómo ¿es eso cierto?

Entonces, y es menos 3 mejor que menos 1 para encontrar coincidencias casi idénticas. ¿Alguien tiene una idea o pensamiento sobre esto? Hay algunos pensamientos sobre la diapositiva. Pero, ¿alguien puede explicar intuitivamente por qué esto es cierto? Si, cual es tu nombre?

AUDIENCIA: Con una penalización por desajuste de menos 3, en realidad necesita más pasos para volver a subir para volver a un máximo local. Y, por lo tanto, se requieren coincidencias más largas [INAUDIBLES] para obtener un impacto significativo. Esa es mi suposición de por qué una puntuación de m es igual a menos 3, una penalización, [INAUDIBLE] por qué sería mejor para encontrar las coincidencias de identidad más altas.

PROFESOR: Está bien, porque el menos 3 te hace bajar más rápido, por lo que lleva más tiempo recuperarte, por lo que solo puedes encontrar cosas casi idénticas con ese tipo de sistema de puntuación. ¿Ese es tu punto? Bien, ese es un buen punto. Entonces, sí, ¿cuándo querría usar una penalización no coincidente de menos 1?

AUDIENCIA: Cuando intentas buscar cosas que son [INAUDIBLES], pero quizás no tan cercanas. Bueno, cuando estás buscando un [INAUDIBLE], estás buscando [INAUDIBLE]. Ese tipo de situación.

PROFESOR: Digamos que estoy usando una penalización por desajuste de menos 2. ¿Puedo encontrar regiones que sean 66% idénticas?

AUDIENCIA: Pero no garantizado.

PROFESOR: ¿Alguien más tiene algún comentario sobre eso? La coincidencia es más 1. La discrepancia es menos 2 regiones de 66% de identidad. Sí, con Levi, sí.

AUDIENCIA: No, ya que su puntuación será cero.

PROFESOR: Sí. Eso es correcto. Entonces, el comentario de Levi es que tu puntuación será cero. Bueno, solo diré más por coincidencia, más, más, menos, más, más, menos. Quiero decir, estará intercalado. No tiene por qué ser así para cada triplete. Pero, en promedio, tendrás dos partidos por cada partido. Eso es lo que significa el 66% de identidad. Y entonces estos puntuarán un total de más 2. Y esto puntuará menos 2. Y así, básicamente, nunca se elevará mucho por encima de cero.

Y, por lo tanto, realmente no puede usar esa penalización por desajuste. Hay un limite. El 66% está en un punto en el que ya no puedes ver. Potencialmente, podría ver cosas que son 75% idénticas si fueran increíblemente largas con ese tipo de penalización por desajuste. Pero simplemente no puede ver nada por debajo del 2/3% de identidad con menos 2.

Entonces, para encontrar esas cosas bajas, debes usar las más bajas. Tienes que bajar a menos 1 si quieres encontrar las coincidencias realmente débiles. Pero, en consecuencia, tendrán que ser muy largos para lograr una significación estadística.

En consecuencia, la razón por la que es mejor usar una penalización por desajuste más severa de menos 3 para encontrar las regiones casi idénticas es que, en esta ecuación, cuando se pasa de tener un sistema de puntuación más 1, menos 1 a más 1, menos 3, lambda cambiará. Esta ecuación ya no se cumplirá, por lo que un nuevo valor de lambda será relevante. Y ese valor será mayor.

Eso no es totalmente obvio a partir de esta ecuación porque tiene un término, que es menos lambda en un término o más lambda. Pero resulta que hacer que la penalización por desajuste sea más negativa conducirá a una solución que tiene un valor mayor de lambda.

Eso significa que la misma puntuación, x, dará lugar a un exponente negativo mayor aquí. ¿y? ¿Cómo afectará eso al valor p? ¿Alguien nos explica esto? Es un poco complicado con todas estas exponenciales negativas y esas cosas, pero ¿alguien puede explicarnos cómo afecta eso al valor p? Misma x. Vamos a aumentar lambda. ¿Qué pasa con el valor p?

Esto se vuelve más grande, más negativo. Eso significa que esta e con la cosa menos se acerca a 0. Eso significa que esto está dentro de una exponencial. A medida que esa cosa se acerca a 0, todo el término aquí se acerca a 1. Por lo tanto, lo estás restando de 1. Por lo tanto, el valor p se vuelve más pequeño, más cercano a 0, más significativo. ¿Eso tiene sentido? Así que es bueno analizar cómo funciona esta ecuación.

Así que eso es todo lo que quería decir sobre las sanciones por desajuste del ADN. ¿Alguna pregunta sobre eso? Entonces, ¿cómo se usa esto en la práctica? Entonces, si solo busca en Google "BLAST end", accederá a este sitio web. Se ha establecido en NCBI durante unos 20 años más o menos. Y, por supuesto, ha pasado por varias iteraciones y mejoras a lo largo de los años.

Y si mira hacia abajo en la parte inferior, hay un lugar donde puede hacer clic y establecer los parámetros del algoritmo. Y hay una serie de parámetros que puede configurar. Algunos de ellos afectan la velocidad. Pero aquí nos centramos principalmente en los parámetros que afectarán la calidad, la naturaleza de las alineaciones que encuentre.

Y aquí, no puede establecer sanciones arbitrarias, pero puede establecer dentro de un rango de sanciones estándar por desajuste. Puedes hacer 1 menos 1, 1 menos 2, etcétera.

Entonces, ¿qué pasa con las secuencias que codifican proteínas? Entonces los exones, por ejemplo. Entonces puede buscarlos con una búsqueda de nucleótidos, como BLAST. Pero a menudo puede ocurrir que le vaya mejor si primero traduce su exón en la secuencia de aminoácidos correspondiente utilizando un código genético y luego busca ese péptido.

Ahora puede que conozca o no el marco de lectura de su exón a priori, o incluso sepa que es un exón, por lo que BLAST automáticamente hará esta traducción por usted. Entonces, por ejemplo, con esta secuencia de ADN, se traducirá en los tres marcos de lectura, lo que conducirá esencialmente a esta bolsa de péptidos aquí, donde a veces presionarás un código de detención, como aquí. Y luego lo trata como, está bien, hay un pequeño dipéptido de relaciones públicas allí. Y luego hay un péptido más largo aquí, [INAUDIBLE], y así sucesivamente.

Así que solo hace estas bolsas de péptidos para cada marco de lectura y busca todos esos péptidos contra algún objetivo, que puede estar acercándose a una base de datos o una base de datos de ADN, nuevamente, traducida en todos los marcos de lectura. Así que la gente de NCBI ha puesto a disposición todos estos diferentes sabores de BLAST. Entonces BLASTP es para proteínas. N es para nucleótidos. Y luego los traductores se llaman cosas como BLASTX para una consulta de nucleótidos contra una base de datos de proteínas. TBLASTN para una consulta de proteínas contra una base de datos de nucleótidos, que se traduce en todos los marcos, o TBLASTX, donde traduce ambas secuencias de nucleótidos en todos los marcos.

Y luego hay una serie de otras versiones de BLAST que probablemente no discutiremos, pero que están bien descritas en el libro de texto y otras fuentes accesibles en línea. Déjame preguntarte esto. Así que recuerde las tecnologías ecológicamente racionales. Por lo tanto, las tecnologías ecológicamente racionales son segmentos de ADNc que normalmente corresponden a una secuencia de ABI 3700 Sanger de ese ADNc, por lo que se lee, como 600 bases aproximadamente.

Entonces, digamos que tiene algunas tecnologías ecológicamente racionales de chimpancé. Y aún no tienes el genoma del chimpancé. Entonces los vas a buscar contra humanos.¿Qué harías? ¿Utilizaría una búsqueda de traducción? ¿O utilizarías una búsqueda BLASTN? ¿O importa?

El chimpancé es un humano 98% idéntico, muy alto. ¿Algunas ideas? Sí, Tim.

AUDIENCIA: Podría utilizar una búsqueda de traducción, porque sabe que los ADNc al menos codifican ARN. Entonces, si solo usa una búsqueda de nucleótidos, entonces no tendrá un significado funcional en términos de alineación. Pero si se trata de una proteína, entonces ...

PROFESOR: ¿Quiere decir que no sabrá si es la proteína que codifica la parte del ADNc o no?

AUDIENCIA: Así que solo quiero decir que si estás buscando entre un chimpancé y un humano, entonces esperas algún tipo de desajuste. Pero es posible que se trate de un desajuste funcional. Entonces sabes que el ADNc codifica quizás una proteína. Por lo tanto, si el desajuste es entre dos aminoácidos similares, entonces se detectaría mediante una búsqueda de traducción, pero estaría sesgado en su contra en una búsqueda de nucleótidos.

PROFESOR: Está bien, bastante justo. Pero si asume que los dos genomas son, digamos, 97% idénticos, incluso en una región no codificante, que son muy altos. No recuerdo el porcentaje exacto, pero muy alto. Entonces, si está buscando 600 nucleótidos contra el genoma, incluso si es 95% idéntico, lo encontrará fácilmente en cualquiera de los dos. Entonces, cualquiera de las respuestas es correcta, BLASTN o BLASTX. Y los UTR solo se podían encontrar mediante ... si sucediera que se trataba de una secuencia de un UTR de tres primos, solo se podía encontrar con BLASTN normalmente.

¿Y si es una EST humana contra el genoma del ratón? Por lo tanto, los exones de ratón son aproximadamente un 80% idénticos a los exones humanos a nivel de nucleótidos, por lo general. ¿Algunas ideas? ¿Qué tipo de búsqueda harías? BLASTN, BLASTX o algo más? TBLASTX. Sí, adelante.

AUDIENCIA: Tengo otra pregunta. ¿Cuál es exactamente el tipo de pregunta que estamos tratando de responder haciendo esta búsqueda BLAST?

PROFESOR: Oh, bueno, estaba asumiendo que solo estaba tratando de encontrar el ADNc o exones homólogos más cercanos en el genoma: exones, supongo, sí, los exones. del gen homólogo. Sí, esa es una buena pregunta. Exones de un gen homólogo. Tenemos una EST humana que va en contra del genoma del ratón. Cuando lo hacemos

AUDIENCIA: Sugiero BLASTP porque--

PROFESOR: Bueno, BLASTP, eso es proteína. Esta es una secuencia de nucleótidos contra nucleótido. Entonces podemos hacer BLASTN o TBLASTX, digamos.

PROFESOR: TBLASTX. Traduces tu EST, traduces el genoma, buscas esos péptidos. TBLASTX, ¿por qué?

AUDIENCIA: Las secuencias de nucleótidos pueden tener solo un 80% de similitud, pero las secuencias de proteínas funcionalmente, debido a las limitaciones funcionales, en realidad pueden obtener similitudes más altas allí.

PROFESOR: Sí. Es exactamente correcto. Así que, en promedio, son aproximadamente un 80% idénticos. Varía según el gen. Pero muchas de esas variaciones que ocurren están en el tercer lado del codón que no afectan al aminoácido, porque hay mucha restricción en la secuencia de la proteína. Y así, en general, lo hará mejor con una búsqueda de traducción que con una búsqueda de nucleótidos.

Aunque ambos pueden funcionar. Pero puede encontrar una coincidencia más completa con una búsqueda de traducción. Eso es bueno. ¿Todos entendieron eso? Sally, sí.

AUDIENCIA: ¿Hay alguna razón por la que no usaría BLASTX y en su lugar usa TBLASTX?

PROFESOR: Sí, acabo de dar el ejemplo de la búsqueda contra el genoma. Pero también puedes buscar contra el proteoma del ratón. Podrías o no. Depende de lo bien anotado que esté ese genoma. El mouse está bastante bien anotado. Probablemente se conozcan casi todas las proteínas. Así que probablemente lo consigas.

Pero si estuviera buscando contra algún organismo más oscuro, el genoma del camaleón o algo así, y no estaba bien anotado, entonces podría hacerlo mejor con la búsqueda contra el genoma, porque podría encontrar una nueva x allí. Está bien. Pregunta sí, adelante.

AUDIENCIA: Entonces, cuando hacemos estas traducciones, estos nucleótidos, aminoácidos, ¿obtenemos todos los marcos? ¿Los algoritmos para todos los fotogramas?

PROFESOR: Sí, los seis marcos. Entonces, tres cuadros en el hilo positivo y tres cuadros en el hilo inverso. Sí. Está bien, genial.

Así que ese es el final de la alineación local, por el momento. Y ahora pasaremos a la alineación global utilizando dos algoritmos. Para la alineación global, Needleman-Wunch-Sellers, y luego para la alineación local con huecos, Smith-Waterman. Y hacia el final, vamos a presentar el concepto de matrices de sustitución de aminoácidos.

Así que el trasfondo de hoy, el libro de texto hace un buen trabajo en estos temas, especialmente las páginas indicadas son buenas para presentar la serie de matrices PAM. Hablaremos un poco hoy y un poco la próxima vez.

Entonces, ¿por qué alinearíamos las secuencias de proteínas? Entonces, la razón más obvia es encontrar homólogos que podríamos, entonces, querer investigar, o podríamos, por ejemplo, si tiene una proteína humana y encuentra una proteína de ratón homóloga, y esa proteína de ratón tiene una función conocida de un knockout o a partir de algunos estudios bioquímicos, por ejemplo, se puede adivinar que la proteína humana tendrá una función similar. Por lo tanto, a menudo usamos este tipo de inferencia de que la similitud de secuencia implica similitud en función y / o estructura.

Entonces, ¿qué tan cierto es esto? De modo que resulta, a partir de una amplia literatura, que esta inferencia de que la similitud de secuencia implica similitud funcional y estructural es casi siempre cierta cuando la similitud de secuencia es más del 30% de identidad en toda la longitud de una proteína, más de 300, 400 aminoácidos. Esa es una buena inferencia.

Por debajo de eso, una especie de similitud de secuencia del 20% al 30%, que a menudo se conoce como la Zona Crepuscular, donde a veces es una buena inferencia y otras no. Así que debes tener un poco de cuidado. Y debajo de eso, está más adentro de la Twilight Zone, donde la mayoría de las veces probablemente no deberías confiar en él. Pero ocasionalmente, puedes ver estas homologías muy remotas. Es posible que desee tener información adicional para respaldar ese tipo de inferencia.

Y solo quiero señalar que lo contrario no es cierto en biología. Entonces, la similitud estructural no implica similitud de secuencia o incluso derivación de un ancestro común. Entonces, puede pensar, bueno, cada proteína tiene una estructura tridimensional realmente compleja y elaborada, y no hay forma de que pueda evolucionar dos veces.

Y es cierto que probablemente esa estructura exacta nunca pueda evolucionar dos veces. Pero una estructura muy similar, incluso un pliegue similar, en términos de la topología de hélices alfa y hebras beta, de las que hablará el profesor Frank más adelante en el curso, el pliegue idéntico puede involucrar más de una vez. No es tan difícil desarrollar un patrón de hélices alfa y hebras beta.

Y entonces este punto sobre la similitud estructural no implica similitud de secuencia, la forma en que lo pienso es así, como aquí hay dos organismos. Este es un colibrí, todos lo han visto. Y algunos de ustedes pueden haber visto esto. Esta es una polilla halcón, que es un insecto que mide aproximadamente dos pulgadas de largo, bate sus alas muy rápido, tiene una lengua larga que sorbe el néctar de las flores. Así que básicamente ocupa el mismo nicho ecológico que un colibrí, y se ve muy, muy similar a un colibrí a distancia. Desde 10 pies o más, a menudo no se puede saber.

Este es un insecto y eso es un pájaro. El último antepasado común fue algo que probablemente vivió hace 500 millones de años, y ciertamente no tenía alas, y puede que no tuviera piernas ni ojos. Y, sin embargo, han desarrollado ojos y alas de forma independiente y todas estas cosas. Entonces, cuando hay presión selectiva para hacer evolucionar algo, ya sea una morfología o una estructura de proteína, por ejemplo, la evolución es lo suficientemente flexible como para que pueda evolucionarlo muchas, muchas veces.

Así que aquí hay un ejemplo del mundo de la estructura de las proteínas. Esta es una proteína de unión a hierro homófila. Este es solo el centro de coordinación de hierro. Y esta es ahora una proteína eucariota llamada lactoferrina. Resulta que estos tipos son homólogos. Pero los eucariotas y las bacterias divergieron hace 2 millones de años aproximadamente, por lo que su ascendencia es muy, muy antigua.

Y, sin embargo, puede ver que en este centro de coordinación de hierro, aquí tiene una tirosina apuntando hacia el hierro. Y tienes una histidina aquí, y así sucesivamente. Entonces la geometría se ha conservado en gran medida. No está perfectamente conservado. Aquí tienes un carboxilato. Y aquí tienes un fosfato.

Entonces ha habido un pequeño cambio. Pero en general, esta forma de coordinar el hierro ha evolucionado básicamente de forma independiente. Entonces, aunque estos son homólogos, los últimos aniones unidos por el ancestro común, eso se conoce por la construcción [INAUDIBLE]. Así que desarrollaron de forma independiente la capacidad de unir cationes, como el hierro.

Y este es mi ejemplo favorito. Entonces, aquí hay una proteína llamada factor de reciclaje de ribosomas. Y esa es su forma. Así que es una proteína de forma muy inusual que tiene la forma de una L.

¿Esto le recuerda a alguien algo, esta forma en particular? ¿Has visto esto en otra biomolécula en algún momento?

PROFESOR: Algo como [INAUDIBLE]. Bien, podría ser. ¿Alguna otra suposición? ¿Qué tal esto? Eso es un ARNt. Entonces, la estructura 3D del tRNA es casi idéntica, tanto en términos de forma general como en términos de geometría. Lo siento, tengo problemas con mis animaciones aquí.

La geometría de estos, ambos son de unos 70 angstroms de largo. Entonces, ¿por qué es eso? ¿Por qué evolucionaría esta proteína para tener la misma forma tridimensional que un ARNt? ¿Algunas ideas?

PROFESOR: [INAUDIBLE]. Exactamente. Encaja en el ribosoma, y ​​está involucrado, cuando el ribosoma se detiene y básicamente libera el ribosoma. Entonces está imitando un ARNt en términos de estructura.

Entonces, el punto sobre esto es que, si tuviera que tomar un montón de biomoléculas y unirlas usando un algoritmo de comparación de estructuras para encontrar otras similares, estas dos son claramente similares. Y, sin embargo, probablemente nunca tuvieron un derecho de ancestro común, porque uno es un ARN en uno es una proteína.

está bien. Entonces, ahora vamos a hablar sobre algunos tipos diferentes de alineaciones. Así que hablamos de alineaciones locales, donde no intentas alinear toda la secuencia de tu consulta o tu base de datos. Solo encuentra regiones más pequeñas de alta similitud. Alineación global, donde intentas alinear las dos proteínas de un extremo a otro, asumes que estas dos proteínas son homólogas y que, en realidad, no han tenido inserciones o reordenamientos importantes de su secuencia. Y luego semi-global, que es una especie de giro en global.

Y hablaremos de algunos sistemas de puntuación diferentes, tan abiertos, de los que hemos estado hablando hasta ahora, y luego presentaremos brechas de dos tipos que se llaman lineales y afines. Y la nomenclatura es un poco confusa, como verá. Ambos son lineales, en cierto sentido.

Entonces, una forma común de representar alineaciones de secuencias, especialmente en la alineación de proteínas, puede hacerlo para proteínas o ADN, es lo que se llama matriz de puntos. Ahora tenemos dos proteínas. Pueden tener 500 aminoácidos cada uno, digamos. Escribe la secuencia uno a lo largo del eje x, la secuencia dos a lo largo del eje y. Y luego haces un punto en esta matriz siempre que tengan residuos idénticos, aunque probablemente habría muchos más puntos en esto.

Entonces, digamos, siempre que tenga tres residuos en una fila que sean idénticos ... Está bien, eso va a ocurrir con bastante poca frecuencia, ya que hay 20 aminoácidos. Y haces ese punto. Y para estas dos proteínas, no obtienes puntos diagonales. Solo obtienes estas tres líneas diagonales aquí. Entonces, ¿qué te dice eso sobre la historia de estas dos proteínas? ¿Qué es eso de ahí? Salida.

AUDIENCIA: Una inserción o supresión.

PROFESOR: Una inserción o supresión. ¿Una inserción en qué proteína?

PROFESOR: ¿O una supresión en?

PROFESOR: Está bien. ¿Todos entendieron eso? Está bien. Aquí hay una secuencia adicional en la secuencia dos que no está en la secuencia uno. No sabes si es una inserción o una eliminación. Podría ser cualquiera, según esta información. A veces puede averiguarlo a partir de otra información. Así que a veces se llama a eso indel: inserción o eliminación.

Y luego, ¿qué es esto aquí abajo? ¿Alguien más? Inserción, escuché, inserción en la secuencia uno o eliminación en la secuencia dos. Está bien. Muy bien, entonces, ¿qué tipo de alineación sería la más apropiada para este par de secuencias, una local o una global?

AUDIENCIA: Yo haría globales, porque son muy, muy similares. [INAUDIBLE].

PROFESOR: Sí. Son bastante similares en toda su longitud, solo con estos dos indeles principales. Así que ese es el caso clásico en el que desea hacer la alineación global.

Está bien. Entonces, ¿qué pasa con estas dos proteínas? Con base en esta matriz de puntos, ¿qué puede decir sobre la relación entre estos dos y qué tipo de alineación le gustaría usar al comparar estas dos proteínas? Si, cual es tu nombre?

AUDIENCIA: Parece que tienen dominios similares, tal vez. Entonces, la alineación local podría ser mejor.

PROFESOR: ¿Y por qué no haría una alineación global?

AUDIENCIA: Local, porque la alineación local podría encontrar esos dominios y decirle cuáles son.

PROFESOR: Entonces, una alineación local debería al menos encontrar a estos dos tipos aquí. ¿Y por qué estas dos líneas diagonales paralelas, qué te dice eso?

PÚBLICO: Que las dos proteínas diferentes tienen secuencias similares, solo que en diferentes partes de la proteína, áreas diferentes con respecto al inicio.

PROFESOR: Correcto. Sí, adelante.

AUDIENCIA: ¿No significa básicamente que hay una sección en la secuencia dos que está en la secuencia uno dos veces?

PROFESOR: Sí, exactamente. Entonces, este segmento de la secuencia dos, aquí, lo siento, tenemos problemas, ahí vamos, aparte, está presente dos veces en la secuencia uno. Está presente una vez desde aquí hasta aquí, y luego está presente una vez desde aquí hasta aquí. Entonces se repite.

Entonces, las repeticiones y cosas así confundirán su alineación global. La alineación global necesita alinear cada residuo, o intentar alinear cada residuo en la proteína uno con cada residuo en la proteína dos. Y aquí es ambiguo. No está claro qué parte de la secuencia uno alinear con esa parte de la secuencia dos.

Entonces se confundirá. Elegirá uno u otro. Pero eso puede estar mal, y eso realmente no capta lo que realmente sucede. Así que sí, aquí sería más adecuado un alineamiento local. Bueno.

Así que hablemos ahora de los huecos, nuevamente, que se pueden llamar indeles. En las alineaciones de secuencias de proteínas, o ADN, que probablemente muchos de ustedes hayan visto, a menudo usan tal vez solo un guión para representar una brecha. Entonces, en esta alineación aquí, pueden ver que es una alineación razonable, ¿verdad? Tienes una combinación bastante buena en ambos lados.

Pero no hay nada en la segunda secuencia que coincida con el RG en la primera secuencia. Entonces esa sería una alineación razonable de esos dos. Entonces, lo que se usa a menudo es lo que se llama penalización por espacio lineal.

Entonces, si tiene brechas finales, como en este caso dos, asigna una penalización por brecha A, digamos. Y A es un número negativo. Y luego puede ejecutar los mismos tipos de algoritmos, en los que agrega coincidencias, penaliza las discrepancias, pero luego tiene una penalización adicional que aplica cuando introduce una brecha.

Y, por lo general, la penalización por brecha es más severa que su desajuste promedio. Pero realmente no hay una teoría que diga exactamente cómo se debe elegir la penalización por brecha. Pero empíricamente, en los casos en los que debería saber la respuesta, donde tiene, por ejemplo, una alineación estructural, a menudo puede encontrar que una penalización por brecha que es mayor que su penalización por desajuste promedio suele ser lo correcto.

Entonces, ¿por qué sería eso? ¿Por qué una penalización por brecha? ¿Por qué querría establecerla más grande que una falta de coincidencia típica? ¿Algunas ideas? Si, cual es tu nombre?

PÚBLICO: Porque tener mutaciones que cambian el marco o que un inserto tendría inserciones o eliminaciones es mucho más infrecuente que solo tener cambios [INAUDIBLE].

PROFESOR: Las mutaciones que crean inserciones y deleciones son menos comunes que las que introducen sustituciones de residuos. ¿Todos entendieron eso? Eso es cierto. ¿Y sabes por qué factor?

AUDIENCIA: Oh, no podría darles un número.

PROFESOR: Quiero decir, esto varía según el organismo, y varía según el tipo de inserción que esté mirando. Pero incluso a nivel de un solo nucleótido, tener inserciones es aproximadamente un orden de magnitud menos común que tener una sustitución en esos linajes.

Y aquí, para obtener una inserción de aminoácidos, en realidad debe tener una inserción de triplete, tres o seis o algún múltiplo de tres en el exón. Y eso es un poco menos común. Entonces ocurren con menos frecuencia. Una mutación ocurre con menos frecuencia y, por lo tanto, la evolución la acepta con menos frecuencia.

Y una alternativa es la llamada penalización por brecha afín, que se define como G más n lambda. Entonces n es el número de huecos, y luego G es lo que se llama penalización por apertura de huecos. Entonces, la idea aquí es que, básicamente, las brechas tienden a agruparse.

Entonces, tener una inserción es algo raro. Penalizas eso con G. Pero luego, si vas a tener una inserción, a veces tendrás una gran inserción de dos o tres o cuatro codones. Una inserción de cuatro codones no debería penalizarse dos veces más que una inserción de dos codones, porque en realidad solo se produjo un espacio. Y cuando tiene este evento de inserción, puede ser de cualquier variedad de tamaños.

Aún se penaliza más por una brecha más grande que por una brecha más pequeña, pero ya no es lineal. Quiero decir, sigue siendo una función lineal, solo con esta constante agregada. Estos son los dos tipos comunes de penalizaciones por brecha que verá en la literatura.

El afín funciona un poco mejor, pero es un poco más complicado de implementar. Entonces, a veces verá que ambos se usan en la práctica. Y luego, por supuesto, al cambiar su definición de gamma, podría tener un G más n menos 1. Entonces, ese primer espacio sería G, y luego todos los espacios posteriores serían gamma. Entonces no tendrás que duplicar la puntuación de algo.

Está bien. está bien. Tienes dos proteínas. ¿Cómo encuentra realmente la alineación global óptima? ¿Alguna idea sobre cómo hacer esto?

Entonces podemos escribir una secuencia en un eje, una en el otro eje. Podemos hacer este diagrama de puntos. El diagrama de puntos puede darnos algunas ideas sobre lo que está sucediendo. Pero, ¿cómo encontramos realmente el óptimo en el que queremos comenzar desde el principio? Al final, vamos a escribir las dos secuencias una encima de la otra.

Y si el primer residuo o la primera secuencia es n, y tal vez lo alineemos aquí, entonces tenemos que escribir la secuencia completa aquí hasta el final. Y debajo tiene que haber un residuo en la secuencia dos o un espacio. Y nuevamente, podemos tener brechas aquí. Entonces tienes que hacer algo. Tienes que hacerlo todo desde el principio hasta el final. Y solo vamos a sumar las puntuaciones de todos los residuos coincidentes, de todos los residuos no coincidentes y de todos los huecos. ¿Cómo encontramos esa alineación? Chris.

AUDIENCIA: Bueno, dado que estamos usando programación dinámica, supongo que tendrá que completar una matriz de algún tipo y retroceder.

PROFESOR: Entonces, cuando ve el término programación dinámica, ¿qué significa eso para usted?

AUDIENCIA: Vas a encontrar soluciones a subproblemas hasta que encuentres una solución más pequeña. Luego retrocederá a través de lo que ha resuelto hasta ahora para encontrar la secuencia global.

PROFESOR: Bien. Esa es una buena forma de describirlo. Entonces, ¿en qué problemas menores vas a dividir este gran problema?

AUDIENCIA: Las subsecuencias más pequeñas.

PROFESOR: ¿Qué subsecuencias más pequeñas? ¿Alguien mas? Definitivamente estás en el camino correcto aquí. Adelante.

AUDIENCIA: Quiero decir, dice en la parte superior, una secuencia en la parte superior y otra en el lateral. Podrías comenzar solo con la brecha versus la secuencia y decir que tu brecha aumentará a medida que avanzas. Básicamente, cada celda podría llenarse con información de algunos de sus vecinos. Entonces, quiere asegurarse de completar las celdas antiguas en algún orden para que podamos pasar al siguiente nivel con lo que tenemos [? escrito. ?]

PROFESOR: Entonces, si tuvieras que encontrar precisamente un subproblema en el que pudieras ver cuál es la respuesta, y luego un subproblema un poco más grande cuya solución se basaría en la solución del primero, ¿por dónde empezarías? ¿Cuál sería tu subproblema más pequeño?

PÚBLICO: Comenzaría con la fila superior, porque podría simplemente el espacio contra el espacio, y luego moverme en la fila, porque no necesita nada por encima de eso.

PROFESOR: ¿Y entonces cuál es el problema real más pequeño en el que realmente tienes partes de la proteína alineadas?

AUDIENCIA: Básicamente, una fila en la columna dos. Si es un partido, tienes algo de puntuación. Y si no coincide, tiene otra puntuación. Y quieres el mejor posible en cada bloque.

PROFESOR: Sí, está bien. Sí. Eso es bueno. Entonces, solo para generalizar esto, con suerte esto está en blanco, en general, podría pensar que tenemos, digamos, 1 an aquí, y una secuencia 1 an aquí. Podrías pensar en una posición i aquí y una posición j aquí. Y podríamos decir que encontrar la alineación global óptima es un gran problema. Eso es complicado.

Pero encontrar una alineación de solo la secuencia de 1 a i en la primera proteína contra la secuencia de 1 a j en la segunda proteína, podría ser bastante fácil. Si i es 2 y j es 2, tienes un dipéptido contra un dipéptido. De hecho, podría probar todas las combinaciones y obtener la alineación óptima allí.

Entonces, la idea, entonces, es que si puede registrar esos puntajes óptimos aquí en esta matriz, entonces podría construir, por ejemplo, así, y encontrar las alineaciones óptimas de subproblemas cada vez más grandes donde agrega otro residuo en cada dirección , por ejemplo. ¿Eso tiene sentido para ti?

La idea de un algoritmo de programación dinámica es una forma de optimización recursiva. Entonces, primero optimizas algo pequeño y luego optimizas algo más grande usando la solución que obtuviste de esa pieza más pequeña. Y la forma en que se hace para las secuencias de proteínas en Neeleman-Wunsch es, como decíamos, considerar primero que podría haber una brecha en una alineación con un residuo en la otra. Por lo tanto, debemos colocar estos espacios en la parte superior y en los laterales.

Esta es una penalización por espacio lineal, por ejemplo. Y así sería como empezar. Y esta es una penalización por espacio, obviamente, de menos 8. Entonces, si usted es la solución óptima que comienza con esta V en la secuencia superior alineada con este espacio en la secuencia vertical, hay un espacio allí, por lo que es menos 8. Y luego, si desea comenzar con dos espacios en contra de esta V y D, entonces es menos 16.

Así que así es como lo empezarías. Así que empiezas con estos problemas donde no hay opciones. Si tiene dos huecos contra dos residuos, eso es menos 16. Según nuestro sistema de puntuación, no es ambiguo. Así que puedes completarlos.

Y luego puedes empezar a pensar, ¿qué ponemos aquí mismo? ¿Qué puntuación deberíamos poner ahí? Recuerde, estamos definiendo las entradas en esta matriz como la puntuación óptima de la subsecuencia de la proteína superior hasta la posición i contra la proteína vertical hasta la posición j. Así que esa sería la posición de proteína superior uno hasta la posición de proteína vertical uno. ¿Qué puntuación sería esa? ¿Cuál es la alineación óptica que termina en la posición uno en ambas secuencias?

Dependerá de tu sistema de puntuación. Pero para un sistema de puntuación razonable, eso es un partido. Eso va a obtener una puntuación positiva. Eso va a ser mejor que cualquier cosa que involucre una brecha en uno contra una brecha en el otro o algo tan loco como eso. Así que eso va a obtener lo que sea tu puntuación de coincidencia VV. Este es su Sij de su matriz de puntuación para sus diferentes aminoácidos.

Y luego, básicamente, la forma en que se hace esto es considerar que cuando estás emparejando esa posición uno con la posición uno, es posible que hayas venido de un espacio antes en una secuencia o un espacio en la otra secuencia, o de una posición de coincidencia en la otra secuencia. Y eso lleva a estas tres flechas.

Creo que queda claro si escribo todo el algoritmo aquí. Entonces Sij es la puntuación de la alineación óptima que termina en la posición i en la secuencia uno y la posición j en la secuencia dos. Requiere que sepamos lo que está arriba, a la izquierda y en diagonal arriba. Y lo resuelve de arriba a abajo y de izquierda a abajo y a la derecha, lo que a menudo se denomina programación dinámica. Y veamos qué es la recursividad.

Así que Needleman y Wunsch básicamente observaron que se puede encontrar este puntaje de alineación global óptimo al completar la matriz tomando en cada punto el máximo de estos tres puntajes aquí. Entonces, toma el máximo de la puntuación que tenía arriba y hacia la izquierda, es decir, diagonalmente arriba, más sigma de xi yj. Sigma, en este caso, es la matriz de puntuación que está utilizando, que es de 20 por 20, que puntúa cada aminoácido frente a los demás residuos de aminoácidos.

Agrega esa puntuación si se va a mover en diagonal a la puntuación óptima que haya allí, o si se mueve hacia la derecha o hacia abajo, está agregando un espacio en una secuencia u otra. Por lo tanto, debe agregar A, que es esta penalización por espacio, que es un número negativo, a lo que fuera la alineación óptima antes.

Creo que tal vez sea más fácil si hacemos un ejemplo aquí. Así que aquí está la matriz de puntuación de PAM250. Así que esto fue desarrollado por Dayhoff en los años 70. Esta puede ser una versión actualizada, pero es más o menos igual que la original. Fíjate, es una matriz triangular. ¿Porqué es eso?

PROFESOR: Es simétrico, cierto. Entonces tiene una diagonal. Pero entonces, todo lo que esté debajo de la diagonal, se reflejaría por encima de la diagonal, porque es simétrico. Debido a que no sabe cuándo ve una valina emparejada con una leucina, es lo mismo que una leucina combinada con una valina, porque es una definición simétrica de puntuación.

Y aquí hay dos puntuaciones relevantes. Por tanto, observe que VV tiene una puntuación de más 4 en esta matriz. Y aquí, VD tiene una puntuación de menos 2. Así que las escribiré.

¿Alguien notó algo más interesante sobre esta matriz? No hemos dicho exactamente de dónde viene, pero lo haremos. Si, cual es tu nombre?

AUDIENCIA: No todos los valores diagonales son iguales.

PROFESOR: No todas las diagonales son iguales. De hecho, hay un rango bastante grande, desde 2 hasta 17, por lo que es un rango grande. ¿Y algo mas? OK, lo siento, adelante. ¿Cómo te llamas?

PROFESOR: Tagius, sí. Adelante.

AUDIENCIA: ¿Hay valores positivos para las cosas que no son iguales?

PROFESOR: Sí. Entonces, todos los términos diagonales son positivos. Por lo tanto, una coincidencia de cualquier tipo de residuo en particular con su residuo idéntico siempre se puntúa positivamente, pero con puntuaciones variables. Y también hay algunas puntuaciones positivas fuera de la diagonal. ¿Y dónde están ocurriendo esos puntajes positivos?

Tenga en cuenta que tienden a ser residuos cercanos. Y observe que el orden de los residuos no es alfabético. Entonces, alguien que sepa mucho sobre aminoácidos, ¿qué puede ver acerca de estos puntajes? Sí, adelante.

AUDIENCIA: Creo que estos aminoácidos [INAUDIBLES] basados ​​en su [INAUDIBLES].

PROFESOR: Entonces el comentario fue que los residuos se han agrupado por una química similar de sus cadenas laterales. Y eso es exactamente correcto. Entonces, los residuos básicos, histidina, arginina y lisina, están todos juntos. Los residuos ácidos, aspartato y glutamato, están aquí, junto con asparagina y glutamina.

Y observe que D a E tiene una puntuación positiva aquí. Es 3. Es casi tan bueno como D a D o E a E, que son más 4. Entonces, reconociendo que a menudo se puede sustituir en la evolución un aspartato por un glutamato.

Así que sí, básicamente, hasta cierto punto, está anotando una química similar. Pero eso no explica por qué, en la diagonal, tiene un rango de valores tan amplio. ¿Por qué un triptófano se parece más a un triptófano que una serina a una serina? Tim, ¿quieres comentar?

PÚBLICO: Quizás sea porque los triptófanos ocurren muy raramente en todas las proteínas [INAUDIBLE]. Entonces, si tienes dos [INAUDIBLES], eso es mucho más raro y [INAUDIBLE].

PROFESOR: Entonces, el punto de Tim era que los triptófanos ocurren raramente, así que cuando vea dos triptófanos alineados, debe tomar nota de ello. Puede anclar su alineación. Puede tener más confianza en eso. Salida.

AUDIENCIA: Bueno, los triptófanos también son increíblemente voluminosos y también tienen la capacidad de realizar interacciones eléctricas, interacciones electrostáticas.

PROFESOR: No es realmente electrostático, diría usted, más ...

AUDIENCIA: Si. Pero tienen muchas habilidades para interactuar con otras cadenas laterales. Y las cisteínas contribuyen muy, muy fuertemente a la estructura tridimensional de la proteína.

AUDIENCIA: Bueno, porque pueden formar [INAUDIBLE].

PROFESOR: Está bien. Sí. Entonces, tal vez no coloque sus triptófanos y sus cisteínas en su proteína por casualidad, o solo los coloque cuando los desee, cuando haya suficiente espacio para un triptófano. Y cuando lo sustituyes por algo más pequeño, deja un hueco. Deja una brecha espacial 3D. Y entonces no quieres eso. No se empaca bien.

Cuando tienes cisteínas, forman enlaces disulfuro. Si lo cambia a algo que no sea cisteína, ya puede formar eso. Eso podría ser perjudicial para el pliegue general. Entonces, esos tienden a estar más conservados en las alineaciones de secuencias de proteínas, absolutamente.

Mientras que, por ejemplo, si nos fijamos en estos hidrofóbicos, el grupo MILV aquí abajo, todos tienen puntuaciones positivas entre sí. Y eso dice que, básicamente, la mayoría de las veces que se usan, quiero decir, hay veces en las que realmente importa. Pero durante mucho tiempo, si solo desea un segmento transmembrana, a menudo puede sustituir cualquiera de estos en varias posiciones y funcionará igualmente bien como un segmento transmembrana.

Entonces, estos no son aleatorios en absoluto. Aquí hay algunos patrones. Así que volvamos a este algoritmo. Así que ahora, si vamos a implementar esta recursividad, entonces llenamos la fila superior y la columna izquierda, y luego necesitamos completar esto primero. Yo diría que el primer lugar interesante en la matriz está aquí.

Y consideramos agregar un espacio aquí. Cuando te mueves vertical u horizontalmente, no estás agregando una coincidencia ni agregando una coincidencia. Entonces, desde esta posición, este es el punto de partida. En realidad, no corresponde a una posición particular en la proteína. Vamos a sumar ahora la puntuación de VV.

Y dijimos que VV, lo buscas en esa matriz PAM, y es más 4. Así que vamos a sumar 4 allí a 0. Y eso es claramente más grande que menos 16, que es lo que obtienes al llegar arriba o viniendo de la izquierda. Así que pones el 4.

Y luego tú también, además de poner ese 4 ahí, también te quedas con la flecha. Entonces está esa flecha roja. Recordamos de dónde venimos en este algoritmo. Porque alguien dijo algo sobre dar marcha atrás, creo que Chris, así que eso será relevante más adelante.

Así que básicamente nos deshacemos de esas dos flechas punteadas y solo mantenemos esa flecha roja y la puntuación. Y luego completamos la siguiente posición aquí. Y para completar esto, ahora estamos considerando ir a la segunda posición en la secuencia uno, pero todavía estamos en la primera posición en la secuencia dos. Entonces, si hacemos coincidir V con V, entonces tendríamos que agregar, básicamente, un espacio en una de las secuencias. Básicamente sería una brecha en la secuencia dos. Y eso será menos 8.

Entonces, toma 4, y luego más menos 8, por lo que es negativo 4. O puede hacer menos 8 y luego más negativo 2, si desea comenzar desde un espacio y luego agregar una discrepancia de DV allí, porque menos 2 era la puntuación para una discrepancia de DV. O nuevamente, puede comenzar desde un espacio y luego agregar otro espacio.

OK, ¿eso tiene sentido? Entonces, ¿cuál será el máximo? Negativo 4. Y la flecha será horizontal, porque obtuvimos algunos puntos de bonificación por esa coincidencia de VV, y ahora se transfiere. Somos negativos, pero está bien. Vamos a mantener el máximo, sea lo que sea.

Muy bien, es menos 4 y la flecha horizontal. Y luego, aquí está la matriz completa completada. Y tendrá la oportunidad de hacer esto por sí mismo en el primer conjunto de problemas. Y también he completado flechas. No he completado todas las flechas, porque se llena un poco. Pero todas las flechas relevantes aquí están completadas, así como algunas flechas irrelevantes.

Entonces, una vez que complete esto, ¿qué hago con esta información? ¿Cómo obtengo una alineación real de esta matriz? ¿Algunas ideas? Si, cual es tu nombre?

PROFESOR: Sí, entonces lo que dijo es comenzar en la esquina inferior derecha y retroceder siguiendo las flechas rojas al revés. ¿Está bien? Entonces, ¿por qué la esquina inferior derecha? ¿Qué tiene eso de especial?

PROFESOR: Sí. Es una puntuación de la alineación óptima de toda la secuencia uno contra toda la secuencia dos. Entonces esa es la respuesta. Eso es lo que definimos como la alineación global óptima.

Y luego quieres saber cómo llegaste allí. ¿Y cómo llegamos ahí? Entonces, el hecho de que haya una flecha roja aquí, ¿a qué corresponde específicamente esa flecha roja?

PROFESOR: Correcto. En este caso particular, para esta flecha roja en particular, recuerde que las diagonales son coincidencias. Entonces, ¿qué partido es ese?

PROFESOR: Sí, eso es una coincidencia de Y a Y, ¿verdad? ¿Todos pueden ver eso? Sumamos Y a Y, que era más 10, a lo que fuera este 13 y obtuvimos 23. Bien, ahora volvemos a aquí. ¿Y luego cómo llegamos aquí? Vinimos de aquí siguiendo esta flecha diagonal.

¿Que es eso? ¿Qué partido fue ese? Eso es una coincidencia de cisteína-cisteína. Y luego, ¿cómo llegamos a este 1? Vinimos verticalmente. ¿Y qué significa eso?

PROFESOR: Insertamos un hueco, ¿en qué secuencia? El primero. ¿El segundo? ¿Qué piensa la gente? Bajando.

PROFESOR: Sí, el de arriba. Y eso nos trajo hasta aquí. Aquí hay una coincidencia, más 2 por tener una coincidencia serina-serina. Aquí hay un más 3 por tener un desajuste de D con E. Pero recuerde, esos son químicamente similares, por lo que obtienen una puntuación positiva. Y luego esta es la V a la V.

Entonces, ¿puedes ver? Creo que tengo la alineación óptima escrita en algún lugar aquí, con suerte, allá. Eso se llama rastreo de regreso. Y luego esa es la alineación.

OK, alineamos la Y con la Y, la C con la C. Entonces tenemos básicamente un espacio en esta secuencia superior, ese es ese guión púrpura que corresponde a esa L. Y puedes ver por qué queríamos poner esa brecha allí, porque queremos que estas S coincidan, y queremos que las C coincidan. Y la única forma de conectarlos es tener un espacio en el morado.

Y el violeta era más corto que la secuencia verde de todos modos, así que sabíamos que iba a haber un espacio en alguna parte. Y bueno. Y esa es la alineación óptima. Así que esa es solo una filosofía sobre las alineaciones Needlemen-Wunsch.

Entonces, ¿qué es la alineación semi-global? No ves eso tan comúnmente. No es tan importante. No quiero dedicar demasiado tiempo a eso. Pero en realidad es razonable muchas veces que, digamos que tiene una proteína que tiene una actividad enzimática particular, y puede encontrar que, en general, la mayor parte de la proteína está bien conservada en todas las especies.

Pero luego, en los extremos N y C, hay un poco de aleteo. Puede agregar algunos residuos o eliminar algunos residuos, y no importa mucho en los extremos N y C. O puede que no importe por la estructura, sino porque, ya sabes, estás agregando un solo péptido para que sea secretado, o estás agregando alguna señal de localización. Estás agregando algo que no se conserva necesariamente.

Y entonces una alineación semi-global, donde usa el mismo algoritmo, excepto que inicializa los bordes de la matriz de programación dinámica a 0, en lugar de menos 8, menos 16 espacio completo, y va a 0. Entonces no estamos va a penalizar por los huecos de los bordes.

Y luego, en lugar de requerir que el rastreo comience en la parte inferior derecha, Smn, permite que comience en la puntuación más alta en la fila inferior o en la columna más a la derecha. Y cuando hace el seguimiento como antes, estos dos cambios básicamente encuentran la alineación global óptima pero permitiendo números arbitrarios de espacios en los extremos y simplemente encontrando la coincidencia principal.

Tiene que ir básicamente al final de una u otra secuencia, pero luego puede tener otros residuos colgando del final de la otra secuencia, si lo desea, sin penalización. Y esto a veces dará una mejor respuesta, por lo que vale la pena conocerlo. Y es bastante fácil de implementar.

Ahora, ¿qué pasa con las alineaciones locales con huecos? Entonces, ¿qué pasa si tienes dos proteínas? ¿Recuerdas esas dos proteínas donde teníamos las dos diagonales? Supongo que eran líneas diagonales. ¿Cómo donde ellos? Algo como eso. De todos modos, líneas diagonales como esa.

Entonces, donde en esta proteína en la vertical, hay una secuencia aquí que coincide con dos segmentos de la proteína horizontal. Entonces, para esos dos, no querrás hacer esta alineación global. Se confundirá. No sabe si hacer coincidir a este tipo con este o con este otro en la secuencia. Entonces quieres usar una alineación local. Entonces, ¿cómo modificamos este algoritmo de Needleman-Wunsch para hacer una alineación local? ¿Algunas ideas? No es muy difícil. Sí, adelante.

AUDIENCIA: Si el puntaje va a ser negativo, en lugar de poner un puntaje negativo, simplemente ponga 0 y comience desde donde obtiene el puntaje total más alto, en lugar de la última columna o la última fila. Inicie su rastreo desde la puntuación más alta.

PROFESOR: Entonces, cuando te vuelves negativo, lo restableces a 0. Ahora, ¿a qué te recuerda eso? Ese es el mismo truco que escribimos anteriormente con una alineación local sin espacios. Así que lo restableces a 0. Y eso no es una penalización, porque si te vuelves negativo, es mejor simplemente tirar esas cosas y empezar de nuevo. Podemos hacer eso porque estamos haciendo una alineación local. No tenemos que alinear todo. Entonces eso está permitido.

Y luego, en lugar de ir a la esquina inferior derecha, puede estar en cualquier parte de la matriz. Busca ese puntaje más alto y luego hace el rastreo. Eso es exactamente correcto. Entonces no es tan diferente.

Sin embargo, ahora hay algunas limitaciones en el sistema de puntuación. Entonces, si piensa en el algoritmo de Needleman-Wunsch, podríamos usar una matriz que tuviera todos los puntajes positivos. Podrías tomar la matriz PAM250.Y digamos que el puntaje más negativo que hay, no sé, como menos 10 o algo así, y podría agregar 10, o incluso agregar 20 a todos esos puntajes. Entonces todos son positivos ahora. Y aún podrías ejecutar ese algoritmo. Y aún produciría resultados más o menos sensibles.

Quiero decir, no serían tan buenos como el PAM250 real, pero aún así obtendría una alineación coherente del otro extremo. Pero eso ya no es cierto cuando se habla del algoritmo Smith-Waterman, por la misma razón que una alineación local sin huecos, tuvimos que requerir que la puntuación esperada sea negativa, porque debe tener esta deriva negativa para encontrar regiones pequeñas que ir en positivo.

Entonces, si tiene esta regla, este tipo de permisividad que dice, cada vez que nos volvemos negativos, podemos restablecer a 0, entonces debe tener esta deriva negativa para que las cosas de puntuación positiva sean inusuales. De acuerdo, esa es otra limitación. Debes tener valores negativos para los desajustes, quiero decir, no todos los desajustes. Pero si tomó dos residuos aleatorios en alineación, el puntaje promedio debe ser negativo. Probablemente debería reformular eso, pero más o menos.

Y aquí hay un ejemplo de Smith-Waterman. Entonces, a la derecha, pone ceros en el lado izquierdo y en la parte superior. Y eso es porque, recuerde, si se vuelve negativo, se restablece a 0. Así que lo estamos haciendo.

Y luego tomas el máximo de cuatro cosas. Entonces, viniendo de la diagonal y sumando el puntaje del partido, eso es lo mismo que antes. Viniendo de la izquierda y agregando un espacio en una secuencia, viniendo desde arriba y agregando un espacio en la otra secuencia, o 0. Este negocio "o 0" nos permite restablecer a 0 si alguna vez nos volvemos negativos.

Y cuando tienes un 0, todavía haces un seguimiento de estas flechas. Pero cuando tienes un 0, no hay flecha. Lo estás comenzando. Estás comenzando la alineación allí mismo. Así que eso es Smith-Waterman.

Es útil. Creo que en el primer conjunto de problemas, tendrás algo de experiencia pensando tanto en Needleman-Wunsch como en Smith-Waterman. Se comportan un poco diferente, pero están muy relacionados. Por eso es importante comprender en qué se parecen, en qué se diferencian.

Y en lo que quiero centrarme durante el resto de esta conferencia es simplemente en la introducción del concepto de matrices de similitud de aminoácidos. Vimos esa matriz PAM, pero ¿de dónde viene? ¿Y que significa? ¿Funciona bien o no? ¿Hay alternativas?

Entonces podríamos usar esta matriz de identidad. Pero, como hemos escuchado, hay varias razones por las que esto puede no ser óptimo. Por ejemplo, las cisteínas, seguramente deberíamos puntuarlas más, porque a menudo están involucradas en enlaces disulfuro, y tienen efectos estructurales importantes en la proteína y es probable que se conserven más que la leucina o alanina promedio o lo que sea.

Entonces, claramente, el sistema de puntuación debería favorecer la coincidencia de aminoácidos idénticos o relacionados, penalizar las coincidencias deficientes y los huecos. Y también se puede argumentar que debería tener que ver con la frecuencia con la que un residuo se sustituye por otro durante la evolución. De modo que esa cosa comúnmente sustituida debe tener puntuaciones positivas o puntuaciones menos negativas que las cosas rara vez sustituidas.

Y tal vez no sea del todo obvio, pero si lo piensas un rato, es que cualquier sistema de puntuación que sueñas lleva consigo un modelo implícito de evolución molecular de la frecuencia con la que las cosas se van a sustituir entre sí. Entonces resultará que la puntuación es aproximadamente proporcional a una puntuación [INAUDIBLE] para la aparición de ese par de residuos, dividida por la frecuencia con la que ocurriría por casualidad, algo así.

Y si asigna puntajes positivos a las cosas, a ciertos pares de residuos, básicamente está implicando que esas cosas comúnmente se intercambiarán durante la evolución. Entonces, si desea tener puntajes realistas y útiles, es útil pensar en cuál es el modelo evolutivo implícito y si ese es un modelo realista de cómo evolucionan las proteínas.

Entonces voy a ir a Dayhoff. Y así, a diferencia de las matrices posteriores, tenía un modelo evolutivo explícito, como un modelo matemático real, de cómo evolucionan las proteínas. Y la idea era que habría alineaciones de algunas proteínas. Y tenga en cuenta, esto fue en 1978. Entonces, la base de datos de proteínas probablemente tenía como 1,000 proteínas, o algo así. Era muy, muy pequeño.

Pero hubo algunas alineaciones que fueron obvias. Si ve dos segmentos de proteína de 50 residuos de largo que son 85 idénticos, no hay forma de que haya ocurrido por casualidad. Ni siquiera necesitas hacer estadísticas sobre eso. Así que estás seguro.

Así que tomó estas alineaciones de secuencias de proteínas de muy alta confianza y calculó las frecuencias reales de sustitución de residuos, la frecuencia con la que tenemos una valina en una secuencia como sustituto de una leucina. Y en realidad se asume que es simétrico. Una vez más, no conoces la dirección. Y calculé estas frecuencias de sustitución.

Básicamente estimó lo que ella llamó una matriz PAM1 uno, que es una matriz que implica una divergencia del 1% entre proteínas. Por lo tanto, hay, en promedio, solo un 1% de probabilidad de que cambie cualquier residuo. Y las alineaciones reales tenían una mayor divergencia que eso. Tenían algo así como un 15% de divergencia.

Pero puedes mirar esas frecuencias y reducirlas por un factor de 15, y obtendrás no exactamente 15 sino algo así como 15. Y obtendrás algo donde hay un 1% de probabilidad de sustitución. Y luego, una vez que tenga ese modelo de cómo se ve la sustitución de secuencia del 1%, resulta que puede representarlo como una matriz y multiplicarlo para obtener una matriz que describa cómo se ve la sustitución de secuencia del 5%, o 10% o 50% o 250%.

Entonces, esa matriz PAM250 de la que hablamos antes, es un modelo de cómo se ve la sustitución del 250% de aminoácidos. ¿Cómo es que aún tiene sentido? ¿Cómo puedes tener más del 100%? ¿Alguien está conmigo en esto? Tim, sí.

AUDIENCIA: Porque puede retroceder. Por lo tanto, es más probable, en algunos casos, que revierta en lugar de [INAUDIBLE].

PROFESOR: Correcto. Entonces, una matriz PAM10 significa, en promedio, que el 10% de los residuos han cambiado. Pero algunos de esos residuos podrían haberlo hecho, por lo que tal vez alrededor del 90% no habrá cambiado en absoluto. Algunos habrán cambiado una vez, pero es posible que algunos incluso hayan cambiado dos veces, incluso al 10%.

Y cuando llega al 250%, en promedio, cada residuo ha cambiado 2 veces y media. Pero nuevamente, algunos residuos podrían haber permanecido igual. Y algunos residuos que cambian, por ejemplo, si tuviera una isoleucina que mutara a una valina, es posible que ya haya cambiado en ese momento. Así que básicamente explica todo ese tipo de cosas. Y si tiene residuos comúnmente sustituidos, obtendrá ese tipo de evolución.

Está bien. Así que tomó estas alineaciones de secuencias de proteínas, se ve algo así, y calculó estas estadísticas. Nuevamente, no quiero analizar esto en detalle durante la conferencia, porque está muy bien descrito en el texto. Pero lo que sí quiero hacer es presentar este concepto de cadena de Markov, porque es una especie de lo que subyace a estas matrices de Dayhoff. Así que pensemos en ello.

Haremos más sobre esto la próxima vez. Pero imagina que pudiste secuenciar los genomas de personajes de dibujos animados con alguna tecnología recién desarrollada y elegiste analizar la complicada genética del linaje Simpson. Supongo que todos conocen a esta gente. Este es el abuelo y Homer comiendo donas y su hijo, Bart.

Así que imagina que este es el genoma del abuelo en el locus de la apolipoproteína A. Y ocurrió una mutación que luego pasó a Homer. Entonces esta mutación ocurrió en la línea germinal, transmitida a Homer. Y luego, cuando Homer le pasó sus genes a Bart, ocurrió otra mutación aquí, cambiando este par AT a un par GC en Bart.

Así que esto, diría yo, es un tipo de cadena de Markov. Entonces, ¿qué es una cadena de Markov? Entonces es solo un proceso estocástico. Entonces, un proceso estocástico es un proceso aleatorio, es una especie de significado general. Pero aquí vamos a tratar con procesos estocásticos discretos, que es solo una secuencia de variables aleatorias.

Entonces, X1 aquí es una variable aleatoria que representa, por ejemplo, el genoma de un individuo, o podría representar el genotipo, en este caso, en una posición particular, tal vez ya sea una A, C, G o T en una posición en el genoma. Y ahora el índice aquí, uno, dos, tres, etc., va a representar el tiempo.

Entonces, X1 podría ser el genotipo del abuelo Simpson en una posición particular. Y X2 podría ser el genotipo de Homer Simpson. Y X3 sería el genotipo de la próxima generación, que sería Bart Simpson. Y lo que es una cadena de Markov es un tipo particular de proceso estocástico que surge comúnmente en las ciencias naturales, en realidad, y en otros lugares por todas partes.

Así que es bueno saber que tiene lo que se llama propiedad de Markov. Y eso dice que la probabilidad de que la siguiente variable aleatoria, o el genotipo de la siguiente generación, si se quiere, entonces Xn más 1 es igual a algún valor, j, que podría ser cualquiera de los valores posibles, digamos cualquiera de las cuatro bases , condicional a los valores de X1 a Xn, que es la historia completa del proceso hasta ese momento, es igual a la probabilidad condicional de que Xn más 1 sea igual a j, dado que el pequeño xn es igual a algún valor particular.

Entonces, básicamente, lo que dice que si les digo cuál era el genotipo de Homer en este locus, y les digo cuál era el genotipo del abuelo Simpson en ese locus, pueden simplemente ignorar el del abuelo Simpson. Eso es irrelevante. Solo importa cuál fue el genotipo de Homer con el propósito de predecir el genotipo de Bart. ¿Tiene sentido?

Entonces, realmente no importa si esa base en el genoma de Homer era la misma que en el genoma del abuelo Simpson, o si era una mutación específica de Homer, porque Homer es quien le transmite el ADN a Bart. ¿Tiene sentido?

Así que solo miras hacia atrás una generación. Es un tipo de proceso sin memoria, que solo recuerdas a la última generación. Eso es lo único relevante. Entonces, para comprender las cadenas de Markov, es muy importante que todos revisen su probabilidad condicional.

Así que la próxima vez vamos a hacer un poco más con las cadenas de Markov. P A dado B, ¿qué significa eso? Si no lo recuerda, búsquelo en Probabilidad y Estadísticas, porque eso es algo esencial para las cadenas de Markov.

Así que la próxima vez hablaremos de genómica comparada, que involucrará algunas aplicaciones de algunos de los métodos de alineación de los que hemos estado hablando. Y puedo publicar algunos ejemplos de artículos interesantes de investigación genómica comparativa, que serán de lectura opcional. Puede sacar un poco más de provecho a la conferencia si los lee, pero no es esencial.


Ver el vídeo: Τεστ DNA για τον καρκίνο του τραχήλου της μήτρας. (Mayo 2022).