El alineamiento de secuencias es una técnica bioinformática basada en colocar dos o más secuencias de monómeros de ADN , ARN o proteínas una debajo de la otra de tal manera que sea fácil ver áreas similares en estas secuencias. La similitud de las estructuras primarias de dos moléculas puede reflejar sus relaciones funcionales, estructurales o evolutivas [1] . Las secuencias de bases alineadas de nucleótidos o aminoácidos generalmente se representan como filas de una matriz. Se agregan espacios entre las bases para que elementos iguales o similares se ubiquen en columnas sucesivas de la matriz [2] .
Los algoritmos de alineación de secuencias también se utilizan en NLP [3] .
En la mayoría de las representaciones del resultado de la alineación, las secuencias se organizan en las filas de la matriz de tal manera que los elementos coincidentes (nucleótidos o aminoácidos) están uno debajo del otro (en la misma columna). Los “brechas” se reemplazan por un signo “-”, llamado gap (del inglés “ gap ”) [4] , y denota un indel , es decir, el lugar de una posible inserción o eliminación [5] [ 2] .
Con la visualización de texto, es posible escribir simplemente en formato fasta , cuando las secuencias se escriben con espacios y tienen la misma longitud [6] . Este tipo de grabación se utiliza a menudo por los programas y es conveniente para el procesamiento de la máquina [7] .
El otro tipo de representación de texto es para comodidad del usuario (a continuación se muestran tres ejemplos diferentes). En él, las secuencias están escritas una debajo de la otra, y en la línea entre ellas, diferentes símbolos indican diferentes relaciones entre los aminoácidos. Un espacio (ausencia de símbolo) indica la ausencia de conexión entre aminoácidos, tanto en términos de homología como de función: los símbolos "*", "|" o la letra ( BLAST ) - los mismos aminoácidos; ":" o "+" - similar en propiedades; "." — similar en propiedades [8] .
Explosión: Consulta 15 FQQAWANPKHAWAQVNGETRLTQNLIILERETR 47 FW PKHA +QVNG T +Q+ IIL RR Sbjct 14 FHHNWTRPKHASSQVNGHTEMSQHNIILRRVPR 46 CLUSTAL: THE12851.1 MGKKGYKRNEYNNPFQQAWANPKHAWAQVNGETRLTQNLIILERETRKRS- 50 WP_104057486.1 MSTK-DQLDPQSQAFHHNWTRPKHASSQVNGHTEMSQHNIILRRVPRSGRR 50 *..* : : .: *:: *:.**** :****.*.::*: ***.* *. Aguja en relieve: THE12851.1 1 MGKKGYKRNEYNNPFQQAWANPKHAWAQVNGETRLTQNLIILERETRKRS 50 |..|. :.:..:..|...|..||||.:||||.|.::|:.|||.|..|... WP_104057486. 1 MSTKD-QLDPQSQAFHHNWTRPKHASSQVNGHTEMSQHNIILRRVPRSGR 49La representación gráfica se centra al máximo en la percepción visual. También es habitual colocar las secuencias una debajo de la otra, pero el significado de la relación entre los aminoácidos de diferentes secuencias se indica mediante colores. Hay tinciones para las propiedades de los aminoácidos, como "Zappo", que tiñe cada aminoácido, y "Clustal", que tiñe las barras con las mismas propiedades de aminoácidos. Parte de las tinciones, como "%Identity", te permite ver la identidad y conservación de los aminoácidos en la columna. También hay colores que muestran el grado de hidrofobicidad de los aminoácidos [10] .
Los visores de alineación más famosos son: Jalview [9] , UGENE [11] , MEGA [12] . Para obtener una lista completa, consulte el artículo Lista de software de visualización de alineación.
También hay una forma de representar la secuencia de consenso: Sequence Logo [13] .
Una matriz de puntos de similitud es una forma de representar visualmente una alineación por pares. Normalmente se utiliza para secuencias grandes, como genomas bacterianosLas coordenadas de ambas secuencias se trazan a lo largo de los ejes y su homología se representa por segmentos. Entonces, una matriz de puntos de secuencias idénticas se verá como la diagonal de un cuadrado. Esta forma de presentación le permite rastrear inversiones , duplicaciones o eliminaciones , así como translocaciones [14] .
La alineación por pares se usa para encontrar regiones similares de dos secuencias. Distinguir entre alineación global y local. La alineación global supone que las secuencias son homólogas en toda su longitud. La alineación global incluye ambas secuencias de entrada completas. La alineación local se aplica si las secuencias contienen tanto regiones relacionadas (homólogas) como no relacionadas. El resultado de la alineación local es la selección de un sitio en cada una de las secuencias y la alineación entre estos sitios [15] .
Se utilizan variaciones del método de programación dinámica para obtener la alineación de pares . En concreto, estos algoritmos están implementados en los servicios del Laboratorio Europeo de Biología Molecular ( Pairwise Sequence Alignment . EMBL-EBI . ). Entonces, por ejemplo, Aguja . , un algoritmo de alineación global, utiliza el algoritmo de Needleman-Wunsch [16] , mientras que Water . , el algoritmo de alineación local es el algoritmo de Smith-Waterman [16] .
Para demostrar la diferencia entre la alineación global y local, podemos considerar un ejemplo artificial. Tomemos las secuencias A y B y hagamos una alineación global y local para ellas. La secuencia estableció una región homóloga central y bordes marcadamente diferentes.
El alineamiento global [15] utiliza la longitud total de ambas secuencias y puede utilizarse para probar la homología (origen común) de las secuencias en toda su longitud. Sin embargo, si las secuencias tienen pocas regiones de homología (o simplemente similitud), entonces no siempre es posible determinar bien estas regiones. En el ejemplo anterior, el algoritmo está enganchado a cuatro aminoácidos coincidentes, por lo que no se ve el largo tramo de homología. Sobre esta base, se puede suponer que las secuencias no son completamente homólogas entre sí [17] .
La alineación local [15] utiliza partes de las secuencias en las que se predice la máxima homología. Es genial si solo partes de las secuencias son similares, como durante la recombinación o la evolución convergente . Siempre debe tener cuidado con las áreas pequeñas con poca similitud, especialmente al alinear secuencias grandes, ya que aumenta la probabilidad de encontrar un área similar al azar. En el ejemplo de la figura, la alineación local incluía la mitad de la longitud de las secuencias. Alineados 11 aminoácidos similares en función, hay 2 semanas. Con base en esto, si además se conoce acerca de la función similar de los péptidos A y B, se puede decir que las regiones centrales de ambos péptidos realizan la función del péptido completo, o son importantes para su función [18] .
Sin embargo, es posible que la región de secuencia de interés no siempre caiga en la alineación local. Esto se puede eludir recortando la secuencia a lo largo de los límites de la región de interés. También son posibles otras combinaciones de alineaciones globales y locales [19] .
Se utiliza para buscar en grandes bases de datos secuencias que sean similares a una secuencia dada de acuerdo con criterios específicos. La alineación aplicada es local. Se utilizan varios métodos heurísticos para aumentar la velocidad de búsqueda. Los programas más famosos son BLAST [20] y FASTA3x . [21] .
El alineamiento múltiple es el alineamiento de tres o más secuencias. Se utiliza para encontrar regiones conservadas en un conjunto de secuencias homólogas. En la mayoría de los casos, construir una alineación múltiple es un paso necesario en la reconstrucción de árboles filogenéticos . Encontrar la alineación múltiple óptima usando programación dinámica tiene demasiada complejidad de tiempo, por lo que las alineaciones múltiples se construyen sobre la base de varias heurísticas. Los programas más famosos que realizan alineación múltiple son Clustal ( clustal . ) [22] , T-COFFEE ( tcoffee . ), MUSCLE ( muscle . ) [23] y MAFFT ( mafft . ). También hay programas para ver y editar múltiples alineaciones, como Jalview[9] o el idioma ruso UGENE [11] .
Puede construirse para proteínas o ácidos ribonucleicos utilizando información sobre la estructura espacial secundaria y terciaria de las moléculas. El objetivo es intentar establecer la homología de dos o más estructuras encontrando y comparando sitios que están apilados de manera similar en el espacio. El alineamiento estructural suele ir acompañado de la superposición de estructuras, es decir, de la búsqueda de movimientos espaciales, cuya aplicación a moléculas dadas los combina mejor. Pero a diferencia de la simple superposición espacial con coincidencia conocida de residuos de aminoácidos equivalentes de dos estructuras, los algoritmos de alineación estructural generalmente no requieren un conocimiento a priori de la alineación de secuencias. Hay una gran cantidad de en los que basan varios programas de alineación estructural Los alineamientos espaciales son especialmente importantes para el análisis de datos de genómica estructural y proteómica , y también se pueden utilizar para evaluar los alineamientos obtenidos a partir de comparaciones de secuencias. [24] .
El alineamiento estructural se ha utilizado con éxito para comparar proteínas con un bajo nivel de homología de secuencia, cuando las relaciones evolutivas no se pueden establecer mediante métodos estándar de alineamiento de secuencias, pero en este caso es necesario tener en cuenta la influencia de la evolución convergente , el efecto principal de que se manifiesta en la similitud de las estructuras terciarias de secuencias de aminoácidos no relacionadas [25] .
La alineación espacial le permite comparar dos o más moléculas con estructuras tridimensionales conocidas, cuya producción experimental se basa en el uso de análisis de difracción de rayos X y espectroscopia de RMN . Las estructuras derivadas de los métodos de predicción de estructuras de proteínas también se pueden utilizar para la alineación espacial . Además, la evaluación de la calidad de tales predicciones a menudo se basa en el uso de la alineación espacial de la estructura del modelo creado y la proteína, cuya estructura terciaria se obtuvo directamente del experimento. También hay datos sobre el uso del método de dispersión de rayos X de ángulo pequeño para el análisis de estructuras tridimensionales de varias moléculas de proteínas [26] .
El resultado de los programas de alineación estructural, por regla general, es la combinación de conjuntos de coordenadas atómicas . La mayoría de las veces, cuando se busca una comparación de este tipo, el resultado se evalúa en función del valor de la función de desviación estándar mínima (RMSD) entre estructuras, que el algoritmo de construcción de alineación intenta minimizar. [27]
,donde es el número de puntos (átomos) en la muestra (estructura), y son átomos de la estructura correspondiente con coordenadas , , y , , .
El valor RMSD se expresa en unidades de longitud, la unidad más utilizada en biología estructural es el angstrom (Å), que es igual a 10 −10 m Sin embargo, RMSD como un grado de divergencia espacial de estructuras alineadas tiene una serie de desventajas: inestabilidad a valores atípicos y la presencia de varios dominios en la estructura de proteínas alineadas, ya que los cambios en la posición relativa de estos dominios entre las dos estructuras pueden cambiar artificialmente el valor de RMSD.
Además, se pueden calcular parámetros más complejos que evalúan la similitud estructural, por ejemplo, la prueba de distancia global [28] .
Para crear una alineación estructural y calcular los valores RMSD correspondientes, se pueden utilizar tanto todos los átomos de la molécula de proteína como sus subconjuntos. Por ejemplo, los átomos de los radicales laterales de los residuos de aminoácidos no siempre se tienen en cuenta, y solo los átomos incluidos en el esqueleto peptídico de la molécula pueden usarse para la alineación. Esta opción se elige si las estructuras alineadas tienen una secuencia de aminoácidos muy diferente y los radicales laterales difieren en un gran número de residuos. Por esta razón, por defecto, los métodos de alineación espacial usan solo átomos de la columna vertebral involucrados en un enlace peptídico . Para una mayor simplificación y aumento de la eficiencia, a menudo se usa la posición de solo los átomos de carbono alfa , ya que su posición determina con bastante precisión la posición de los átomos del esqueleto polipeptídico. Solo cuando se alinean estructuras muy similares o incluso idénticas es importante tener en cuenta las posiciones de los átomos de la cadena lateral. En este caso, RMSD refleja no solo la similitud de la conformación del esqueleto de la proteína, sino también los estados rotámeros de las cadenas laterales. Otras formas de reducir el ruido y aumentar el número de coincidencias correctas son el etiquetado de elementos de estructura secundaria , mapas de contactos nativos o patrones de interacción de residuos, medidas del grado de empaquetamiento de cadenas laterales y medidas de conservación de enlaces de hidrógeno [29] .
Uno de los métodos populares de alineación estructural es DALI ( método de matriz de alineación de distancia ) . Las estructuras proteicas iniciales se descomponen en hexapéptidos y se calcula una matriz de distancia evaluando patrones de contacto entre fragmentos. Los elementos de la estructura secundaria, cuyos restos son adyacentes en la secuencia, están en la diagonal principal de la matriz; las diagonales restantes de la matriz reflejan contactos espaciales entre residuos que no están uno al lado del otro en la secuencia. Cuando las matrices de distancia de dos proteínas tienen elementos iguales o similares en aproximadamente las mismas posiciones, se puede decir que las proteínas tienen un pliegue similar y sus elementos de estructura secundaria están conectados por bucles de aproximadamente la misma longitud. El proceso directo de alineación DALI es buscar matrices de similitud construidas para dos proteínas, que luego se vuelven a ensamblar en la alineación final utilizando un algoritmo de maximización de puntaje estándar [30] .
El método DALI se utilizó para crear la base de datos FSSP ( Familias de proteínas estructuralmente similares ), en la que todas las estructuras proteicas conocidas se alinearon por pares para determinar su relación espacial y clasificación de pliegues [31] .
DaliLite es un programa descargable que utiliza el algoritmo DALI [32] .
Extensión combinatoriaEl método de extensión combinatoria (CE) es similar a DALI en el sentido de que también divide cada estructura en varios fragmentos, que luego intenta volver a ensamblar en una alineación completa. Se utiliza una serie de combinaciones de fragmentos por pares, denominadas AFP ( pares de fragmentos alineados ), para definir una matriz de similitud a través de la cual se dibuja una ruta óptima para determinar la alineación final. La ruta correspondiente a la alineación se calcula como la ruta óptima a través de la matriz de similitud pasando linealmente a través de las secuencias, extendiendo la alineación de la siguiente AFP de puntuación alta posible. Solo aquellas AFP que cumplen con los criterios de similitud local especificados se incluyen en la matriz, lo que reduce el espacio de búsqueda requerido y aumenta la eficiencia [33] .
Similar a DALI o SSAP, CE se utilizó para crear una base de datos de clasificaciones de pliegues basadas en las estructuras espaciales conocidas de proteínas del PDB [34] .
Instrumentos de cuerda | |
---|---|
Medidas de similitud de cadenas | |
Búsqueda de subcadena | |
palíndromos | |
Alineación de secuencia | |
Estructuras de sufijos | |
Otro |