Alineación de secuencias múltiples ( en inglés , multiple functionsalignment, MSA ) - alineación de tres o más secuencias biológicas, generalmente proteínas , ADN o ARN . En la mayoría de los casos, se supone que el conjunto de entrada de secuencias tiene una relación evolutiva . Usando múltiples alineaciones, el origen evolutivo de las secuencias puede evaluarse mediante análisis filogenético .
La representación visual de la alineación ilustra los eventos de mutación como mutaciones puntuales (cambios en un aminoácido o un nucleótido ) como caracteres distintos en una columna de alineación, así como sus inserciones y eliminaciones (representadas por un guión , espacios).
Los alineamientos de secuencias múltiples se utilizan a menudo para evaluar la conservación de dominios de proteínas , estructuras terciarias y secundarias e incluso residuos de aminoácidos o nucleótidos individuales.
Debido a la mayor complejidad computacional en comparación con la alineación por pares, la alineación múltiple requiere algoritmos más complejos. Muchos programas relacionados utilizan algoritmos heurísticos porque encontrar una alineación óptima global para muchas secuencias puede llevar mucho tiempo.
Para construir una alineación óptima global, se utiliza directamente la programación dinámica . Para las secuencias de proteínas, hay dos conjuntos de parámetros: la penalización por brecha y la matriz de sustitución, que contiene las probabilidades de emparejar un par de residuos de aminoácidos en función de la similitud de sus propiedades químicas y la probabilidad evolutiva de mutación. Para las secuencias de nucleótidos, también se usa la penalización por espacios, pero la matriz de sustitución es mucho más simple, solo tiene en cuenta las coincidencias completas de nucleótidos o los desajustes, es decir, los desajustes completos [1] .
Para n secuencias individuales, el método ingenuo requiere construir el equivalente n-dimensional de la matriz que se utiliza para la alineación por pares. A medida que crece n, el espacio de búsqueda crece exponencialmente . Por lo tanto, el algoritmo ingenuo tiene una complejidad computacional O (Longitud de secuencias Nsecuencias ). Encontrar el óptimo global para n secuencias es un problema NP-completo [2] [3] [4] .
En 1989, basado en el algoritmo Carrillo-Lipman [5] , Altschul introdujo un enfoque práctico que utilizaba alineaciones por pares para limitar el espacio de búsqueda n-dimensional [6] . Con este enfoque, la programación dinámica se realiza en cada par de secuencias del conjunto de entrada y solo se busca la región ubicada cerca de la intersección n-dimensional de estos caminos. El programa optimiza la suma de todos los pares de caracteres en cada posición de la alineación (suma de los pesos de los pares) [7]
Un enfoque ampliamente utilizado es la alineación progresiva utilizando un algoritmo heurístico desarrollado por Paulien Hogeweg y Ben Hesper en 1984 [8] . Todos los métodos de alineación progresiva tienen dos pasos importantes: construir un árbol binario (árbol de ruta) donde las hojas son secuencias y construir una alineación múltiple agregando secuencias a la alineación creciente de acuerdo con el árbol de ruta. El árbol de ruta en sí mismo se puede construir mediante métodos de agrupamiento como UPGMA y unión de vecinos [9] .
La alineación progresiva no garantiza una alineación óptima global. El problema es que los errores generados en cualquier etapa del alineamiento múltiple creciente terminan en el alineamiento final. Además, el alineamiento puede ser especialmente malo en el caso de un conjunto de secuencias muy distantes entre sí. La mayoría de los métodos progresivos modernos tienen una función de ponderación modificada con una función de ponderación secundaria que asigna coeficientes a elementos individuales del conjunto de datos de forma no lineal en función de su distancia filogenética de los vecinos más cercanos [9] .
Los métodos de alineamiento progresivo son lo suficientemente eficientes para ser aplicados a un gran número (100-1000) de secuencias. El método de alineación progresiva más popular pertenece a la familia Clustal [10] , en particular, la variante ponderada ClustalW [11] , a la que se puede acceder a través de portales como GenomeNet , EBI , EMBNet . Archivado el 1 de mayo de 2011 en Wayback Machine . ClustalW se usa activamente para construir árboles filogenéticos, a pesar de las advertencias del autor de que las alineaciones manuales no verificadas no deben usarse en la construcción de árboles ni como entrada para la predicción de la estructura de proteínas . La versión actual de Clustal es Clustal Omega, que funciona en base a árboles de caminos y métodos de perfil-perfil HMM para alineaciones de proteínas. También se proponen varias herramientas para construir alineaciones progresivas de secuencias de ADN. Uno de ellos es MAFFT ( Multiple Alignment using Fast Fourier Transform ) [12] .
Otro método común de alineación progresiva, T-Coffee [13] , es más lento que Clustal y sus derivados, pero generalmente produce alineaciones más precisas para secuencias relacionadas de forma distante. T-Coffee crea una biblioteca de alineaciones emparejadas, que luego usa para crear múltiples alineaciones.
Debido a que los métodos progresivos son heurísticos, no se garantiza que converjan a un óptimo global; la calidad de la alineación y su importancia biológica pueden ser difíciles de evaluar. Un método semi-progresivo que mejora la calidad de la alineación y no utiliza heurística con pérdida se realiza en tiempo polinomial ( PSAlign Archivado el 18 de julio de 2011 en Wayback Machine ) [14] .
Un conjunto de métodos para construir múltiples alineaciones que reducen los errores heredados en los métodos progresivos se clasifican como " iterativos ". Funcionan de manera similar a los métodos progresivos, pero reorganizan repetidamente las alineaciones originales a medida que se agregan nuevas secuencias. Los métodos progresivos dependen en gran medida de la calidad de las alineaciones iniciales, ya que terminarán en el resultado final sin cambios y, por lo tanto, con errores. En otras palabras, si la secuencia ya está alineada, su posición posterior no cambiará. Esta aproximación mejora la eficiencia, pero afecta negativamente la precisión del resultado. A diferencia de los métodos progresivos, los métodos iterativos pueden volver a las alineaciones y subalineaciones por pares calculadas originalmente que contienen subconjuntos de secuencias de la consulta y, por lo tanto, optimizar la función objetivo general y mejorar la calidad [9] .
Hay una gran variedad de métodos iterativos. Por ejemplo, PRRN/PRRP utiliza un algoritmo de escalada de vértices para optimizar el peso de múltiples alineaciones [15] y ajusta iterativamente los pesos de alineación y el área de brechas múltiples [9] . PRRP funciona de manera más eficiente cuando mejora la alineación construida previamente por el método rápido [9] .
Otro programa iterativo, DIALIGN, adopta un enfoque inusual al centrarse en alineaciones locales de subsegmentos o motivos de secuencia sin introducir una penalización por brecha [16] . La alineación de motivos individuales se presenta en forma de matriz, similar a un diagrama de puntos en alineación por pares. El software CHAOS/DIALIGN [16] proporciona un método alternativo que utiliza alineaciones locales rápidas como puntos de anclaje para un procedimiento de construcción de alineación global más lento .
El tercer método iterativo popular se llama MUSCLE. Es una mejora sobre los métodos progresivos porque utiliza distancias más precisas para estimar la relación entre dos secuencias [17] . Las distancias se actualizan entre iteraciones (aunque MUSCLE originalmente contenía solo 2-3 iteraciones).
Los métodos de consenso intentan seleccionar la alineación múltiple óptima de diferentes alineaciones múltiples del mismo conjunto de datos de entrada. Hay dos métodos de consenso más comunes: M-COFFEE y MergeAlign [18] . M-COFFEE utiliza múltiples alineaciones generadas por 7 métodos diferentes para obtener alineaciones de consenso. MergeAlign es capaz de generar alineaciones de consenso a partir de cualquier número de alineaciones de entrada derivadas de varios modelos de evolución de secuencias y métodos de construcción. La opción predeterminada para MergeAlign es derivar una alineación de consenso utilizando alineaciones derivadas de 91 modelos diferentes de evolución de secuencias de proteínas.
Los modelos ocultos de Markov (HMM) son modelos probabilísticos que pueden evaluar la probabilidad de todas las combinaciones posibles de brechas, coincidencias o desajustes para determinar la alineación múltiple más probable o el conjunto de ellas. Los HMM pueden producir una sola alineación de alto peso, pero también pueden generar una familia de posibles alineaciones, que luego pueden evaluarse por su importancia biológica. Los HMM se pueden utilizar para obtener alineaciones tanto globales como locales. Aunque los métodos basados en HMM son relativamente recientes, han demostrado ser métodos con mejoras significativas en la complejidad computacional, especialmente para secuencias que contienen regiones superpuestas [9] .
Los métodos estándar basados en HMM representan la alineación múltiple en forma de un gráfico acíclico dirigido , conocido como gráfico de orden parcial, que consta de una serie de nodos que representan los posibles estados en las columnas de alineación. En esta representación, una columna perfectamente conservativa (es decir, las secuencias en una alineación múltiple tienen un carácter particular en esa posición) se codifica como un solo nodo con muchas conexiones salientes con caracteres posibles en la siguiente posición de alineación. En términos del Modelo Oculto de Markov estándar, los estados observados son columnas individuales de alineación, y los estados "ocultos" representan una secuencia ancestral asumida de la cual podrían haber descendido las secuencias en el conjunto de entrada. Una técnica de programación dinámica eficiente, el algoritmo de Viterbi , se usa ampliamente para obtener una buena alineación [19] . Se diferencia de los métodos progresivos en que la alineación de las primeras secuencias se reorganiza a medida que se agrega cada nueva secuencia. Sin embargo, al igual que los métodos progresivos, este algoritmo puede verse afectado por el orden en que las secuencias del conjunto de entrada entran en la alineación, especialmente en el caso de secuencias evolutivamente poco acopladas [9] .
Aunque los métodos HMM son más complejos que los métodos progresivos comúnmente utilizados, existen varios programas para la obtención de alineamientos, como POA [20] , así como un método similar pero más general en los paquetes SAM [21] y HMMER [22] . . SAM se utiliza para obtener alineaciones para la predicción de estructuras de proteínas en el experimento CASP para proteínas de levadura . HHsearch, basado en la comparación por pares de HMM, se utiliza para buscar secuencias lejanamente relacionadas. El servidor que ejecuta HHsearch (HHpred) fue el más rápido de los 10 principales servidores automáticos para la predicción de estructuras de proteínas en CASP7 y CASP8 [23] .
Las técnicas de optimización estándar en informática, que permiten modelar pero no reproducir directamente el proceso físico, también se utilizan para construir múltiples alineaciones de manera más eficiente. Una de estas técnicas, el algoritmo genético , se ha utilizado para construir un alineamiento de secuencias múltiples basado en un proceso evolutivo hipotético que proporcionó divergencia de secuencias. Este método funciona dividiendo una serie de posibles MSA en fragmentos y reorganizando esos fragmentos nuevamente, introduciendo interrupciones en diferentes posiciones. La función objetivo principal se optimiza durante este proceso, generalmente maximizando las "sumas de pares" utilizando métodos de programación dinámica. Este método se implementa para secuencias de proteínas en el software SAGA ( Sequence Alignment by Genetic Algorithm ) [ 24] , y para secuencias de ARN en RAGA [25] .
Usando el método de recocido de simulación , una alineación múltiple existente construida por un método diferente se refina en una serie de reordenamientos para encontrar mejores áreas de alineación que antes. Como en el caso del algoritmo genético, la simulación de recocido maximiza la función objetivo en función de las sumas de los pares. La simulación de recocido utiliza un "factor de temperatura" condicional que determina el nivel de reordenamientos que ocurren y el nivel de probabilidad de cada reordenamiento. Es típico usar períodos alternos de alta realineación y baja probabilidad (para encontrar las regiones más externas en la alineación) con períodos de baja realineación y alta probabilidad para examinar más de cerca los mínimos locales cerca de las nuevas columnas de alineación. Este enfoque se implementó en el programa MSASA ( Multiple Sequence Alignment by Simulated Annealing ) [26] .
La mayoría de los métodos de alineación múltiple intentan minimizar el número de inserciones/eliminaciones (brechas), lo que da como resultado alineaciones compactas. Este enfoque puede conducir a errores de alineación si las secuencias alineadas contenían regiones no homólogas y si las brechas son informativas en el análisis filogenético. Estos problemas son comunes en secuencias nuevas que están mal anotadas y pueden contener frameshifts , misdomains o exones empalmados no homólogos .
El primer método basado en el análisis filogenético fue desarrollado por Loitinoge y Goldman en 2005 [27] . En 2008, los mismos autores lanzaron el software correspondiente: PRANK [28] . PRANK mejora las alineaciones cuando hay inserciones. Sin embargo, es más lento que los métodos progresivos y/o iterativos [29] que se desarrollaron años antes.
En 2012 surgieron dos nuevos métodos basados en el análisis filogenético. El primero, llamado PAGAN, fue desarrollado por el equipo PRANK, y el segundo, llamado ProGraphMSA, fue desarrollado por Zhalkovsky [30] . Sus softwares se desarrollaron de forma independiente pero comparten características comunes: ambos utilizan algoritmos gráficos para mejorar el reconocimiento de regiones no homólogas y las mejoras en el código los hacen más rápidos que PRANK .
La búsqueda de motivos, o perfilado de otro modo, es un método para encontrar la ubicación de un motivo en una alineación múltiple global como un medio para obtener el mejor MSA y el peso promedio de la matriz resultante para usarlo para buscar otras secuencias con similar motivos Se han desarrollado muchos métodos para determinar motivos, pero todos se basan en encontrar patrones cortos altamente conservados en un patrón de alineación más grande y construir una matriz similar a una matriz de sustitución. Esta matriz refleja la composición de nucleótidos o aminoácidos para cada posición en el supuesto motivo. A continuación, la alineación se puede refinar utilizando estas matrices. En el análisis de perfil estándar, esta matriz incluye entradas para cada símbolo posible y la brecha [9] . Por el contrario, el algoritmo de búsqueda de patrones estadísticos primero busca motivos y luego usa los motivos encontrados para construir una alineación múltiple. En muchos casos, cuando el conjunto original de secuencias contiene una pequeña cantidad de secuencias o solo secuencias muy relacionadas, se agregan pseudorrecuentos para normalizar la distribución reflejada en la matriz de peso. En particular, ayuda a evitar ceros en la matriz de probabilidad para no obtener el valor de infinito en la matriz de peso posicional .
El análisis de bloques es un método de búsqueda de motivos realizado en regiones de alineación sin espacios. Los bloques pueden generarse a partir de múltiples alineaciones o derivarse de secuencias desalineadas precalculando múltiples motivos comunes de familias de genes conocidas [31] . La estimación de bloques generalmente se basa en un espacio de símbolos de alta frecuencia, en lugar de un cálculo explícito de matrices de reemplazo. El servidor BLOCKS proporciona un método alternativo para localizar dichos motivos en secuencias no alineadas.
La coincidencia de patrones estadísticos se realiza utilizando la maximización de expectativas y el algoritmo de muestreo de Gibbs . Para la búsqueda de motivos, el servidor más utilizado es MEME , que utiliza el algoritmo de maximización de expectativas y el método de modelos ocultos de Markov, así como MEME/MAST [32] [33] , que utiliza adicionalmente el algoritmo MAST.
Algunas regiones del ADN que no codifican proteínas, especialmente los sitios de unión del factor de transcripción (TFBS), están más conservados y no necesariamente relacionados evolutivamente, ya que estos sitios pueden aparecer en secuencias no homólogas. Por lo tanto, las suposiciones utilizadas para alinear secuencias de proteínas y regiones codificantes de ADN no son apropiadas para secuencias de sitios de unión de factores de transcripción. Si bien tiene sentido alinear regiones de ADN que codifican proteínas para secuencias homólogas utilizando operadores de mutación, la alineación de secuencias de sitios de unión para el mismo factor de transcripción no puede basarse en operaciones de mutación relacionadas evolutivamente. De manera similar, el operador de mutación puntual evolutiva se puede usar para determinar la distancia de edición para las secuencias de codificación, pero es de poca utilidad para las secuencias del sitio de unión del factor de transcripción debido al hecho de que cualquier cambio de secuencia debe conservar un cierto nivel de especificidad para realizar la función de unión. Esto se vuelve especialmente importante cuando se necesita la alineación de la secuencia de los sitios de unión del factor de transcripción para construir modelos observables para predecir loci desconocidos del mismo TFBS. Por lo tanto, es necesario ajustar múltiples métodos de alineación para tener en cuenta las principales hipótesis evolutivas y utilizar ciertos operadores, como en el método EDNA termodinámicamente sensible para alinear los sitios de unión [34] .
La necesidad de utilizar enfoques heurísticos para la alineación múltiple conduce al hecho de que un conjunto de proteínas elegido arbitrariamente puede desalinearse con una alta probabilidad. Por ejemplo, la evaluación de algunos de los principales programas de alineación que utilizan el punto de referencia BAliBase [35] mostró que al menos el 24 % de todos los pares de aminoácidos alineados están desalineados [36] . Estos errores pueden ocurrir debido a inserciones únicas en una o más secciones de las secuencias. También pueden deberse a un proceso evolutivo más complejo que da como resultado proteínas que son difíciles de alinear solo en secuencia, y para una buena alineación, necesita saber algo más, como la estructura. A medida que aumenta el número de secuencias alineadas y aumenta su divergencia, el error aumenta debido a la naturaleza heurística de los múltiples algoritmos de alineación. Los visualizadores de alineación múltiple le permiten evaluar visualmente la alineación a menudo al verificar la calidad de la alineación para las regiones funcionales anotadas en dos o más secuencias. Muchos visualizadores también le permiten editar la alineación mediante la corrección de errores (generalmente de naturaleza menor) para obtener una alineación seleccionada óptima adecuada para su uso en análisis filogenético o modelado comparativo [37] .
Sin embargo, a medida que aumenta el número de secuencias, especialmente en estudios de todo el genoma que involucran muchas alineaciones múltiples, se vuelve imposible curar manualmente todas las alineaciones. Además, la curación manual es subjetiva. Y, finalmente, incluso el mejor experto no puede alinear con certeza muchos casos ambiguos en secuencias muy divergentes. En tales casos, es una práctica común usar procedimientos automáticos para eliminar regiones alineadas de manera no confiable de alineación múltiple. Para obtener reconstrucciones filogenéticas, el programa Gblocks es ampliamente utilizado para eliminar bloques de alineamiento de supuesta baja calidad, de acuerdo con varios cortes por el número de secuencias con espacios en las columnas de alineamiento [38] . Al mismo tiempo, estos criterios pueden filtrar demasiado las regiones con inserciones/eliminaciones que podrían alinearse de manera confiable, y estas regiones podrían ser útiles para identificar la selección positiva. Pocos algoritmos de alineación producen un peso de alineación específico del sitio que podría permitir la selección de regiones altamente conservadas. Esta posibilidad fue proporcionada por primera vez por el programa SOAP [39] , que prueba la resistencia de cada columna a las fluctuaciones de los parámetros en el popular programa de alineación ClustalW. El programa T-Coffee [39] utiliza una biblioteca de alineación para generar la alineación múltiple final y produce una alineación múltiple coloreada según un puntaje de confianza que refleja la correspondencia entre las diferentes alineaciones en la biblioteca para cada uno de los residuos alineados. TCS ( puntuación de coherencia transitiva ) es una extensión que utiliza la biblioteca de alineación por pares de T-Coffee para puntuar cada tercera alineación múltiple . Las proyecciones por pares se pueden crear utilizando métodos rápidos o lentos, por lo que se puede encontrar un compromiso entre la velocidad computacional y la precisión [40] [41] . Otro programa de alineación, FSA ( eng. Alineación estadística rápida ), utiliza modelos estadísticos para calcular el error de alineación y puede producir una alineación múltiple con una estimación del nivel de su confiabilidad. La puntuación HoT ( cara o cruz ) se puede utilizar para medir los errores de las alineaciones específicas del sitio, en las que pueden ocurrir errores debido a la existencia de múltiples soluciones co-óptimas. El programa GUIDANCE [42] calcula una medida de confianza específica del sitio similar basada en la estabilidad de la alineación a la incertidumbre en el árbol de dirección, que se utiliza, como se mencionó anteriormente, en los programas de alineación progresiva. Al mismo tiempo, un enfoque estadísticamente más sólido para estimar las incertidumbres de alineación es utilizar modelos evolutivos probabilísticos para estimar conjuntamente la filogenia y la alineación. El enfoque bayesiano calcula las probabilidades posteriores de las estimaciones de filogenia y alineación, que miden el nivel de confianza en esas estimaciones. En este caso, la probabilidad posterior se puede calcular para cada sitio en la alineación. Este enfoque se implementa en el programa Bali-Phy [43] .
La alineación de secuencias múltiples se puede utilizar para construir un árbol filogenético [44] . Esto es posible por dos razones. En primer lugar, los dominios funcionales conocidos por secuencias anotadas se pueden usar para alinear secuencias no anotadas. En segundo lugar, las regiones conservadoras pueden tener un significado funcional. Debido a esto, se pueden usar alineaciones múltiples para analizar y encontrar relaciones evolutivas a través de la homología de secuencia. También pueden detectarse mutaciones puntuales e inserciones/divisiones [45] .
La localización de dominios conservados por alineación múltiple también se puede utilizar para identificar sitios funcionalmente importantes, como sitios de unión , sitios reguladores o sitios responsables de otras funciones clave. Al analizar múltiples alineaciones, es útil considerar diferentes características. Dichas características de alineación útiles incluyen identidad, similitud y homología de secuencia . La identidad determina que las secuencias tienen los mismos residuos en las posiciones correspondientes. La similitud está determinada por residuos similares en una proporción cuantitativa. Por ejemplo, en términos de secuencias de nucleótidos, las pirimidinas se consideran similares entre sí, al igual que las purinas . La similitud finalmente conduce a la homología, por lo que cuanto más similares son las secuencias, más cercanas son las homólogas. También la similitud de secuencias puede ayudar a encontrar un origen común [46] .