Alineación de secuencias múltiples

Alineación de secuencias múltiples ( en inglés  , multiple functionsalignment, MSA ) - alineación de tres o más secuencias biológicas, generalmente proteínas , ADN o ARN . En la mayoría de los casos, se supone que el conjunto de entrada de secuencias tiene una relación evolutiva . Usando múltiples alineaciones, el origen evolutivo de las secuencias puede evaluarse mediante análisis filogenético .

La representación visual de la alineación ilustra los eventos de mutación como mutaciones puntuales (cambios en un aminoácido o un nucleótido ) como caracteres distintos en una columna de alineación, así como sus inserciones y eliminaciones (representadas por un guión , espacios).

Los alineamientos de secuencias múltiples se utilizan a menudo para evaluar la conservación de dominios de proteínas , estructuras terciarias y secundarias e incluso residuos de aminoácidos o nucleótidos individuales.

Debido a la mayor complejidad computacional en comparación con la alineación por pares, la alineación múltiple requiere algoritmos más complejos. Muchos programas relacionados utilizan algoritmos heurísticos porque encontrar una alineación óptima global para muchas secuencias puede llevar mucho tiempo.

Programación dinámica y complejidad computacional

Para construir una alineación óptima global, se utiliza directamente la programación dinámica . Para las secuencias de proteínas, hay dos conjuntos de parámetros: la penalización por brecha y la matriz de sustitución, que contiene las probabilidades de emparejar un par de residuos de aminoácidos en función de la similitud de sus propiedades químicas y la probabilidad evolutiva de mutación. Para las secuencias de nucleótidos, también se usa la penalización por espacios, pero la matriz de sustitución es mucho más simple, solo tiene en cuenta las coincidencias completas de nucleótidos o los desajustes, es decir, los desajustes completos [1] .

Para n secuencias individuales, el método ingenuo requiere construir el equivalente n-dimensional de la matriz que se utiliza para la alineación por pares. A medida que crece n, el espacio de búsqueda crece exponencialmente . Por lo tanto, el algoritmo ingenuo tiene una complejidad computacional O (Longitud de secuencias Nsecuencias ). Encontrar el óptimo global para n secuencias es un problema NP-completo [2] [3] [4] .

En 1989, basado en el algoritmo Carrillo-Lipman [5] , Altschul introdujo un enfoque práctico que utilizaba alineaciones por pares para limitar el espacio de búsqueda n-dimensional [6] . Con este enfoque, la programación dinámica se realiza en cada par de secuencias del conjunto de entrada y solo se busca la región ubicada cerca de la intersección n-dimensional de estos caminos. El programa optimiza la suma de todos los pares de caracteres en cada posición de la alineación (suma de los pesos de los pares) [7]

Alineación progresiva

Un enfoque ampliamente utilizado es la alineación progresiva utilizando un algoritmo heurístico desarrollado por Paulien Hogeweg y Ben Hesper en 1984 [8] . Todos los métodos de alineación progresiva tienen dos pasos importantes: construir un árbol binario (árbol de ruta) donde las hojas son secuencias y construir una alineación múltiple agregando secuencias a la alineación creciente de acuerdo con el árbol de ruta. El árbol de ruta en sí mismo se puede construir mediante métodos de agrupamiento como UPGMA y unión de vecinos [9] .

La alineación progresiva no garantiza una alineación óptima global. El problema es que los errores generados en cualquier etapa del alineamiento múltiple creciente terminan en el alineamiento final. Además, el alineamiento puede ser especialmente malo en el caso de un conjunto de secuencias muy distantes entre sí. La mayoría de los métodos progresivos modernos tienen una función de ponderación modificada con una función de ponderación secundaria que asigna coeficientes a elementos individuales del conjunto de datos de forma no lineal en función de su distancia filogenética de los vecinos más cercanos [9] .

Los métodos de alineamiento progresivo son lo suficientemente eficientes para ser aplicados a un gran número (100-1000) de secuencias. El método de alineación progresiva más popular pertenece a la familia Clustal [10] , en particular, la variante ponderada ClustalW [11] , a la que se puede acceder a través de portales como GenomeNet , EBI , EMBNet . Archivado el 1 de mayo de 2011 en Wayback Machine . ClustalW se usa activamente para construir árboles filogenéticos, a pesar de las advertencias del autor de que las alineaciones manuales no verificadas no deben usarse en la construcción de árboles ni como entrada para la predicción de la estructura de proteínas . La versión actual de Clustal es Clustal Omega, que funciona en base a árboles de caminos y métodos de perfil-perfil HMM para alineaciones de proteínas. También se proponen varias herramientas para construir alineaciones progresivas de secuencias de ADN. Uno de ellos es MAFFT ( Multiple Alignment using Fast Fourier Transform ) [12] . 

Otro método común de alineación progresiva, T-Coffee [13] , es más lento que Clustal y sus derivados, pero generalmente produce alineaciones más precisas para secuencias relacionadas de forma distante. T-Coffee crea una biblioteca de alineaciones emparejadas, que luego usa para crear múltiples alineaciones.

Debido a que los métodos progresivos son heurísticos, no se garantiza que converjan a un óptimo global; la calidad de la alineación y su importancia biológica pueden ser difíciles de evaluar. Un método semi-progresivo que mejora la calidad de la alineación y no utiliza heurística con pérdida se realiza en tiempo polinomial ( PSAlign Archivado el 18 de julio de 2011 en Wayback Machine ) [14] .

Métodos iterativos

Un conjunto de métodos para construir múltiples alineaciones que reducen los errores heredados en los métodos progresivos se clasifican como " iterativos ". Funcionan de manera similar a los métodos progresivos, pero reorganizan repetidamente las alineaciones originales a medida que se agregan nuevas secuencias. Los métodos progresivos dependen en gran medida de la calidad de las alineaciones iniciales, ya que terminarán en el resultado final sin cambios y, por lo tanto, con errores. En otras palabras, si la secuencia ya está alineada, su posición posterior no cambiará. Esta aproximación mejora la eficiencia, pero afecta negativamente la precisión del resultado. A diferencia de los métodos progresivos, los métodos iterativos pueden volver a las alineaciones y subalineaciones por pares calculadas originalmente que contienen subconjuntos de secuencias de la consulta y, por lo tanto, optimizar la función objetivo general y mejorar la calidad [9] .

Hay una gran variedad de métodos iterativos. Por ejemplo, PRRN/PRRP utiliza un algoritmo de escalada de vértices para optimizar el peso de múltiples alineaciones [15] y ajusta iterativamente los pesos de alineación y el área de brechas múltiples [9] . PRRP funciona de manera más eficiente cuando mejora la alineación construida previamente por el método rápido [9] .

Otro programa iterativo, DIALIGN, adopta un enfoque inusual al centrarse en alineaciones locales de subsegmentos o motivos de secuencia sin introducir una penalización por brecha [16] . La alineación de motivos individuales se presenta en forma de matriz, similar a un diagrama de puntos en alineación por pares. El software CHAOS/DIALIGN [16] proporciona un método alternativo que utiliza alineaciones locales rápidas como puntos de anclaje para un procedimiento de construcción de alineación global más lento .

El tercer método iterativo popular se llama MUSCLE. Es una mejora sobre los métodos progresivos porque utiliza distancias más precisas para estimar la relación entre dos secuencias [17] . Las distancias se actualizan entre iteraciones (aunque MUSCLE originalmente contenía solo 2-3 iteraciones).

Métodos de consenso

Los métodos de consenso intentan seleccionar la alineación múltiple óptima de diferentes alineaciones múltiples del mismo conjunto de datos de entrada. Hay dos métodos de consenso más comunes: M-COFFEE y MergeAlign [18] . M-COFFEE utiliza múltiples alineaciones generadas por 7 métodos diferentes para obtener alineaciones de consenso. MergeAlign es capaz de generar alineaciones de consenso a partir de cualquier número de alineaciones de entrada derivadas de varios modelos de evolución de secuencias y métodos de construcción. La opción predeterminada para MergeAlign es derivar una alineación de consenso utilizando alineaciones derivadas de 91 modelos diferentes de evolución de secuencias de proteínas.

Modelos ocultos de Markov

Los modelos ocultos de Markov (HMM) son modelos probabilísticos que pueden evaluar la probabilidad de todas las combinaciones posibles de brechas, coincidencias o desajustes para determinar la alineación múltiple más probable o el conjunto de ellas. Los HMM pueden producir una sola alineación de alto peso, pero también pueden generar una familia de posibles alineaciones, que luego pueden evaluarse por su importancia biológica. Los HMM se pueden utilizar para obtener alineaciones tanto globales como locales. Aunque los métodos basados ​​en HMM son relativamente recientes, han demostrado ser métodos con mejoras significativas en la complejidad computacional, especialmente para secuencias que contienen regiones superpuestas [9] .

Los métodos estándar basados ​​en HMM representan la alineación múltiple en forma de un gráfico acíclico dirigido , conocido como gráfico de orden parcial, que consta de una serie de nodos que representan los posibles estados en las columnas de alineación. En esta representación, una columna perfectamente conservativa (es decir, las secuencias en una alineación múltiple tienen un carácter particular en esa posición) se codifica como un solo nodo con muchas conexiones salientes con caracteres posibles en la siguiente posición de alineación. En términos del Modelo Oculto de Markov estándar, los estados observados son columnas individuales de alineación, y los estados "ocultos" representan una secuencia ancestral asumida de la cual podrían haber descendido las secuencias en el conjunto de entrada. Una técnica de programación dinámica eficiente, el algoritmo de Viterbi , se usa ampliamente para obtener una buena alineación [19] . Se diferencia de los métodos progresivos en que la alineación de las primeras secuencias se reorganiza a medida que se agrega cada nueva secuencia. Sin embargo, al igual que los métodos progresivos, este algoritmo puede verse afectado por el orden en que las secuencias del conjunto de entrada entran en la alineación, especialmente en el caso de secuencias evolutivamente poco acopladas [9] .

Aunque los métodos HMM son más complejos que los métodos progresivos comúnmente utilizados, existen varios programas para la obtención de alineamientos, como POA [20] , así como un método similar pero más general en los paquetes SAM [21] y HMMER [22] . . SAM se utiliza para obtener alineaciones para la predicción de estructuras de proteínas en el experimento CASP para proteínas de levadura . HHsearch, basado en la comparación por pares de HMM, se utiliza para buscar secuencias lejanamente relacionadas. El servidor que ejecuta HHsearch (HHpred) fue el más rápido de los 10 principales servidores automáticos para la predicción de estructuras de proteínas en CASP7 y CASP8 [23] .

Algoritmos genéticos y modelado de recocido

Las técnicas de optimización estándar en informática, que permiten modelar pero no reproducir directamente el proceso físico, también se utilizan para construir múltiples alineaciones de manera más eficiente. Una de estas técnicas, el algoritmo genético , se ha utilizado para construir un alineamiento de secuencias múltiples basado en un proceso evolutivo hipotético que proporcionó divergencia de secuencias. Este método funciona dividiendo una serie de posibles MSA en fragmentos y reorganizando esos fragmentos nuevamente, introduciendo interrupciones en diferentes posiciones. La función objetivo principal se optimiza durante este proceso, generalmente maximizando las "sumas de pares" utilizando métodos de programación dinámica. Este método se implementa para secuencias de proteínas en el software SAGA ( Sequence Alignment by Genetic Algorithm )  [ 24] , y para secuencias de ARN en RAGA [25] .

Usando el método de recocido de simulación , una alineación múltiple existente construida por un método diferente se refina en una serie de reordenamientos para encontrar mejores áreas de alineación que antes. Como en el caso del algoritmo genético, la simulación de recocido maximiza la función objetivo en función de las sumas de los pares. La simulación de recocido utiliza un "factor de temperatura" condicional que determina el nivel de reordenamientos que ocurren y el nivel de probabilidad de cada reordenamiento. Es típico usar períodos alternos de alta realineación y baja probabilidad (para encontrar las regiones más externas en la alineación) con períodos de baja realineación y alta probabilidad para examinar más de cerca los mínimos locales cerca de las nuevas columnas de alineación. Este enfoque se implementó en el programa MSASA ( Multiple Sequence Alignment by  Simulated Annealing ) [26] .

Métodos basados ​​en el análisis filogenético

La mayoría de los métodos de alineación múltiple intentan minimizar el número de inserciones/eliminaciones (brechas), lo que da como resultado alineaciones compactas. Este enfoque puede conducir a errores de alineación si las secuencias alineadas contenían regiones no homólogas y si las brechas son informativas en el análisis filogenético. Estos problemas son comunes en secuencias nuevas que están mal anotadas y pueden contener frameshifts , misdomains o exones empalmados no homólogos .

El primer método basado en el análisis filogenético fue desarrollado por Loitinoge y Goldman en 2005 [27] . En 2008, los mismos autores lanzaron el software correspondiente: PRANK [28] . PRANK mejora las alineaciones cuando hay inserciones. Sin embargo, es más lento que los métodos progresivos y/o iterativos [29] que se desarrollaron años antes.

En 2012 surgieron dos nuevos métodos basados ​​en el análisis filogenético. El primero, llamado PAGAN, fue desarrollado por el equipo PRANK, y el segundo, llamado ProGraphMSA, fue desarrollado por Zhalkovsky [30] . Sus softwares se desarrollaron de forma independiente pero comparten características comunes: ambos utilizan algoritmos gráficos para mejorar el reconocimiento de regiones no homólogas y las mejoras en el código los hacen más rápidos que PRANK .

Buscar motivos

La búsqueda de motivos, o perfilado de otro modo, es un método para encontrar la ubicación de un motivo en una alineación múltiple global como un medio para obtener el mejor MSA y el peso promedio de la matriz resultante para usarlo para buscar otras secuencias con similar motivos Se han desarrollado muchos métodos para determinar motivos, pero todos se basan en encontrar patrones cortos altamente conservados en un patrón de alineación más grande y construir una matriz similar a una matriz de sustitución. Esta matriz refleja la composición de nucleótidos o aminoácidos para cada posición en el supuesto motivo. A continuación, la alineación se puede refinar utilizando estas matrices. En el análisis de perfil estándar, esta matriz incluye entradas para cada símbolo posible y la brecha [9] . Por el contrario, el algoritmo de búsqueda de patrones estadísticos primero busca motivos y luego usa los motivos encontrados para construir una alineación múltiple. En muchos casos, cuando el conjunto original de secuencias contiene una pequeña cantidad de secuencias o solo secuencias muy relacionadas, se agregan pseudorrecuentos para normalizar la distribución reflejada en la matriz de peso. En particular, ayuda a evitar ceros en la matriz de probabilidad para no obtener el valor de infinito en la matriz de peso posicional .

El análisis de bloques es un método de búsqueda de motivos realizado en regiones de alineación sin espacios. Los bloques pueden generarse a partir de múltiples alineaciones o derivarse de secuencias desalineadas precalculando múltiples motivos comunes de familias de genes conocidas [31] . La estimación de bloques generalmente se basa en un espacio de símbolos de alta frecuencia, en lugar de un cálculo explícito de matrices de reemplazo. El servidor BLOCKS proporciona un método alternativo para localizar dichos motivos en secuencias no alineadas.

La coincidencia de patrones estadísticos se realiza utilizando la maximización de expectativas y el algoritmo de muestreo de Gibbs . Para la búsqueda de motivos, el servidor más utilizado es MEME , que utiliza el algoritmo de maximización de expectativas y el método de modelos ocultos de Markov, así como MEME/MAST [32] [33] , que utiliza adicionalmente el algoritmo MAST.

Alineación múltiple de secuencias no codificantes

Algunas regiones del ADN que no codifican proteínas, especialmente los sitios de unión del factor de transcripción (TFBS), están más conservados y no necesariamente relacionados evolutivamente, ya que estos sitios pueden aparecer en secuencias no homólogas. Por lo tanto, las suposiciones utilizadas para alinear secuencias de proteínas y regiones codificantes de ADN no son apropiadas para secuencias de sitios de unión de factores de transcripción. Si bien tiene sentido alinear regiones de ADN que codifican proteínas para secuencias homólogas utilizando operadores de mutación, la alineación de secuencias de sitios de unión para el mismo factor de transcripción no puede basarse en operaciones de mutación relacionadas evolutivamente. De manera similar, el operador de mutación puntual evolutiva se puede usar para determinar la distancia de edición para las secuencias de codificación, pero es de poca utilidad para las secuencias del sitio de unión del factor de transcripción debido al hecho de que cualquier cambio de secuencia debe conservar un cierto nivel de especificidad para realizar la función de unión. Esto se vuelve especialmente importante cuando se necesita la alineación de la secuencia de los sitios de unión del factor de transcripción para construir modelos observables para predecir loci desconocidos del mismo TFBS. Por lo tanto, es necesario ajustar múltiples métodos de alineación para tener en cuenta las principales hipótesis evolutivas y utilizar ciertos operadores, como en el método EDNA termodinámicamente sensible para alinear los sitios de unión [34] .

Visualización de alineación y control de calidad

La necesidad de utilizar enfoques heurísticos para la alineación múltiple conduce al hecho de que un conjunto de proteínas elegido arbitrariamente puede desalinearse con una alta probabilidad. Por ejemplo, la evaluación de algunos de los principales programas de alineación que utilizan el punto de referencia BAliBase [35] mostró que al menos el 24 % de todos los pares de aminoácidos alineados están desalineados [36] . Estos errores pueden ocurrir debido a inserciones únicas en una o más secciones de las secuencias. También pueden deberse a un proceso evolutivo más complejo que da como resultado proteínas que son difíciles de alinear solo en secuencia, y para una buena alineación, necesita saber algo más, como la estructura. A medida que aumenta el número de secuencias alineadas y aumenta su divergencia, el error aumenta debido a la naturaleza heurística de los múltiples algoritmos de alineación. Los visualizadores de alineación múltiple le permiten evaluar visualmente la alineación a menudo al verificar la calidad de la alineación para las regiones funcionales anotadas en dos o más secuencias. Muchos visualizadores también le permiten editar la alineación mediante la corrección de errores (generalmente de naturaleza menor) para obtener una alineación seleccionada óptima adecuada para su uso en análisis filogenético o modelado comparativo [37] .

Sin embargo, a medida que aumenta el número de secuencias, especialmente en estudios de todo el genoma que involucran muchas alineaciones múltiples, se vuelve imposible curar manualmente todas las alineaciones. Además, la curación manual es subjetiva. Y, finalmente, incluso el mejor experto no puede alinear con certeza muchos casos ambiguos en secuencias muy divergentes. En tales casos, es una práctica común usar procedimientos automáticos para eliminar regiones alineadas de manera no confiable de alineación múltiple. Para obtener reconstrucciones filogenéticas, el programa Gblocks es ampliamente utilizado para eliminar bloques de alineamiento de supuesta baja calidad, de acuerdo con varios cortes por el número de secuencias con espacios en las columnas de alineamiento [38] . Al mismo tiempo, estos criterios pueden filtrar demasiado las regiones con inserciones/eliminaciones que podrían alinearse de manera confiable, y estas regiones podrían ser útiles para identificar la selección positiva. Pocos algoritmos de alineación producen un peso de alineación específico del sitio que podría permitir la selección de regiones altamente conservadas. Esta posibilidad fue proporcionada por primera vez por el programa SOAP [39] , que prueba la resistencia de cada columna a las fluctuaciones de los parámetros en el popular programa de alineación ClustalW. El programa T-Coffee [39] utiliza una biblioteca de alineación para generar la alineación múltiple final y produce una alineación múltiple coloreada según un puntaje de confianza que refleja la correspondencia entre las diferentes alineaciones en la biblioteca para cada uno de los residuos alineados. TCS ( puntuación de coherencia transitiva ) es una extensión que utiliza la biblioteca de alineación por pares de T-Coffee para puntuar cada tercera alineación múltiple .  Las proyecciones por pares se pueden crear utilizando métodos rápidos o lentos, por lo que se puede encontrar un compromiso entre la velocidad computacional y la precisión [40] [41] . Otro programa de alineación, FSA ( eng. Alineación estadística rápida ), utiliza modelos estadísticos para calcular el error de alineación y puede producir una alineación múltiple con una estimación del nivel de su confiabilidad. La puntuación HoT ( cara o cruz ) se puede utilizar para medir los errores de las alineaciones específicas del sitio, en las que pueden ocurrir errores debido a la existencia de múltiples soluciones co-óptimas. El programa GUIDANCE [42] calcula una medida de confianza específica del sitio similar basada en la estabilidad de la alineación a la incertidumbre en el árbol de dirección, que se utiliza, como se mencionó anteriormente, en los programas de alineación progresiva. Al mismo tiempo, un enfoque estadísticamente más sólido para estimar las incertidumbres de alineación es utilizar modelos evolutivos probabilísticos para estimar conjuntamente la filogenia y la alineación. El enfoque bayesiano calcula las probabilidades posteriores de las estimaciones de filogenia y alineación, que miden el nivel de confianza en esas estimaciones. En este caso, la probabilidad posterior se puede calcular para cada sitio en la alineación. Este enfoque se implementa en el programa Bali-Phy [43] .   

Uso en filogenética

La alineación de secuencias múltiples se puede utilizar para construir un árbol filogenético [44] . Esto es posible por dos razones. En primer lugar, los dominios funcionales conocidos por secuencias anotadas se pueden usar para alinear secuencias no anotadas. En segundo lugar, las regiones conservadoras pueden tener un significado funcional. Debido a esto, se pueden usar alineaciones múltiples para analizar y encontrar relaciones evolutivas a través de la homología de secuencia. También pueden detectarse mutaciones puntuales e inserciones/divisiones [45] .

La localización de dominios conservados por alineación múltiple también se puede utilizar para identificar sitios funcionalmente importantes, como sitios de unión , sitios reguladores o sitios responsables de otras funciones clave. Al analizar múltiples alineaciones, es útil considerar diferentes características. Dichas características de alineación útiles incluyen identidad, similitud y homología de secuencia . La identidad determina que las secuencias tienen los mismos residuos en las posiciones correspondientes. La similitud está determinada por residuos similares en una proporción cuantitativa. Por ejemplo, en términos de secuencias de nucleótidos, las pirimidinas se consideran similares entre sí, al igual que las purinas . La similitud finalmente conduce a la homología, por lo que cuanto más similares son las secuencias, más cercanas son las homólogas. También la similitud de secuencias puede ayudar a encontrar un origen común [46] .

Notas

  1. Ayuda con matrices utilizadas en herramientas de comparación de secuencias (enlace descendente) . Instituto Europeo de Bioinformática. Consultado el 3 de marzo de 2010. Archivado desde el original el 11 de marzo de 2010. 
  2. Wang L. , Jiang T. Sobre la complejidad de la alineación de secuencias múltiples.  (Inglés)  // Revista de biología computacional: una revista de biología celular molecular computacional. - 1994. - vol. 1, no. 4 . - Pág. 337-348. -doi : 10.1089/ cmb.1994.1.337 . — PMID 8790475 .
  3. Just W. Complejidad computacional de la alineación de secuencias múltiples con puntuación SP.  (Inglés)  // Revista de biología computacional: una revista de biología celular molecular computacional. - 2001. - vol. 8, núm. 6 _ - Pág. 615-623. -doi : 10.1089/ 106652701753307511 . — PMID 11747615 .
  4. Elias I. Resolver la intratabilidad de la alineación múltiple.  (Inglés)  // Revista de biología computacional: una revista de biología celular molecular computacional. - 2006. - vol. 13, núm. 7 . - Pág. 1323-1339. -doi : 10.1089/ cmb.2006.13.1323 . —PMID 17037961 .
  5. Carrillo H., Lipman DJ El problema de alineación de secuencias múltiples en biología  // SIAM  Journal of Applied Mathematics : diario. - 1988. - vol. 48 , núm. 5 . - P. 1073-1082 . -doi : 10.1137/ 0148063 .
  6. Lipman DJ , Altschul SF , Kececioglu JD Una herramienta para la alineación de secuencias múltiples.  (inglés)  // Actas de la Academia Nacional de Ciencias de los Estados Unidos de América. - 1989. - vol. 86, núm. 12 _ - Pág. 4412-4415. —PMID 2734293 .
  7. Software de análisis genético . Centro Nacional de Información Biotecnológica. Fecha de acceso: 3 de marzo de 2010. Archivado desde el original el 28 de septiembre de 2009.
  8. Hogeweg P. , Hesper B. La alineación de conjuntos de secuencias y la construcción de árboles filéticos: un método integrado.  (Inglés)  // Revista de evolución molecular. - 1984. - vol. 20, núm. 2 . - Pág. 175-186. —PMID 6433036 .
  9. 1 2 3 4 5 6 7 8 Mount DM Bioinformática: secuencia y análisis del genoma 2.ª ed. (inglés)  // Cold Spring Harbor: diario. — 2004.
  10. Higgins DG , Sharp PM CLUSTAL: un paquete para realizar la alineación de secuencias múltiples en una microcomputadora.  (Inglés)  // Gen. - 1988. - vol. 73, núm. 1 . - Pág. 237-244. — PMID 3243435 .
  11. Thompson JD , Higgins DG , Gibson TJ CLUSTAL W: mejora de la sensibilidad de la alineación progresiva de secuencias múltiples a través de la ponderación de secuencias, penalizaciones de brecha específicas de posición y elección de matriz de ponderación.  (Inglés)  // Investigación de ácidos nucleicos. - 1994. - vol. 22, núm. 22 . - Pág. 4673-4680. —PMID 7984417 .
  12. EMBL-EBI-ClustalW2-Alineación de secuencia múltiple . CLUSTALW2 . Consultado el 12 de abril de 2016. Archivado desde el original el 14 de abril de 2016.
  13. Notredame C. , Higgins DG , Heringa J. T-Coffee: Un método novedoso para la alineación rápida y precisa de múltiples secuencias.  (Inglés)  // Revista de biología molecular. - 2000. - vol. 302, núm. 1 . - Pág. 205-217. -doi : 10.1006 / jmbi.2000.4042 . — PMID 10964570 .
  14. Sze SH , Lu Y. , Yang Q. Una formulación soluble en tiempo polinomial de alineación de secuencias de secuencias múltiples.  (Inglés)  // Revista de biología computacional: una revista de biología celular molecular computacional. - 2006. - vol. 13, núm. 2 . - Pág. 309-319. -doi : 10.1089/ cmb.2006.13.309 . —PMID 16597242 .
  15. Gotoh O. Mejora significativa en la precisión de múltiples alineaciones de secuencias de proteínas mediante el refinamiento iterativo evaluado por referencia a las alineaciones estructurales.  (Inglés)  // Revista de biología molecular. - 1996. - vol. 264, núm. 4 . - Pág. 823-838. -doi : 10.1006/ jmbi.1996.0679 . —PMID 8980688 .
  16. 1 2 Brudno M. , Chapman M. , Göttgens B. , Batzoglou S. , Morgenstern B. Alineación múltiple rápida y sensible de secuencias genómicas grandes.  (Inglés)  // BMC bioinformática. - 2003. - vol. 4. - Pág. 66. - doi : 10.1186/1471-2105-4-66 . — PMID 14693042 .
  17. Edgar RC MUSCLE: alineación de secuencias múltiples con alta precisión y alto rendimiento.  (Inglés)  // Investigación de ácidos nucleicos. - 2004. - vol. 32, núm. 5 . - Pág. 1792-1797. doi : 10.1093 / nar/gkh340 . — PMID 15034147 .
  18. Collingridge PW , Kelly S. MergeAlign: mejora del rendimiento de la alineación de secuencias múltiples mediante la reconstrucción dinámica de alineaciones de secuencias múltiples de consenso.  (Inglés)  // BMC bioinformática. - 2012. - vol. 13. - Pág. 117. - doi : 10.1186/1471-2105-13-117 . — PMID 22646090 .
  19. Hughey R. , Krogh A. Modelos ocultos de Markov para el análisis de secuencias: extensión y análisis del método básico.  (Inglés)  // Aplicaciones informáticas en las biociencias : CABIOS. - 1996. - vol. 12, núm. 2 . - Pág. 95-107. —PMID 8744772 .
  20. Grasso C. , Lee C. La combinación de alineación de orden parcial y alineación de secuencia múltiple progresiva aumenta la velocidad de alineación y la escalabilidad para problemas de alineación muy grandes.  (Inglés)  // Bioinformática. - 2004. - vol. 20, núm. 10 _ - Pág. 1546-1556. -doi : 10.1093 / bioinformática/bth126 . —PMID 14962922 .
  21. Hughey R, Krogh A. SAM: Sistema de software de modelado y alineación de secuencias. Informe técnico UCSC-CRL-96-22, Universidad de California, Santa Cruz, CA, septiembre de 1996.
  22. Durbin R, Eddy S, Krogh A, Mitchison G. Análisis de secuencias biológicas: modelos probabilísticos de proteínas y ácidos nucleicos . - Prensa de la Universidad de Cambridge, 1998. - ISBN 0-521-63041-4 .
  23. Battey JN , Kopp J. , Bordoli L. , Read RJ , Clarke ND , Schwede T. Predicciones de servidor automatizadas en CASP7.  (Inglés)  // Proteínas. - 2007. - vol. 69 Suplemento 8.-Pág. 68-82. - doi : 10.1002/prot.21761 . —PMID 17894354 .
  24. Notredame C. , Higgins DG SAGA: alineación de secuencias por algoritmo genético.  (Inglés)  // Investigación de ácidos nucleicos. - 1996. - vol. 24, núm. 8 _ - Pág. 1515-1524. —PMID 8628686 .
  25. Notredame C. , O'Brien EA , Higgins DG RAGA: Alineación de secuencias de ARN mediante algoritmo genético.  (Inglés)  // Investigación de ácidos nucleicos. - 1997. - vol. 25, núm. 22 . - Pág. 4570-4580. — PMID 9358168 .
  26. Kim J. , Pramanik S. , Chung MJ Alineación de secuencias múltiples usando recocido simulado.  (Inglés)  // Aplicaciones informáticas en las biociencias : CABIOS. - 1994. - vol. 10, núm. 4 . - Pág. 419-426. —PMID 7804875 .
  27. Löytynoja A. , Goldman N. Un algoritmo para la alineación múltiple progresiva de secuencias con inserciones.  (inglés)  // Actas de la Academia Nacional de Ciencias de los Estados Unidos de América. - 2005. - vol. 102, núm. 30 . - Pág. 10557-10562. -doi : 10.1073 / pnas.0409137102 . — PMID 16000407 .
  28. Löytynoja A. , Goldman N. La colocación de brechas conscientes de la filogenia evita errores en la alineación de secuencias y el análisis evolutivo.  (Inglés)  // Ciencia (Nueva York, NY). - 2008. - Vol. 320, núm. 5883 . - Pág. 1632-1635. -doi : 10.1126 / ciencia.1158395 . —PMID 18566285 .
  29. Lupyan D. , Leo-Macias A. , Ortiz AR Un nuevo algoritmo iterativo progresivo para la alineación de estructuras múltiples.  (Inglés)  // Bioinformática. - 2005. - vol. 21, núm. 15 _ - Pág. 3255-3263. -doi : 10.1093 / bioinformática/bti527 . —PMID 15941743 .
  30. Szalkowski AM Alineación de secuencias múltiples rápida y robusta con colocación de brechas consciente de la filogenia.  (Inglés)  // BMC bioinformática. - 2012. - vol. 13. - Pág. 129. - doi : 10.1186/1471-2105-13-129 . — PMID 22694311 .
  31. Henikoff S. , Henikoff JG Ensamblaje automatizado de bloques de proteínas para la búsqueda en bases de datos.  (Inglés)  // Investigación de ácidos nucleicos. - 1991. - vol. 19, núm. 23 . - Pág. 6565-6572. —PMID 1754394 .
  32. Bailey TL , Elkan C. Ajuste de un modelo de mezcla por maximización de expectativas para descubrir motivos en biopolímeros.  (Inglés)  // Actas / ... Conferencia Internacional sobre Sistemas Inteligentes para Biología Molecular; ISMB. Congreso Internacional de Sistemas Inteligentes para Biología Molecular. - 1994. - vol. 2.- Pág. 28-36. —PMID 7584402 .
  33. Bailey TL , Gribskov M. Combinando evidencia usando valores p: aplicación a búsquedas de homología de secuencia.  (Inglés)  // Bioinformática. - 1998. - vol. 14, núm. 1 . - Pág. 48-54. — PMID 9520501 .
  34. Salama RA , Stekel DJ Una alineación de secuencias múltiples basada en energía no independiente mejora la predicción de los sitios de unión del factor de transcripción.  (Inglés)  // Bioinformática. - 2013. - Vol. 29, núm. 21 . - Pág. 2699-2704. -doi : 10.1093 / bioinformática/btt463 . — PMID 23990411 .
  35. Bahr A. , Thompson JD , Thierry JC , Poch O. BAliBASE (Base de datos de alineación comparativa): mejoras para repeticiones, secuencias transmembrana y permutaciones circulares.  (Inglés)  // Investigación de ácidos nucleicos. - 2001. - vol. 29, núm. 1 . - Pág. 323-326. —PMID 11125126 .
  36. Nuin PA , Wang Z. , Tillier ER La precisión de varios programas de alineación de secuencias múltiples para proteínas.  (Inglés)  // BMC bioinformática. - 2006. - vol. 7. - Pág. 471. - doi : 10.1186/1471-2105-7-471 . — PMID 17062146 .
  37. Aidan Bud. Edición y Ajuste Manual de MSAs (Multiple Sequence Alignments) (enlace descendente) . www.embl.de. Consultado el 23 de abril de 2016. Archivado desde el original el 24 de septiembre de 2015. 
  38. Castresana J. Selección de bloques conservados de múltiples alineaciones para su uso en análisis filogenético.  (Inglés)  // Biología molecular y evolución. - 2000. - vol. 17, núm. 4 . - Pág. 540-552. —PMID 10742046 .
  39. 1 2 Löytynoja A. , Milinkovitch MC SOAP, limpieza de múltiples alineaciones de bloques inestables.  (Inglés)  // Bioinformática. - 2001. - vol. 17, núm. 6 _ - Pág. 573-574. — PMID 11395440 .
  40. Chang JM , Di Tommaso P. , Notredame C. TCS: una nueva medida de confiabilidad de alineación de secuencias múltiples para estimar la precisión de la alineación y mejorar la reconstrucción del árbol filogenético.  (Inglés)  // Biología molecular y evolución. - 2014. - Vol. 31, núm. 6 _ - Pág. 1625-1637. -doi : 10.1093 / molbev/msu117 . — PMID 24694831 .
  41. Chang JM , Di Tommaso P. , Lefort V. , Gascuel O. , Notredame C. TCS: un servidor web para evaluación de alineación de secuencias múltiples y reconstrucción filogenética.  (Inglés)  // Investigación de ácidos nucleicos. - 2015. - Vol. 43, núm. W1 . - Pág. 3-6. -doi : 10.1093 / nar/gkv310 . —PMID 25855806 .
  42. Penn O. , Privman E. , Landan G. , Graur D. , Pupko T. Una puntuación de confianza de alineación que captura la solidez para guiar la incertidumbre del árbol.  (Inglés)  // Biología molecular y evolución. - 2010. - Vol. 27, núm. 8 _ - Pág. 1759-1767. -doi : 10.1093 / molbev/msq066 . — PMID 20207713 .
  43. Redelings BD , Suchard MA Estimación bayesiana conjunta de alineación y filogenia.  (Inglés)  // Biología sistemática. - 2005. - vol. 54, núm. 3 . - Pág. 401-418. -doi : 10.1080 / 10635150590947041 . —PMID 16012107 .
  44. Kumar, S. y Filipski, A. Alineación de secuencias múltiples: en busca de posiciones de ADN homólogas  // Investigación del genoma. - 2007. - vol. 17, núm. 2 . - Pág. 127-135. - doi : 10.1101/gr.5232407 .
  45. Barton, NH, Briggs, DEG, Eisen, JA, Goldstein, DB y Patel, NH Reconstrucción filogenética  // Evolución. - Cold Spring Harbor, Nueva York: Cold Spring Harbor Laboratory Press, 2007. - ISBN 978-0-87969-684-9 .
    TA Marrón. La reconstrucción de árboles filogenéticos basados ​​en ADN  // Genomas 3. - Garland Science, 2007. - P. 599-609. — ISBN 0-8153-4138-5 .
  46. Aidan Bud. Alineaciones de secuencias múltiples: ejercicios y demostraciones (enlace no disponible) . www.embl.de. Consultado el 23 de abril de 2016. Archivado desde el original el 5 de marzo de 2012.