Alineación de secuencia

El alineamiento de secuencias es una técnica bioinformática basada en colocar dos o más secuencias de monómeros de ADN , ARN o proteínas una debajo de la otra de tal manera que sea fácil ver áreas similares en estas secuencias. La similitud de las estructuras primarias de dos moléculas puede reflejar sus relaciones funcionales, estructurales o evolutivas [1] . Las secuencias de bases alineadas de nucleótidos o aminoácidos generalmente se representan como filas de una matriz. Se agregan espacios entre las bases para que elementos iguales o similares se ubiquen en columnas sucesivas de la matriz [2] .

Los algoritmos de alineación de secuencias también se utilizan en NLP [3] .

Representación gráfica y de texto

En la mayoría de las representaciones del resultado de la alineación, las secuencias se organizan en las filas de la matriz de tal manera que los elementos coincidentes (nucleótidos o aminoácidos) están uno debajo del otro (en la misma columna). Los “brechas” se reemplazan por un signo “-”, llamado gap (del inglés “ gap ”) [4] , y denota un indel , es decir, el lugar de una posible inserción o eliminación [5] [ 2] .

Representación de texto

Con la visualización de texto, es posible escribir simplemente en formato fasta , cuando las secuencias se escriben con espacios y tienen la misma longitud [6] . Este tipo de grabación se utiliza a menudo por los programas y es conveniente para el procesamiento de la máquina [7] .

El otro tipo de representación de texto es para comodidad del usuario (a continuación se muestran tres ejemplos diferentes). En él, las secuencias están escritas una debajo de la otra, y en la línea entre ellas, diferentes símbolos indican diferentes relaciones entre los aminoácidos. Un espacio (ausencia de símbolo) indica la ausencia de conexión entre aminoácidos, tanto en términos de homología como de función: los símbolos "*", "|" o la letra ( BLAST ) - los mismos aminoácidos; ":" o "+" - similar en propiedades; "." — similar en propiedades [8] .

Explosión: Consulta 15 FQQAWANPKHAWAQVNGETRLTQNLIILERETR 47 FW PKHA +QVNG T +Q+ IIL RR Sbjct 14 FHHNWTRPKHASSQVNGHTEMSQHNIILRRVPR 46 CLUSTAL: THE12851.1 MGKKGYKRNEYNNPFQQAWANPKHAWAQVNGETRLTQNLIILERETRKRS- 50 WP_104057486.1 MSTK-DQLDPQSQAFHHNWTRPKHASSQVNGHTEMSQHNIILRRVPRSGRR 50 *..* : : .: *:: *:.**** :****.*.::*: ***.* *. Aguja en relieve: THE12851.1 1 MGKKGYKRNEYNNPFQQAWANPKHAWAQVNGETRLTQNLIILERETRKRS 50 |..|. :.:..:..|...|..||||.:||||.|.::|:.|||.|..|... WP_104057486. 1 MSTKD-QLDPQSQAFHHNWTRPKHASSQVNGHTEMSQHNIILRRVPRSGR 49

Representación gráfica

La representación gráfica se centra al máximo en la percepción visual. También es habitual colocar las secuencias una debajo de la otra, pero el significado de la relación entre los aminoácidos de diferentes secuencias se indica mediante colores. Hay tinciones para las propiedades de los aminoácidos, como "Zappo", que tiñe cada aminoácido, y "Clustal", que tiñe las barras con las mismas propiedades de aminoácidos. Parte de las tinciones, como "%Identity", te permite ver la identidad y conservación de los aminoácidos en la columna. También hay colores que muestran el grado de hidrofobicidad de los aminoácidos [10] .

Los visores de alineación más famosos son: Jalview [9] , UGENE [11] , MEGA [12] . Para obtener una lista completa, consulte el artículo Lista de software de visualización de alineación.

También hay una forma de representar la secuencia de consenso: Sequence Logo [13] .

Matriz de puntos

Una matriz de puntos de similitud es una forma de representar visualmente una alineación por pares. Normalmente se utiliza para secuencias grandes, como genomas bacterianosLas coordenadas de ambas secuencias se trazan a lo largo de los ejes y su homología se representa por segmentos. Entonces, una matriz de puntos de secuencias idénticas se verá como la diagonal de un cuadrado. Esta forma de presentación le permite rastrear inversiones , duplicaciones o eliminaciones , así como translocaciones [14] .

Alineación de pares

La alineación por pares se usa para encontrar regiones similares de dos secuencias. Distinguir entre alineación global y local. La alineación global supone que las secuencias son homólogas en toda su longitud. La alineación global incluye ambas secuencias de entrada completas. La alineación local se aplica si las secuencias contienen tanto regiones relacionadas (homólogas) como no relacionadas. El resultado de la alineación local es la selección de un sitio en cada una de las secuencias y la alineación entre estos sitios [15] .

Se utilizan variaciones del método de programación dinámica para obtener la alineación de pares . En concreto, estos algoritmos están implementados en los servicios del Laboratorio Europeo de Biología Molecular ( Pairwise Sequence Alignment . EMBL-EBI . (indefinido) ). Entonces, por ejemplo, Aguja . (indefinido), un algoritmo de alineación global, utiliza el algoritmo de Needleman-Wunsch [16] , mientras que Water . (indefinido), el algoritmo de alineación local es el algoritmo de Smith-Waterman [16] .

Comparación de alineaciones globales y locales

Para demostrar la diferencia entre la alineación global y local, podemos considerar un ejemplo artificial. Tomemos las secuencias A y B y hagamos una alineación global y local para ellas. La secuencia estableció una región homóloga central y bordes marcadamente diferentes.

El alineamiento global [15] utiliza la longitud total de ambas secuencias y puede utilizarse para probar la homología (origen común) de las secuencias en toda su longitud. Sin embargo, si las secuencias tienen pocas regiones de homología (o simplemente similitud), entonces no siempre es posible determinar bien estas regiones. En el ejemplo anterior, el algoritmo está enganchado a cuatro aminoácidos coincidentes, por lo que no se ve el largo tramo de homología. Sobre esta base, se puede suponer que las secuencias no son completamente homólogas entre sí [17] .

La alineación local [15] utiliza partes de las secuencias en las que se predice la máxima homología. Es genial si solo partes de las secuencias son similares, como durante la recombinación o la evolución convergente . Siempre debe tener cuidado con las áreas pequeñas con poca similitud, especialmente al alinear secuencias grandes, ya que aumenta la probabilidad de encontrar un área similar al azar. En el ejemplo de la figura, la alineación local incluía la mitad de la longitud de las secuencias. Alineados 11 aminoácidos similares en función, hay 2 semanas. Con base en esto, si además se conoce acerca de la función similar de los péptidos A y B, se puede decir que las regiones centrales de ambos péptidos realizan la función del péptido completo, o son importantes para su función [18] .

Sin embargo, es posible que la región de secuencia de interés no siempre caiga en la alineación local. Esto se puede eludir recortando la secuencia a lo largo de los límites de la región de interés. También son posibles otras combinaciones de alineaciones globales y locales [19] .

Algoritmos de búsqueda

Se utiliza para buscar en grandes bases de datos secuencias que sean similares a una secuencia dada de acuerdo con criterios específicos. La alineación aplicada es local. Se utilizan varios métodos heurísticos para aumentar la velocidad de búsqueda. Los programas más famosos son BLAST [20] y FASTA3x . (indefinido)[21] .

Alineación múltiple

El alineamiento múltiple es el alineamiento de tres o más secuencias. Se utiliza para encontrar regiones conservadas en un conjunto de secuencias homólogas. En la mayoría de los casos, construir una alineación múltiple es un paso necesario en la reconstrucción de árboles filogenéticos . Encontrar la alineación múltiple óptima usando programación dinámica tiene demasiada complejidad de tiempo, por lo que las alineaciones múltiples se construyen sobre la base de varias heurísticas. Los programas más famosos que realizan alineación múltiple son Clustal ( clustal . (indefinido) ) [22] , T-COFFEE ( tcoffee . (indefinido) ), MUSCLE ( muscle . (indefinido) ) [23] y MAFFT ( mafft . (indefinido) ). También hay programas para ver y editar múltiples alineaciones, como Jalview[9] o el idioma ruso UGENE [11] .

Alineación estructural

Puede construirse para proteínas o ácidos ribonucleicos utilizando información sobre la estructura espacial secundaria y terciaria de las moléculas. El objetivo es intentar establecer la homología de dos o más estructuras encontrando y comparando sitios que están apilados de manera similar en el espacio. El alineamiento estructural suele ir acompañado de la superposición de estructuras, es decir, de la búsqueda de movimientos espaciales, cuya aplicación a moléculas dadas los combina mejor. Pero a diferencia de la simple superposición espacial con coincidencia conocida de residuos de aminoácidos equivalentes de dos estructuras, los algoritmos de alineación estructural generalmente no requieren un conocimiento a priori de la alineación de secuencias. Hay una gran cantidad de en los que basan varios programas de alineación estructural Los alineamientos espaciales son especialmente importantes para el análisis de datos de genómica estructural y proteómica , y también se pueden utilizar para evaluar los alineamientos obtenidos a partir de comparaciones de secuencias. [24] .

El alineamiento estructural se ha utilizado con éxito para comparar proteínas con un bajo nivel de homología de secuencia, cuando las relaciones evolutivas no se pueden establecer mediante métodos estándar de alineamiento de secuencias, pero en este caso es necesario tener en cuenta la influencia de la evolución convergente , el efecto principal de que se manifiesta en la similitud de las estructuras terciarias de secuencias de aminoácidos no relacionadas [25] .

La alineación espacial le permite comparar dos o más moléculas con estructuras tridimensionales conocidas, cuya producción experimental se basa en el uso de análisis de difracción de rayos X y espectroscopia de RMN . Las estructuras derivadas de los métodos de predicción de estructuras de proteínas también se pueden utilizar para la alineación espacial . Además, la evaluación de la calidad de tales predicciones a menudo se basa en el uso de la alineación espacial de la estructura del modelo creado y la proteína, cuya estructura terciaria se obtuvo directamente del experimento. También hay datos sobre el uso del método de dispersión de rayos X de ángulo pequeño para el análisis de estructuras tridimensionales de varias moléculas de proteínas [26] .

Tipos de comparación

El resultado de los programas de alineación estructural, por regla general, es la combinación de conjuntos de coordenadas atómicas . La mayoría de las veces, cuando se busca una comparación de este tipo, el resultado se evalúa en función del valor de la función de desviación estándar mínima (RMSD) entre estructuras, que el algoritmo de construcción de alineación intenta minimizar. [27]

{\begin{alineado}\mathrm {RMSD} (\mathbf {v} ,\mathbf {w} )&={\sqrt ({\frac {1}{n))\sum _{i=1 }^{n}\|v_{i}-w_{i}\|^{2}}}\\&={\sqrt {{\frac {1}{n}}\sum _{i=1} ^{n}(({v_{i}}_{x}-{w_{i}}_{x})^{2}+({v_{i}}_{y}-{w_{i} }_{y})^{2}+({v_{i}}_{z}-{w_{i}}_{z})^{2}}})\end{alineado}}

donde es el número de puntos (átomos) en la muestra (estructura), y son átomos de la estructura correspondiente con coordenadas , , y , , . $norte$ $\mathbf{v}$ $\mathbf {w}$ ${\ estilo de visualización \ mathbf {v_ {i}} _ {x}}$ ${\ estilo de visualización \ mathbf {v_ {i}} _ {y}}$ ${\ estilo de visualización \ mathbf {v_ {i}} _ {z}}$ ${\ estilo de visualización \ mathbf {w_ {i}} _ {x}}$ ${\ estilo de visualización \ mathbf {w_ {i}} _ {y}}$ ${\ estilo de visualización \ mathbf {w_ {i}} _ {z}}$

El valor RMSD se expresa en unidades de longitud, la unidad más utilizada en biología estructural es el angstrom (Å), que es igual a 10 −10 m Sin embargo, RMSD como un grado de divergencia espacial de estructuras alineadas tiene una serie de desventajas: inestabilidad a valores atípicos y la presencia de varios dominios en la estructura de proteínas alineadas, ya que los cambios en la posición relativa de estos dominios entre las dos estructuras pueden cambiar artificialmente el valor de RMSD.

Además, se pueden calcular parámetros más complejos que evalúan la similitud estructural, por ejemplo, la prueba de distancia global [28] .

Para crear una alineación estructural y calcular los valores RMSD correspondientes, se pueden utilizar tanto todos los átomos de la molécula de proteína como sus subconjuntos. Por ejemplo, los átomos de los radicales laterales de los residuos de aminoácidos no siempre se tienen en cuenta, y solo los átomos incluidos en el esqueleto peptídico de la molécula pueden usarse para la alineación. Esta opción se elige si las estructuras alineadas tienen una secuencia de aminoácidos muy diferente y los radicales laterales difieren en un gran número de residuos. Por esta razón, por defecto, los métodos de alineación espacial usan solo átomos de la columna vertebral involucrados en un enlace peptídico . Para una mayor simplificación y aumento de la eficiencia, a menudo se usa la posición de solo los átomos de carbono alfa , ya que su posición determina con bastante precisión la posición de los átomos del esqueleto polipeptídico. Solo cuando se alinean estructuras muy similares o incluso idénticas es importante tener en cuenta las posiciones de los átomos de la cadena lateral. En este caso, RMSD refleja no solo la similitud de la conformación del esqueleto de la proteína, sino también los estados rotámeros de las cadenas laterales. Otras formas de reducir el ruido y aumentar el número de coincidencias correctas son el etiquetado de elementos de estructura secundaria , mapas de contactos nativos o patrones de interacción de residuos, medidas del grado de empaquetamiento de cadenas laterales y medidas de conservación de enlaces de hidrógeno [29] .

Métodos

DALI

Uno de los métodos populares de alineación estructural es DALI ( método de matriz de alineación de distancia ) . Las estructuras proteicas iniciales se descomponen en hexapéptidos y se calcula una matriz de distancia evaluando patrones de contacto entre fragmentos. Los elementos de la estructura secundaria, cuyos restos son adyacentes en la secuencia, están en la diagonal principal de la matriz; las diagonales restantes de la matriz reflejan contactos espaciales entre residuos que no están uno al lado del otro en la secuencia. Cuando las matrices de distancia de dos proteínas tienen elementos iguales o similares en aproximadamente las mismas posiciones, se puede decir que las proteínas tienen un pliegue similar y sus elementos de estructura secundaria están conectados por bucles de aproximadamente la misma longitud. El proceso directo de alineación DALI es buscar matrices de similitud construidas para dos proteínas, que luego se vuelven a ensamblar en la alineación final utilizando un algoritmo de maximización de puntaje estándar [30] .

El método DALI se utilizó para crear la base de datos FSSP ( Familias de proteínas estructuralmente similares ), en la que todas las estructuras proteicas conocidas se alinearon por pares para determinar su relación espacial y clasificación de pliegues [31] .

DaliLite es un programa descargable que utiliza el algoritmo DALI [32] .

Extensión combinatoria

El método de extensión combinatoria (CE) es similar a DALI en el sentido de que también divide cada estructura en varios fragmentos, que luego intenta volver a ensamblar en una alineación completa. Se utiliza una serie de combinaciones de fragmentos por pares, denominadas AFP ( pares de fragmentos alineados ), para definir una matriz de similitud a través de la cual se dibuja una ruta óptima para determinar la alineación final. La ruta correspondiente a la alineación se calcula como la ruta óptima a través de la matriz de similitud pasando linealmente a través de las secuencias, extendiendo la alineación de la siguiente AFP de puntuación alta posible. Solo aquellas AFP que cumplen con los criterios de similitud local especificados se incluyen en la matriz, lo que reduce el espacio de búsqueda requerido y aumenta la eficiencia [33] .

Similar a DALI o SSAP, CE se utilizó para crear una base de datos de clasificaciones de pliegues basadas en las estructuras espaciales conocidas de proteínas del PDB [34] .

Notas

↑ Monte DM. Bioinformática: Análisis de Secuencias y Genomas . — 2do. - Prensa de laboratorio de Cold Spring Harbor: Cold Spring Harbor, Nueva York, 2004. - ISBN 0-87969-608-7 .
↑ 1 2 Herramienta básica de búsqueda de alineación local (BLAST) // Bioinformática y genómica funcional. - Hoboken, NJ, EE. UU.: John Wiley & Sons, Inc. - págs. 100-138 . - ISBN 9780470451496 , 9780470085851 .
↑ Bill MacCartney, Michel Galley, Christopher D. Manning. Un modelo de alineación basado en frases para la inferencia del lenguaje natural // Actas de la Conferencia sobre métodos empíricos en el procesamiento del lenguaje natural - EMNLP '08. - Morristown, NJ, EE. UU.: Asociación de Lingüística Computacional, 2008. - doi : 10.3115/1613715.1613817 .
↑ Julie D. Thompson, Desmond G. Higgins, Toby J. Gibson. CLUSTAL W: mejora de la sensibilidad de la alineación progresiva de secuencias múltiples a través de la ponderación de secuencias, penalizaciones de espacios específicos de posición y elección de matriz de ponderación // Investigación de ácidos nucleicos. - 1994. - T. 22 , núm. 22 . - S. 4673-4680 . — ISSN 1362-4962 0305-1048, 1362-4962 . doi : 10.1093 / nar/22.22.4673 .
↑ Mutación INDEL - MeSH - NCBI . www.ncbi.nlm.nih.gov. Fecha de acceso: 29 de abril de 2019. (indefinido)
↑ Formato FASTA alineado . www.cgl.ucsf.edu. Consultado el 29 de abril de 2019. Archivado desde el original el 24 de enero de 2021. (indefinido)
↑ Formatos de alineación . emboss.sourceforge.net. Consultado el 30 de abril de 2019. Archivado desde el original el 24 de junio de 2018. (indefinido)
↑ Preguntas frecuentes sobre herramientas bioinformáticas - Herramientas de análisis de secuencia de despachador de trabajos - EMBL-EBI . www.ebi.ac.uk. Consultado el 23 de abril de 2019. Archivado desde el original el 23 de abril de 2019. (indefinido)
↑ 1 2 3 4 A. M. Waterhouse, JB Procter, DMA Martin, M. Clamp, GJ Barton. Jalview Versión 2: un editor de alineación de secuencias múltiples y un banco de trabajo de análisis // Bioinformática . — 2009-05-01. — vol. 25 , edición. 9 _ - P. 1189-1191 . - ISSN 1460-2059 1367-4803, 1460-2059 . -doi : 10.1093 / bioinformática/btp033 . Archivado desde el original el 24 de octubre de 2017.
↑ Esquemas de color . www.jalview.org. Consultado el 23 de abril de 2019. Archivado desde el original el 26 de abril de 2019. (indefinido)
↑ 1 2 Mikhail Fursov, Olga Golosova, Konstantin Okonechnikov. Unipro UGENE: un conjunto de herramientas de bioinformática unificado // Bioinformática . — 2012-04-15. — vol. 28 , edición. 8 _ - P. 1166-1167 . — ISSN 1367-4803 . -doi : 10.1093 / bioinformática/bts091 . Archivado desde el original el 30 de abril de 2019.
↑ Koichiro Tamura, Joel Dudley, Masatoshi Nei, Sudhir Kumar. MEGA: un software centrado en biólogos para el análisis evolutivo de secuencias de ADN y proteínas (inglés) // Briefings in Bioinformatics. — 2008-07-01. — vol. 9 , edición. 4 . - P. 299-306 . — ISSN 1467-5463 . -doi : 10.1093 / bib/bbn017 . Archivado desde el original el 30 de abril de 2019.
↑ Thomas D. Schneider, R. Michael Stephens. Logotipos de secuencia: una nueva forma de mostrar secuencias de consenso // Investigación de ácidos nucleicos. - 1990. - T. 18 , núm. 20 _ - S. 6097-6100 . — ISSN 1362-4962 0305-1048, 1362-4962 . doi : 10.1093 / nar/18.20.6097 .
↑ Erik LL Sonnhammer, Richard Durbin. Un programa de matriz de puntos con control de umbral dinámico adecuado para el análisis de secuencias de proteínas y ADN genómico // Gene. — Elsevier , 1995-12. — vol. 167 , edición. 1-2 . - P. GC1-GC10 . — ISSN 0378-1119 . - doi : 10.1016/0378-1119(95)00714-8 . Archivado desde el original el 2 de diciembre de 2008.
↑ 1 2 3 Valery O Polyanovsky, Mikhail A Roytberg, Vladimir G Tumanyan. Análisis comparativo de la calidad de un algoritmo global y un algoritmo local para el alineamiento de dos secuencias // Algoritmos para Biología Molecular. - 2011. - vol. 6 , edición. 1 . — Pág. 25 . — ISSN 1748-7188 . -doi : 10.1186/ 1748-7188-6-25 . Archivado desde el original el 23 de abril de 2019.
↑ 1 2 Herramientas de alineación de secuencias por pares < EMBL-EBI . www.ebi.ac.uk. Consultado el 23 de abril de 2019. Archivado desde el original el 12 de abril de 2019. (indefinido)
↑ Aloysius J. Phillips. Evaluación de homología y alineación de secuencias moleculares // Journal of Biomedical Informatics. — 2006-02. - T. 39 , n. 1 . - S. 18-33 . — ISSN 1532-0464 . -doi : 10.1016/ j.jbi.2005.11.005 .
↑ MC Frith. Encontrar elementos de secuencia funcional mediante alineación local múltiple // Investigación de ácidos nucleicos. - 2004-01-02. — vol. 32 , edición. 1 . - P. 189-200 . — ISSN 1362-4962 . doi : 10.1093 / nar/gkh169 . Archivado desde el original el 22 de julio de 2017.
↑ M. Brudno, S. Malde, A. Poliakov, C. B. Do, O. Couronne. Alineación glocal: encontrar reordenamientos durante la alineación // Bioinformática. - 2003-07-03. - T. 19 , n. 1 flexible - S. i54-i62 . - ISSN 1460-2059 1367-4803, 1460-2059 . -doi : 10.1093 / bioinformática/btg1005 .
↑ BLAST: Herramienta básica de búsqueda de alineación local . blast.ncbi.nlm.nih.gov. Consultado el 23 de abril de 2019. Archivado desde el original el 21 de agosto de 2020. (indefinido)
↑ WR Pearson, DJ Lipman. Herramientas mejoradas para la comparación de secuencias biológicas (inglés) // Actas de la Academia Nacional de Ciencias . - Academia Nacional de Ciencias , 1988-04-01. — vol. 85 , edición. 8 _ - P. 2444-2448 . - ISSN 1091-6490 0027-8424, 1091-6490 . -doi : 10.1073/ pnas.85.8.2444 .
↑ J. Thompson. La interfaz de ventanas CLUSTAL_X: estrategias flexibles para la alineación de secuencias múltiples con la ayuda de herramientas de análisis de calidad // Investigación de ácidos nucleicos. — 1997-12-15. - T. 25 , n. 24 . - S. 4876-4882 . — ISSN 1362-4962 . doi : 10.1093 / nar/25.24.4876 .
↑ R. C. Edgar. MUSCLE: alineación de secuencias múltiples con alta precisión y alto rendimiento // Investigación de ácidos nucleicos. - 2004-03-08. - T. 32 , n. 5 . - S. 1792-1797 . — ISSN 1362-4962 . doi : 10.1093 / nar/gkh340 .
↑ Zhang Y. , Skolnick J. El problema de predicción de la estructura de la proteína podría resolverse utilizando la biblioteca PDB actual. (inglés) // Actas de la Academia Nacional de Ciencias de los Estados Unidos de América. - 2005. - vol. 102, núm. 4 . - Pág. 1029-1034. -doi : 10.1073 / pnas.0407152101 . —PMID 15653774 .
↑ Zhang, Y.; Skolnick, J. Predicción de estructura automatizada de proteínas débilmente homólogas a escala genómica // Actas de la Academia Nacional de Ciencias de los Estados Unidos de América : revista . - 2004. - Mayo. -doi : 10.1073/ pnas.0305695101 . — PMID 15126668 .
↑ GL Hura; AL Menón. Análisis estructurales de soluciones robustas y de alto rendimiento mediante dispersión de rayos X de ángulo pequeño (SAXS ) // Nature Methods : revista. - 2009. - Julio. - doi : 10.1038/nmeth.1353 . —PMID 19620974 .
↑ Cohen, FE; Sternberg, MJ Sobre la predicción de la estructura de la proteína: la importancia de la desviación de la raíz cuadrada media // Revista de biología molecular : diario. - 1980. - doi : 10.1016/0022-2836(80)90289-2 . — PMID 7411610 .
↑ Zemla A. LGA: Un método para encontrar similitudes 3D en estructuras de proteínas. (Inglés) // Investigación de ácidos nucleicos. - 2003. - vol. 31, núm. 13 _ - Pág. 3370-3374. — PMID 12824330 .
↑ Godzik A. La alineación estructural entre dos proteínas: ¿hay una respuesta única? (inglés) // Ciencia de las proteínas: una publicación de la Protein Society. - 1996. - vol. 5, núm. 7 . - Pág. 1325-1338. -doi : 10.1002/ pro.5560050711 . —PMID 8819165 .
↑ Liisa Holm; Laura M. Laakso. Actualización del servidor Dali (ing.) // Nature Methods : journal. - 2016. - 29 de abril. -doi : 10.1093 / nar/gkw357 . — PMID 27131377 .
↑ Holm L. , Sander C. Dali/FSSP clasificación de pliegues de proteínas tridimensionales. (Inglés) // Investigación de ácidos nucleicos. - 1997. - vol. 25, núm. 1 . - Pág. 231-234. —PMID 9016542 .
↑ Holm L. , Park J. Banco de trabajo DaliLite para comparación de estructuras de proteínas. (Inglés) // Bioinformática. - 2000. - vol. 16, núm. 6 _ - Pág. 566-567. —PMID 10980157 .
↑ Shindyalov IN , Bourne PE Alineación de la estructura de la proteína mediante extensión combinatoria incremental (CE) de la ruta óptima. (Inglés) // Ingeniería de proteínas. - 1998. - vol. 11, núm. 9 _ - Pág. 739-747. — PMID 9796821 .
↑ Prlic A. , Bliven S. , Rose PW , Bluhm WF , Bizon C. , Godzik A. , Bourne PE Alineaciones de estructuras de proteínas precalculadas en el sitio web RCSB PDB. (Inglés) // Bioinformática. - 2010. - Vol. 26, núm. 23 . - Pág. 2983-2985. -doi : 10.1093 / bioinformática/btq572 . —PMID 20937596 .

Instrumentos de cuerda
Medidas de similitud de cadenas	Distancia de Damerau a Loewenstein distancia Levenstein distancia de hamming Similitudes Jaro-Winkler
Búsqueda de subcadena	Algoritmo de Boyer-Moore Algoritmo de Boyer-Moore-Horspool Algoritmo de Knuth-Morris-Pratt Algoritmo de Rabin-Karp función de prefijo Función Z Algoritmo Aho - Korasik
palíndromos	árbol palíndromo Algoritmo del administrador
Alineación de secuencia	Algoritmo de Needleman-Wunsha Algoritmo de Smith-Waterman
Estructuras de sufijos	Matriz de sufijos sufijo autómata árbol de sufijos árbol de prefijos
Otro	analizando La coincidencia de patrones Mayor subsecuencia común Mayor subcadena común