EXPLOSIÓN

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 22 de febrero de 2021; las comprobaciones requieren 7 ediciones .
EXPLOSIÓN
Tipo de bioinformática
Desarrollador Steven Altschul , Warren Gish , Webb Miller , Eugene Myers y David Lipman ( NCBI )
Escrito en C++ y C
Sistema operativo UNIX , Linux , Apple Macintosh , Microsoft Windows
ultima versión 2.13.0 (17.03.2022)
Formatos de archivo legibles Salida XML BLAST [d]
Formatos de archivo generados Salida XML BLAST [d]
Licencia dominio publico
Sitio web ftp.ncbi.nlm.nih.gov/bla…

BLAST ( Herramienta básica de búsqueda de alineación  local ) es una  familia de programas informáticos utilizados para buscar secuencias de aminoácidos o nucleótidos similares [1] . Usando BLAST, el investigador puede comparar la secuencia que tiene con secuencias de la base de datos y encontrar homólogos putativos. Es una herramienta esencial para biólogos moleculares, bioinformáticos y taxónomos. El programa BLAST fue desarrollado por un grupo de científicos: Stephen Altschul , Warren Gish , Webb Miller , Eugene Myers y David Lipman en los Institutos Nacionales de Salud de EE . UU . La primera publicación que describe el programa apareció en el Journal of Molecular Biology en 1990 [2] .

Clasificación de programas de la serie BLAST

La familia de programas de la serie BLAST se divide en 4 grupos principales:

Nucleótido

diseñado para comparar la secuencia de nucleótidos estudiada con una base de datos de genomas secuenciados y sus regiones:

Proteína

están diseñados para comparar la secuencia de aminoácidos de la proteína estudiada con la base de datos existente de proteínas y sus fragmentos.

Locutores

capaz de convertir secuencias de nucleótidos en aminoácidos y viceversa:

Especial

programas de aplicación usando BLAST:

Cómo funciona BLAST

Todas las alineaciones generalmente se dividen en globales (las secuencias se comparan completamente) y locales (solo se comparan ciertas secciones de las secuencias). Los programas de la serie BLAST producen alineamientos locales, lo que se asocia con la presencia de dominios y patrones similares en diferentes proteínas. Además, la alineación local permite la comparación de ARNm con ADN genómico. En el caso del alineamiento global, hay menos similitud de secuencia, especialmente en sus dominios y patrones.

Después de ingresar la secuencia de nucleótidos o aminoácidos estudiada (solicitud) en una de las páginas web de BLAST, junto con otra información de entrada (base de datos, tamaño de "palabra" (sección), valor E, etc.) se envía al servidor. BLAST crea una tabla de todas las "palabras" (en una proteína, esta es una sección de secuencias, que por defecto consta de tres aminoácidos, y para los ácidos nucleicos de 11 nucleótidos) y "palabras" similares.

Luego se buscan en la base de datos. Cuando se encuentra una coincidencia, se intenta ampliar el tamaño de la "palabra" (hasta 4 o más aminoácidos y 12 o más nucleótidos), primero sin espacios (laps), y luego usándolos. Después de la extensión máxima de los tamaños de todas las "palabras" posibles de la secuencia estudiada, se determinan los alineamientos con el número máximo de coincidencias para cada par consulta-secuencia de base de datos, y la información obtenida se fija en la estructura SeqAlign. El formateador ubicado en el servidor BLAST usa la información de SeqAlign y la presenta de varias formas (tradicional, gráfica, tabular).

Para cada secuencia encontrada en la base de datos por los programas BLAST, es necesario determinar qué tan similar es a la secuencia en estudio (consulta) y si esta similitud es significativa. Para ello, BLAST calcula el número de bits y el valor de E (valor esperado, E-value) para cada par de secuencias.

Al determinar la similitud, el elemento clave es la matriz de sustitución, ya que determina las puntuaciones de similitud para cualquier posible par de nucleótidos o aminoácidos. La mayoría de los programas de la serie BLAST utilizan la matriz BLOSUM62 (matriz de sustitución de bloques con identidad del 62 %, matriz de sustitución de bloques con identidad del 62 %). Las excepciones son blastn y megablast (programas que realizan comparaciones nucleótido-nucleótido y no utilizan matrices de sustitución de aminoácidos).

Usando los algoritmos de Smith-Waterman o de Sellers modificados, se determinan todos los pares de segmentos ("palabras" extendidas), que no se pueden aumentar, ya que esto conducirá a una disminución en las puntuaciones de similitud. Estos pares de "palabras" extendidas se denominan pares de segmentos con máxima similitud (pares de segmentos de puntuación alta, HSP). En el caso de una longitud suficientemente grande de las secuencias estudiadas (m) y la secuencia de la base de datos (n), los indicadores de similitud HSP se caracterizan por dos parámetros K (el tamaño del área de búsqueda) y P (sistemas de conteo). Estos indicadores deben indicarse al traer los indicadores de similitud de la secuencia estudiada y la secuencia de la base de datos (S).

Para comparar las puntuaciones de similitud de diferentes alineaciones, independientemente de la matriz utilizada, es necesario transformarlas. Para obtener la puntuación de similitud transformada (número de bits, B), utilice la fórmula:

El valor de B muestra cuán similares son las secuencias (cuanto mayor es el número de bits, mayor es la similitud). Dado que los indicadores K y P están incluidos en la fórmula para calcular B, no es necesario especificarlos al traer los valores de B. El valor de E (valor E), correspondiente al indicador B, muestra la confiabilidad de esta alineación (cuanto menor sea el valor de E, más fiable será la alineación). Está determinado por la fórmula:

Los programas BLAST determinan predominantemente el valor de E en lugar de P (probabilidad de tener al menos un HSP con una puntuación mayor o igual a S). Pero a E < 0,01, los valores de P y E son casi idénticos.

El valor de E se determina mediante la fórmula (2) cuando se comparan solo dos secuencias de aminoácidos o nucleótidos. La comparación de la secuencia estudiada de longitud m con el conjunto de secuencias de la base de datos puede basarse en dos supuestos. La primera suposición es que todas las secuencias de la base de datos son igualmente similares a la que se está estudiando. Esto implica que el valor de E para la alineación con la secuencia corta contenida en la base de datos debe equipararse con el valor de E para la alineación con la secuencia larga. Para calcular el valor de E de la base de datos, debe multiplicar el valor de E, obtenido por comparación por pares, por el número de secuencias que contiene. La segunda suposición es que la secuencia en estudio es más similar a las secuencias cortas que a las largas, porque estas últimas a menudo consisten en diferentes regiones (muchas proteínas están compuestas por dominios). Suponiendo que la probabilidad de similitud es proporcional a la longitud de la secuencia, entonces el valor E por pares para una secuencia de base de datos de longitud n debe multiplicarse por N/n, donde N es la longitud total de aminoácidos o nucleótidos en la base de datos. Los programas BLAST utilizan predominantemente este enfoque para calcular los valores E de una base de datos.

Teóricamente, una alineación local puede comenzar en cualquier par de nucleótidos o aminoácidos de las secuencias alineadas. Sin embargo, HPS generalmente no comienza cerca del borde (principio o final) de las secuencias. Para corregir tal efecto de borde, es necesario calcular la longitud efectiva de las secuencias. En el caso de secuencias de más de 200 residuos, el efecto de borde se neutraliza.

Véase también

Notas

  1. Pertsemlidis A, Fondon JW (2001). “Tener un BLAST con bioinformática (y evitar BLASTphemy)”. Biología del Genoma . 2 (10): revisiones2002.1. DOI : 10.1186/gb-2001-2-10-revisiones2002 . PMID  11597340 .
  2. Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ (1990). “Herramienta básica de búsqueda de alineación local”. Revista de Biología Molecular . 215 (3): 403-410. DOI : 10.1016/S0022-2836(05)80360-2 . PMID2231712  . _
  3. Boratyn GM, Schäffer AA, Agarwala R, Altschul SF, Lipman DJ, Madden TL (2012). "Tiempo de búsqueda mejorado de dominio acelerado BLAST". Biología directa . 7 : 12. DOI : 10.1186/ 1745-6150-7-12 . IDPM 22510480 . 

Enlaces