Matriz de peso posicional

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 10 de noviembre de 2021; las comprobaciones requieren 2 ediciones .

La matriz de peso posicional (PWM) es un método bioinformático que se utiliza para buscar motivos en secuencias biológicas.
PWM se puede construir sobre la base de la alineación múltiple de secuencias relacionadas o secuencias que realizan funciones similares. PWM se utiliza en muchos algoritmos modernos para descubrir nuevos motivos [1] .

Antecedentes

La matriz de peso posicional fue presentada por el genetista estadounidense Gary Stormo.y colegas en 1982 [2] como una forma alternativa de representar secuencias de consenso . Secuencias de consenso se han utilizado previamente para mostrar motivos comunes en secuencias biológicas, sin embargo, este método tenía algunas desventajas en la predicción y búsqueda de estos motivos en nuevas secuencias [3] . Por primera vez, se utilizó PVM para buscar sitios de iniciación de la traducción en el ARN . Para crear una matriz de peso con la que distinguir sitios verdaderos de secciones similares de secuencias, el matemático polaco-estadounidense Andrzej Ehrenfeuchtse propuso un algoritmo de perceptrón . El resultado del entrenamiento del perceptrón en muestras de sitios verdaderos y falsos fue una matriz y un valor umbral para la diferencia entre estos dos conjuntos de datos. La prueba de esta matriz en nuevas secuencias no incluidas en el conjunto de entrenamiento mostró que este método era más preciso y sensible en comparación con la construcción de una secuencia de consenso.

Las ventajas de PWM sobre las secuencias de consenso han hecho de las matrices un método popular para representar motivos en secuencias biológicas [4] [5] .

Definición matemática

Una definición estricta de una matriz de peso posicional es la siguiente [6] :

$W_{k,j}=log_{2}\left({\frac {P_{k,j}}{P_{k}}}\right)$ , donde es el alfabeto de la secuencia (zd. nucleótidos), es el número de posición, $k=\{A,T,G,C\}$ ${\ estilo de visualización j = 1,..., J}$

${\ Displaystyle P_ {k, j}}$ es una matriz de probabilidad posicional, es la aparición de una letra en el alfabeto (es decir, 0,25 para una secuencia de nucleótidos y 0,05 para una secuencia de aminoácidos). $Paquete}$ $k$

Creación de PVM

PVM es una matriz, cuyo número de filas corresponde al tamaño del alfabeto (4 nucleótidos para ácidos nucleicos y 20 aminoácidos para secuencias de proteínas), y el número de columnas corresponde a la longitud del motivo [6] .

Paso 1. Construcción de una matriz de probabilidad posicional

El primer paso en la construcción de una matriz de peso basada en la alineación múltiple sin deleciones es la creación de una matriz de frecuencia posicional (PMF). Los elementos de esta matriz corresponden a cuántas veces aparece cada letra del alfabeto en una posición particular del motivo. A continuación, el PMP se convierte en una matriz de probabilidad posicional al normalizar el número total de secuencias en la alineación. Tal matriz muestra cuál es la probabilidad de encontrar una letra dada en una posición dada en la alineación inicial.

Cada elemento de la matriz de probabilidad es igual a la probabilidad de encontrar una letra en una posición en la alineación inicial y se calcula mediante la fórmula [1] : donde es el número de secuencia, es el número de posición, es la letra de la alfabeto, ${\ Displaystyle P_ {k, j}}$ $k$ $j$
${\textstyle P_{k,j}={\frac {1}{N}}\sum_{i=1}^{N}I\left({X_{i,j}=k}\right), }$
${\ estilo de visualización i = 1,..., N}$ ${\ estilo de visualización j = 1,..., J}$ $k$

${\ estilo de visualización X_ {i, j}}$ es la letra correspondiente a la posición en la secuencia , y es la función indicadora calculada por la fórmula: $j$ $i$ $yo$
${\textstyle {I\left(a=k\right)}=\left\{{\begin{matriz}1,&a=k,\\0,&a\neq k,\end{matriz}}\right. }$

Por ejemplo, dadas las siguientes diez secuencias de ADN alineadas que representan un motivo:

GAGGTAAAAC
TCCGTAAGT
CAGGTTGGA
ACAGTCAGT
TAGGTCATT
TAGGTACTG
ATGGTAACT
CAGGTATAC
TGTGTGAGT
AAGGTAAGT

respectivamente, la matriz de frecuencia posicional:

. }

y, por tanto, la matriz de probabilidad obtenida tras dividir por el número de secuencias:

P={\begin{matriz}A\\C\\G\\T\end{matrix}}{\begin{bmatrix}0.3&0.6&0.1&0.0&0.0&0.6&0.7&0.2&0. 1\\0.2&0.2&0.1&0.0&0.0&0.2&0.1&0.1&0.2\\0.1&0.1&0.7&1.0&0.0&0.1&0.1&0.5&0.1\\0.4&0.1&0.1&0. 0&1.0&0.1&0.1&0.2&0.6\end{bmatriz}}

[7] .

En una matriz de probabilidad posicional, la suma de los valores de cada columna, es decir, la probabilidad de encontrar cualquier letra del alfabeto en una posición dada, en el caso de una alineación inicial libre de borrado es 1.

Con esta matriz podemos calcular la probabilidad de que, al generar letras en cada posición con la probabilidad que en ella se indica, obtengamos una secuencia . Como se supone que las columnas de la matriz son independientes entre sí, esta probabilidad es igual al producto de las probabilidades de colocar cada letra de la secuencia en su posición, es decir: ¿ dónde está la letra de la secuencia en posición ? Por ejemplo, se puede calcular la probabilidad de que la secuencia S = GAGGTAAAC sea obtenida por la matriz del ejemplo anterior: $S$
${\textstyle p(S\vert P)=\prod_{j=0}^{J}P_{S_{j},j},}$
$S_j$ $S$ $j$
$PAGS$
$p(S\vert P)=0,1\times 0,6\times 0,7\times 1,0\times 1,0\times 0,6\times 0,7\times 0,2\times 0,2=0,0007056.$

Nota

Para calcular una matriz de probabilidad posicional a partir de una pequeña matriz de datos, a menudo se utilizan pseudocuentas . Debido a que la muestra está incompleta, puede surgir una situación en la que no todas las letras estén representadas en una determinada posición en la muestra original. En este caso, la probabilidad de obtener esta letra al generar una secuencia aleatoria a partir de esta matriz será igual a cero. En consecuencia, la probabilidad de generar una secuencia con tal letra en esta posición también será igual a cero, independientemente del resto de la secuencia [8] . Para evitar esto, se agrega algún valor, llamado pseudoconteo, a cada elemento de la matriz de probabilidad para que sea distinto de cero. De acuerdo con la regla de Laplace , se agrega 1 a cada elemento de la matriz de frecuencia, la mínima ocurrencia posible de una letra en esta posición. Existen sistemas de pseudoconteo más complejos, como los que utilizan mezclas de Dirichlet o matrices de sustitución .

Dados los pseudoconteos, la definición de la matriz de probabilidad se puede formular como:

${\displaystyle P_{k,j}={\frac {F_{k,j}+e\left(k\right)}{N+\sum {e\left(k'\right)))))$ , donde - PMC, - función de pseudocontaje [9] . ${\ Displaystyle F_ {k, j}}$ ${\ estilo de visualización e \ izquierda (k \ derecha)}$

En el ejemplo anterior, construido sin usar pseudoconteos, cualquier secuencia que no tenga una G en la cuarta posición o una T en la quinta posición tendrá una probabilidad de 0.

Paso 2. Transición de probabilidades a pesos

El último paso para crear un PWM es la transición de las probabilidades de las letras en diferentes posiciones del motivo a sus pesos. En la mayoría de los casos, estos pesos se calculan como una relación logarítmica de verosimilitud , teniendo en cuenta el modelo de fondo para generar una secuencia aleatoria b. El modelo de fondo más simple supone que cada letra aparece con la misma frecuencia en cualquier posición del conjunto de datos, es decir, el valor de cualquier carácter del alfabeto (0,25 para nucleótidos y 0,05 para aminoácidos, respectivamente). El modelo de fondo no tiene por qué implicar una distribución uniforme de letras: por ejemplo, cuando se estudian organismos con una composición alta de GC, las probabilidades de C y G pueden aumentar, y las de A y T, respectivamente, pueden disminuir. Así, los elementos de la matriz de pesos se calculan mediante la fórmula [6] : $P_{k}=1/\vert k\vert$

W_{k,j}=\mathrm {ln} \;(P_{k,j}/P_{k}).

Aplicando esta transformación a la matriz de probabilidad del ejemplo (ignorando los pseudoconteos) obtenemos:

W={\begin{matriz}A\\C\\G\\T\end{matriz}}{\begin{bmatrix}0.18&0.87&-0.91&-\infty &-\infty &0.87&1 .02&-0.22&-0.91\\-0.22&-0.22&-0.91&-\infty &-\infty &-0.22&-0.91&-0.91&-0.22\\-0.91&-0.91&1.02&1.38&- \infty &-0.91&-0.91&0.69&-0.91\\0.47&-0.91&-0.91&-\infty &-1.38&-0.91&-0.91&-0.22&0.87\end{bmatrix}}.

En caso de que los elementos del SRP se calculen usando la razón de verosimilitud logarítmica, el peso de la secuencia se puede calcular como la suma de los pesos de cada letra de esta secuencia en su posición. El peso resultante da una idea de cómo esta secuencia se corresponde con el motivo por el cual se creó la matriz de peso posicional. Cuanto mayor sea la probabilidad de que la secuencia sea generada por la matriz de probabilidad correspondiente y no al azar, mayor será el peso.

Valor informativo de PBM

El contenido de información del PVM muestra cómo la distribución de las letras en las posiciones descritas en él difiere de la distribución uniforme . La información propia de cada carácter en la posición del motivo es igual a: $i$ $j$

-\log(p_{i,j})

La autoinformación esperada (promedio) para este elemento es:

-p_{i,j}\cdot\log(p_{i,j})

El contenido de información de toda la matriz es igual a la suma de todos los valores propios promedio esperados de cada elemento de la matriz. El contenido de información del SPM en el caso de una distribución de fondo desigual se calcula mediante la fórmula:

\textstyle -\sum _{i,j}p_{i,j}\cdot \log(p_{i,j}/p_{j}),

donde es la frecuencia de fondo para el símbolo dado.

p_{j}

El contenido de la información está relacionado con la distancia Kullback-Leibler o la entropía relativa . Sin embargo, cuando se usa el algoritmo PSSM para buscar secuencias genómicas (ver más abajo), una corrección tan uniforme puede conducir a una sobreestimación de la importancia de las diferentes bases en el motivo debido a la distribución desigual de los n-meros en los genomas reales, lo que lleva a un número significativamente mayor de falsos positivos [10] .

Uso de PBM

Los PVM se utilizan ampliamente para el análisis de secuencias de nucleótidos y proteínas. En primer lugar, se utilizan para buscar sitios y motivos específicos. Por ejemplo, el algoritmo MATCH [11] puede buscar posibles sitios de unión para factores de transcripción en secuencias de ADN. Se utilizan enfoques similares para las proteínas [12] . Además de buscar dominios funcionales, PVM se puede utilizar para predecir varias propiedades de las proteínas, como la estructura secundaria [13] [14] [15] , su accesibilidad a un solvente [16] [17] , contactos en la estructura [ 18] . Además de buscar motivos, se utilizan PWM de alineación múltiple para describir familias de proteínas. Existen bases de datos de PVM que se pueden utilizar para determinar si una proteína de interés pertenece a familias conocidas. También se están mejorando los métodos para construir y usar PVM. Por ejemplo, se ha desarrollado un método para crear PWM sin usar grandes alineaciones de proteínas múltiples, lo que acelera significativamente los cálculos en presencia de una gran variedad de datos iniciales [19] . Además, existe un enfoque que utiliza múltiples PTM para describir familias de proteínas: en este caso, no una, sino muchas matrices se construyen utilizando diferentes proteínas familiares no cercanas (para evitar sesgos).

Algoritmos para construir y usar PVM

Hay varios algoritmos para buscar coincidencias de PWM en secuencias. Un ejemplo es el algoritmo MATCH, que se implementó en el ModuleMaster. Algoritmos más sofisticados para búsquedas rápidas en bases de datos usando nucleótidos así como aminoácidos PWM/PSSM están implementados en el software possumsearch y descritos por Beckstette, et al. (2006) [20] .

Además, entre los algoritmos más famosos, se encuentran MEME y Gibbs [1] .

Implementación de PVM

La implementación de PVM lista para usar se puede usar en los lenguajes de programación Python ( paquete BioPython ) y R ( biblioteca seqLogo ).

Ejemplo de código R

#instalar si es necesario fuente ( "http://bioconductor.org/biocLite.R" ) biocLite ( "seqLogo" ) biblioteca ( seqLogo ) a <- c ( 0 , 4 , 4 , 0 , 3 , 7 , 4 , 3 , 5 , 4 , 2 , 0 , 0 , 4 ) c <- c ( 3 , 0 , 4 , 8 , 0 , 0 , 0 , 3 , 0 , 0 , 0 , 0 , 2 , 4 ) g <- c ( 2 , 3 , 0 , 0 , 0 , 0 , 0 , 0 , 1 , 0 , 6 , 8 , 5 , 0 ) t < -c ( 3 , 1 , 0 , 0 , 5 , 1 , 4 , 2 , 2 , 4 , 0 , 0 , 1 , 0 ) df <- data.frame ( a , c , g , t ) df a c g t 1 0 3 2 3 2 4 0 3 1 3 4 4 0 0 4 0 8 0 0 5 3 0 0 5 6 7 0 0 1 7 4 0 0 4 8 3 3 0 2 9 5 0 1 2 10 4 0 0 4 11 2 0 6 0 12 0 0 8 0 13 0 2 5 1 14 4 4 0 0 #define la función que divide la frecuencia por la suma de la fila, es decir, proporciones proporción <- función ( x ){ rs <- suma ( x ); retorno ( x / rs ); } #crear matriz de peso de posición mef2 <- apply ( df , 1 , proporción ) mef2 <- makePWM ( mef2 ) seqLogo ( mef2 )

Notas

↑ 1 2 3 CSB2007 Aprendizaje de matrices de peso de posición a partir de datos de secuencia y expresión . www.lifesciencesociety.org. Consultado el 30 de abril de 2017. Archivado desde el original el 2 de diciembre de 2016. (indefinido)
↑ Stormo, Gary D.; Schneider, Thomas D.; Oro, Larry; Ehrenfeucht, Andrzej. Uso del algoritmo 'Perceptron' para distinguir los sitios de iniciación de la traducción en E. coli // : en:Nucleic Acids Research|Nucleic Acids Research : journal. - 1982. - vol. 10 , núm. 9 _ - Pág. 2997-3011 . doi : 10.1093 / nar/10.9.2997 .
↑ Stormo, GD Sitios de unión al ADN: representación y descubrimiento (neopr.) // Bioinformática. - 2000. - 1 de enero ( vol. 16 , núm. 1 ). - S. 16-23 . -doi : 10.1093 / bioinformática/16.1.16 . —PMID 10812473 .
↑ Sinha, S. Sobre el conteo de coincidencias de matriz de peso de posición en una secuencia, con aplicación a la búsqueda de motivos discriminativos // Bioinformatics: journal. - 2006. - 27 de julio ( vol. 22 , n. 14 ). - Pág. e454-e463 . -doi : 10.1093 / bioinformática/btl227 .
↑ Xia, Xuhua. Matriz de peso de posición, Muestreador de Gibbs y las pruebas de significancia asociadas en la caracterización y predicción de motivos // Scientifica: revista. - 2012. - vol. 2012 . - Pág. 1-15 . -doi : 10.6064 / 2012/917540 .
↑ 1 2 3 Matriz de ponderación de posiciones - Reflexiones de un candidato poco probable , Reflexiones de un candidato poco probable (1 de octubre de 2013). Archivado desde el original el 1 de abril de 2017. Consultado el 30 de abril de 2017.
↑ Guigo, Roderic Una introducción a las matrices de puntuación específicas de posición . http: //bioinformática.upf.edu . Consultado el 29 de abril de 2015. Archivado desde el original el 28 de noviembre de 2012. (indefinido)
↑ Nishida, K.; Frith, MC; Nakai, K. Pseudocuentas para sitios de unión de factores de transcripción // Investigación de ácidos nucleicos : diario. - 2008. - 23 de diciembre ( vol. 37 , no. 3 ). - Pág. 939-944 . -doi : 10.1093 / nar/gkn1019 .
↑ Matriz de ponderación de posición - Reflexiones de un candidato improbable (inglés) , Reflexiones de un candidato poco probable (1 de octubre de 2013). Archivado desde el original el 1 de abril de 2017. Consultado el 31 de marzo de 2017.
↑ Ivan Erill, Michael C O'Neill. Un nuevo examen de los métodos basados en la teoría de la información para la identificación del sitio de unión al ADN // BMC Bioinformatics. — 2009-02-11. - T. 10 . - art. 57 . — ISSN 1471-2105 . -doi : 10.1186/ 1471-2105-10-57 .
↑ Kel AE, et al. MATCHTM: una herramienta para buscar sitios de unión de factores de transcripción en secuencias de ADN // Investigación de ácidos nucleicos : diario. - 2003. - vol. 31 , núm. 13 _ - Pág. 3576-3579 . -doi : 10.1093 / nar/gkg585 . — PMID 12824369 .
↑ Beckstette M., et al. Algoritmos rápidos basados en índices y software para hacer coincidir matrices de puntuación específicas de posición // BMC Bioinformatics : diario. - 2006. - vol. 7 . — Pág. 389 . -doi : 10.1186/ 1471-2105-7-389 . —PMID 1635428 .
↑ Predicción de la estructura secundaria de la proteína Jones DT basada en matrices de puntuación específicas de la posición // J Mol Biol : diario. - 1999. - vol. 292 . - P. 195-202 . — PMID 10493868 .
↑ Pollastri, G. & McLysaght, A. Porter: un servidor nuevo y preciso para la predicción de estructuras secundarias de proteínas // Bioinformatics: journal. - 2005. - vol. 21 . - Pág. 1719-1720 . —PMID 15585524 .
↑ Rost, B. Revisión: la predicción de la estructura secundaria de la proteína sigue aumentando // J Struct Biol : diario. - 2001. - vol. 134 . - pág. 204-218 . —PMID 11551180 .
↑ Adamczak, R.; Porollo, A. & Meller, J. Predicción precisa de la accesibilidad de solventes usando regresión basada en redes neuronales // Proteins : journal. - 2004. - vol. 56 . - Pág. 753-767 . — PMID 15281128 .
↑ Pollastri, G.; Martín, AJM; Mooney, C. & Vullo, A. Predicción precisa de la estructura secundaria de la proteína y la accesibilidad del solvente mediante combinadores de consenso de información de secuencia y estructura // BMC Bioinformatics : diario. - 2007. - vol. 8 _ — Pág. 201 . — PMID 17570843 .
↑ Pollastri, G.; Baldí, P.; Fariselli, P. & Casadio, R. Predicción mejorada del número de contactos de residuos en proteínas mediante redes neuronales recurrentes // Bioinformatics: journal. - 2001. - vol. 17 _ - P. Suplemento 1: S234-S242 . —PMID 11473014 .
↑ Shandar Ahmad y Akinori Sarai. Predicción basada en PSSM de sitios de unión de ADN en proteínas // BMC Bioinformatics : diario. - 2005. - vol. 6 _ — Pág. 33 . — PMID 15720719 .
↑ Michael Beckstette, Robert Homann, Robert Giegerich, Stefan Kurtz. Algoritmos rápidos basados en índices y software para emparejar matrices de puntuación específicas de posición // BMC Bioinformatics. - 2006-08-24. - T. 7 . - S. 389 . — ISSN 1471-2105 . -doi : 10.1186/ 1471-2105-7-389 .