El logotipo de secuencia ( en bioinformática ) es un método de representación gráfica del conservadurismo de nucleótidos (en una cadena de ARN o ADN ) o aminoácidos (en proteínas ). El logotipo se construye a partir de un conjunto de secuencias alineadas . Este método le permite reflejar las siguientes características del área analizada en un gráfico:
El logotipo consta de un conjunto de letras en cada posición. El logotipo muestra qué tan bien se han conservado los nucleótidos (o residuos de aminoácidos) durante la evolución en cada posición: cuanto mayor sea la frecuencia de aparición de una letra en una determinada columna, mayor será su tamaño relativo. La altura total de las letras en cada posición individual refleja el contenido de información de esta columna. El logotipo puede mostrar, por ejemplo, sitios de unión conservados para factores de transcripción u otros ligandos [1] .
Para crear un logotipo para un conjunto de secuencias, primero se alinean localmente , si es necesario, con respecto a una posición específica (por ejemplo, los sitios de unión a ribosomas se pueden alinear con respecto al punto de inicio de la traducción). La creación de un logotipo de secuencia solo tiene sentido para una región conservadora [1] . Con base en los resultados de la alineación, se construye una tabla de las frecuencias de ocurrencia de cada elemento en cada posición.
Luego, en la tabla resultante, cada columna se ordena en orden descendente, de modo que la ocurrencia más frecuente en esa posición (el llamado "consenso") se coloca en la base de la primera fila de la tabla.
La base de consenso se usa a menudo para crear un consenso de secuencia. Sin embargo, tal consenso no proporciona información completa sobre las secuencias, ya que también pueden aparecer otras letras con una frecuencia significativa en la alineación. Por ejemplo, el codón de inicio procariótico más común es AUG, pero GUG y UUG también pueden ser el codón de inicio. Sin esta información adicional, los datos serán distorsionados [1] . Esta es una de las principales razones por las que la secuencia de consenso es un modelo deficiente para describir los sitios de unión.
La importancia de cada posición se describe convenientemente mediante un valor denominado contenido de información de la columna. Se mide en bits , es decir, unidades de información. Por ejemplo, si una posición en una alineación contiene solo un tipo de nucleótido, entonces se necesitan exactamente 2 bits de información, es decir, respuestas a 2 preguntas binarias de sí o no. Si la posición contiene residuos de dos tipos, entonces una pregunta es suficiente, ya que la elección de dos de los cuatro nucleótidos es equivalente a la elección de uno de los dos [1] .
Si las frecuencias de los nucleótidos no son iguales, se requiere una forma más sofisticada de calcular el contenido de información .
La medida de incertidumbre que se utiliza al construir un logotipo se llama entropía de Shannon :
,donde es la frecuencia de la base nitrogenada o del residuo de aminoácido en la posición . También se mide en bits de información.
La información de la columna de alineación completa se calcula como la reducción de la incertidumbre en esa posición:
,donde es la entropía de Shannon para la columna , es la máxima incertidumbre, igual a 4 para la secuencia de nucleótidos y 20 para el aminoácido, y es la corrección para muestras pequeñas, cuyo tamaño es :
.Tal modificación no permitirá crear un logotipo alineando un pequeño número de secuencias: obtendrá un logotipo con casi el mismo contenido de información en diferentes posiciones [1] .
El conjunto de valores refleja el rol de cada posición para el sitio de enlace. El tamaño de cada letra en cada posición (en bits de información) se calcula a partir del producto de la frecuencia de esta letra y el contenido de información de toda la columna:
.A continuación, las bases se muestran una encima de la otra en orden creciente de frecuencia en esta columna.
Si hay espacios en la columna, la altura total de la pila de símbolos en la imagen resultante se corrige por la proporción de símbolos significativos en ella. Esto es necesario, ya que una posición no puede considerarse conservativa si existe un polimorfismo de inserción-deleción en este lugar en muchas secuencias [1] .
Los logotipos contienen varios tipos diferentes de información. Primero, en cada posición, las bases se clasifican según su representación (la base más común se muestra en la parte superior de la pila de símbolos) [1] . Por lo tanto, el consenso general se puede leer desde la fila superior de letras en cada posición.
El tamaño relativo del símbolo de cada una de las cuatro bases indica la frecuencia relativa de aparición de cada nucleótido en esa posición [1] .
La altura de todo el conjunto de caracteres es proporcional a la información que lleva esta columna de alineación. Por lo tanto, las posiciones más importantes son fáciles de resaltar visualmente. Por ejemplo, en los logotipos de los sitios de unión a ribosomas bacterianos, debido a la existencia de codones de inicio alternativos , la primera letra del AUG más común suele ser ligeramente inferior a las dos siguientes, es menos conservadora [1] .
Los sitios de unión del factor de transcripción suelen ser secuencias palindrómicas , ya que el propio factor de transcripción suele funcionar como un dímero . Dichos sitios son simétricos no solo en la composición de nucleótidos, sino también en la conservación de la posición, lo que se puede ver en los logotipos de dichos sitios [1] .
Debe tenerse en cuenta que un conservadurismo inesperadamente alto puede ser el resultado de la superposición entre los dos sitios de unión [2] .
Esta es una versión simplificada del logo de secuencias, cuya principal ventaja es la posibilidad de ser presentado en formato de texto [3] . Al igual que el logotipo de secuencia, el logotipo de consenso de secuencia se crea a partir de múltiples alineaciones de secuencias de ADN/ARN o proteínas y refleja las alineaciones y transmite información sobre el conservadurismo en cada posición de la secuencia.
En lugar de un conjunto de todos los nucleótidos (o aminoácidos) posibles y su frecuencia relativa en cada posición, el logotipo de consenso solo refleja el grado de conservadurismo, utilizando la altura de la letra de consenso en cada posición [3] .
En esta versión del logo se pierde una parte importante de la información, es un eslabón intermedio entre la secuencia de consenso y el logo descrito anteriormente [3] .
Está construido de la misma forma que el logo anterior, pero la altura de los conjuntos de letras de todas las posiciones es la misma [4] . Resulta que la altura de cada letra individual corresponde a la frecuencia de este nucleótido o aminoácido en la columna de alineación correspondiente. Al mismo tiempo, la información sobre el conservadurismo se pierde casi por completo, por lo que este tipo de logotipo rara vez se usa.