Predicción de la función de proteínas : determinar el papel biológico de una proteína y su significado en el contexto de una célula . La predicción de la función se realiza para proteínas poco conocidas o para proteínas hipotéticas predichas a partir de datos de secuencias genómicas . La fuente de información para la predicción puede ser la homología de secuencias de nucleótidos , perfiles de expresión génica , estructura de dominio de proteínas, análisis intelectual de textos de publicaciones, perfiles filogenéticos y fenotípicos , interacciones proteína-proteína .
La función de las proteínas es un término muy amplio: las funciones de las proteínas van desde la catálisis de reacciones bioquímicas hasta la transducción de señales y el transporte celular , y una sola proteína puede desempeñar un papel específico en varios procesos celulares [1] .
En general, la función se puede considerar como "todo lo que le sucede a una proteína o con la ayuda de ella". El Gene Ontology Project ha propuesto una clasificación útil de funciones basada en una lista (vocabulario) de términos bien definidos divididos en tres categorías principales: funciones moleculares , procesos biológicos y componentes celulares [2] . A partir de esta base de datos es posible por el nombre de la proteína o su número de identificación encontrar los términos de la “Ontología Genética” asignada a la misma o anotaciones realizadas en base a datos calculados o experimentales.
A pesar de que hoy en día se utilizan métodos tan modernos como el análisis de micromatrices , el ARN de interferencia y el análisis de dos híbridos para probar experimentalmente las funciones de una proteína, las tecnologías de secuenciación han avanzado tanto que el ritmo de caracterización experimental de proteínas abiertas va muy por detrás del ritmo de descubrimiento de nuevas secuencias [3] . Por tanto, la anotación de nuevas secuencias de proteínas se realizará principalmente mediante predicción basada en métodos computacionales, ya que de esta forma es posible caracterizar secuencias mucho más rápido y simultáneamente para varios genes /proteínas. Las primeras técnicas de predicción de características se basaron en la similitud de proteínas homólogas con características conocidas (la llamada predicción de características basada en la homología ). El desarrollo posterior de los métodos condujo a la aparición de predicciones basadas en el contexto genómico y en la estructura de la molécula de proteína , lo que hizo posible ampliar el rango de datos obtenidos y combinar métodos basados en diferentes tipos de datos para obtener el más completo. imagen del papel de la proteína [3] . El valor y el rendimiento de la predicción computacional de la función de los genes se destaca por el hecho de que, a partir de 2010, el 98 % de las anotaciones de Gene Ontology se realizaron sobre la base de la extracción automática de otras bases de datos de anotaciones y solo el 0,6 % sobre la base de datos experimentales [4] .
Las proteínas con secuencias similares suelen ser homólogas [5] y, por lo tanto, tienen una función similar. Por lo tanto, en genomas secuenciados recientemente, las proteínas suelen estar anotadas por analogía con las secuencias de proteínas similares de otros genomas. Sin embargo, proteínas estrechamente relacionadas no siempre realizan la misma función [6] , por ejemplo, las proteínas de levadura Gal1 y Gal3 son parálogas con 73% y 92% de similitud, que adquirieron funciones muy diferentes durante la evolución : por ejemplo, Gal1 es una galactoquinasa , y Gal3 es un inductor de la transcripción [7] . Desafortunadamente, no existe un umbral claro para el grado de similitud de secuencia para predecir características de manera segura; muchas proteínas con la misma función tienen similitudes sutiles, mientras que hay aquellas que son muy similares en secuencia pero completamente diferentes en función.
El desarrollo de bases de datos de dominios de proteínas como Pfam [8] permite encontrar dominios ya conocidos en la secuencia deseada para sugerir posibles funciones. El recurso dcGO [9] contiene anotaciones tanto para dominios individuales como supradominios (es decir, combinaciones de dos o más dominios consecutivos), lo que hace que la predicción se acerque más a la realidad. Además, dentro de los propios dominios de la proteína hay secuencias características más cortas asociadas con ciertas funciones (los llamados motivos ) [10] , cuya presencia en la proteína deseada puede determinarse buscando en bases de datos de motivos, como PROSITE [11] . Los motivos también se pueden usar para predecir la localización intracelular de una proteína: la presencia de péptidos señalizadores cortos específicos determina a qué orgánulos se transportará la proteína después de la síntesis, y se han desarrollado muchos recursos para identificar tales secuencias señalizadoras [12] , como SignalP, que se ha actualizado varias veces a lo largo de los años, el desarrollo de métodos [13] . Por lo tanto, algunas características de la función de la proteína pueden predecirse sin comparación con secuencias homólogas de longitud completa.
Debido a que la estructura 3D de una proteína suele estar más conservada que la secuencia de la proteína, la similitud de las estructuras puede indicar la similitud y la función de las proteínas. Se han desarrollado muchos programas para buscar pliegues similares dentro del Protein Data Bank [14] , por ejemplo, FATCAT [15] , CE [16] , DeepAlign [17] . En el caso de que no haya una estructura resuelta para la secuencia de proteína deseada, primero se compila un modelo tridimensional probable de la secuencia, en base al cual se predice posteriormente la función de la proteína; así funciona, por ejemplo, el servidor de predicción de funciones de proteínas RaptorX. En muchos casos, en lugar de la estructura de la proteína completa, la búsqueda se lleva a cabo en las estructuras de los motivos individuales que contienen, por ejemplo, el sitio de unión al ligando o el sitio activo de la enzima . Para anotar este último en nuevas secuencias de proteínas, se desarrolló la base de datos Catalytic Site Atlas [18] .
Muchos de los métodos de predicción recientes no se basan en comparaciones de secuencias o estructuras como se describió anteriormente, sino en la correlación entre los nuevos genes/proteínas y los ya anotados: para cada gen, se compila un perfil filogenético (por presencia o ausencia en diferentes genomas). , que luego se comparan para establecer relaciones funcionales (se supone que los genes con los mismos perfiles están funcionalmente relacionados entre sí) [19] . Si bien los métodos basados en la homología a menudo se usan para establecer funciones moleculares, la predicción basada en el contexto genómico se puede usar para sugerir el proceso biológico en el que está involucrada una proteína. Por ejemplo, las proteínas involucradas en la misma vía de transducción de señales comparten un contexto genómico común entre especies.
Fusión de genesCuando dos (o más) genes que codifican diferentes proteínas en un organismo se combinan en un gen en otro organismo durante la evolución, se dice que se ha producido una fusión de genes (respectivamente, en el proceso inverso, una separación de genes) [20] . Este fenómeno se aprovechó en la búsqueda de homólogos para todas las secuencias de proteínas de E. coli , cuando se encontró que más de 6000 pares de secuencias de E. coli no homólogas compartían homología con genes únicos en otros genomas, lo que indica una interacción potencial entre proteínas en cada uno de ellos. de los pares. , que no se puede predecir solo a partir de la homología.
Colocalización/coexpresiónEn los procariotas , en el proceso de evolución, a menudo se conservan grupos de genes cercanos entre sí que, por regla general, codifican proteínas que interactúan entre sí o forman parte del mismo operón. Por lo tanto, para predecir la similitud funcional entre proteínas, al menos en procariotas, se puede utilizar la proximidad de genes en el cromosoma (un método basado en la proximidad de genes) [21] . Además, en algunos genomas eucariotas , incluido el Homo sapiens , para ciertas rutas biológicas se observó la ubicación cercana de los genes incluidos en ellos [22] , lo que, con el desarrollo de técnicas, puede ser útil para estudiar interacciones de proteínas en eucariotas.
Los genes involucrados en los mismos procesos a menudo también se cotranscriben, por lo que la coexpresión con proteínas conocidas puede sugerir una función similar de la proteína no anotada. En base a este hecho, se están desarrollando los denominados algoritmos de “culpabilidad por asociación” , que se utilizan para analizar grandes cantidades de datos de secuencias e identificar proteínas desconocidas por similitud con patrones de expresión de genes ya conocidos [23] [24] . Los estudios de culpa de complicidad a menudo comparan un grupo de genes candidatos con una función desconocida con un grupo objetivo (p. ej., genes fuertemente asociados con una enfermedad en particular) y se basan en datos recopilados (p. ej., coexpresión génica, interacciones proteína-proteína o perfiles filogenéticos). ) clasifican los genes candidatos según su grado de similitud con el grupo diana. Por ejemplo, dado que muchas proteínas son multifuncionales, los genes que las codifican pueden pertenecer a varios grupos objetivo al mismo tiempo, por lo tanto, dichos genes se detectarán con mayor frecuencia en estudios de "culpa por complicidad", y tales predicciones no son específicas.
Con la acumulación de datos de secuenciación de ARN , que se pueden utilizar para evaluar los perfiles de expresión de las isoformas de proteínas obtenidas mediante corte y empalme alternativo , se han desarrollado algoritmos de aprendizaje automático para predecir funciones a nivel de isoformas [25] .
Uno de los problemas asociados con la predicción de la función de la proteína es la detección del sitio activo, complicado por el hecho de que algunos sitios activos no se forman hasta que la proteína sufre un cambio conformacional causado por la unión de moléculas pequeñas, como las moléculas de disolvente. La mayoría de las estructuras de proteínas se han obtenido mediante análisis de difracción de rayos X , que requiere cristales de proteína pura, como resultado, los cambios conformacionales necesarios para la formación de sitios activos no se pueden rastrear en los modelos tridimensionales de proteínas existentes. La topografía computacional de solventes utiliza las llamadas sondas (pequeñas moléculas orgánicas ) que, en el proceso de simulación por computadora, se "mueven" a lo largo de la superficie de la proteína en busca de posibles sitios de unión y posterior agrupamiento. Por regla general, se utilizan varias sondas diferentes para obtener tantas estructuras conformacionales de proteína sonda diferentes como sea posible. Las estructuras resultantes se evalúan por la energía libre promedio. Después de múltiples simulaciones con varias sondas, el lugar donde se forma la mayor cantidad de grupos se identifica con el sitio activo de la proteína [27] .
Este método es una adaptación informática del método húmedo de un artículo de 1996. Al superponer estructuras de proteínas obtenidas por disolución en varios disolventes orgánicos, se encontró que las moléculas de disolvente se acumulan con mayor frecuencia en el centro activo de la proteína. Este trabajo se realizó para eliminar las moléculas de agua restantes que aparecen en los mapas de densidad de electrones obtenidos por difracción de rayos X: al interactuar con la proteína, tienden a acumularse en las regiones polares de la proteína. Esto condujo a la idea de lavar el cristal de proteína purificada en varios solventes (como etanol , isopropanol ) para determinar dónde se agrupan las moléculas del solvente. Los disolventes se pueden elegir en función de las moléculas con las que puede interactuar la proteína (por ejemplo, la elección del etanol como sonda puede identificar la interacción de la proteína con la serina , la elección del isopropanol con la treonina , etc.). Es muy importante que el cristal de proteína conserve su estructura terciaria en cada disolvente. Después de que se haya llevado a cabo el procedimiento de lavado con varios disolventes, se obtienen datos a partir de los cuales se pueden suponer sitios activos potenciales de la proteína [28] .