Predicción de la función de proteínas

Predicción de la función de proteínas : determinar el papel biológico de una proteína y su significado en el contexto de una célula . La predicción de la función se realiza para proteínas poco conocidas o para proteínas hipotéticas predichas a partir de datos de secuencias genómicas . La fuente de información para la predicción puede ser la homología de secuencias de nucleótidos , perfiles de expresión génica , estructura de dominio de proteínas, análisis intelectual de textos de publicaciones, perfiles filogenéticos y fenotípicos , interacciones proteína-proteína .

La función de las proteínas es un término muy amplio: las funciones de las proteínas van desde la catálisis de reacciones bioquímicas hasta la transducción de señales y el transporte celular , y una sola proteína puede desempeñar un papel específico en varios procesos celulares [1] .

En general, la función se puede considerar como "todo lo que le sucede a una proteína o con la ayuda de ella". El Gene Ontology Project ha propuesto una clasificación útil de funciones basada en una lista (vocabulario) de términos bien definidos divididos en tres categorías principales: funciones moleculares , procesos biológicos y componentes celulares [2] . A partir de esta base de datos es posible por el nombre de la proteína o su número de identificación encontrar los términos de la “Ontología Genética” asignada a la misma o anotaciones realizadas en base a datos calculados o experimentales.

A pesar de que hoy en día se utilizan métodos tan modernos como el análisis de micromatrices , el ARN de interferencia y el análisis de dos híbridos para probar experimentalmente las funciones de una proteína, las tecnologías de secuenciación han avanzado tanto que el ritmo de caracterización experimental de proteínas abiertas va muy por detrás del ritmo de descubrimiento de nuevas secuencias [3] . Por tanto, la anotación de nuevas secuencias de proteínas se realizará principalmente mediante predicción basada en métodos computacionales, ya que de esta forma es posible caracterizar secuencias mucho más rápido y simultáneamente para varios genes /proteínas. Las primeras técnicas de predicción de características se basaron en la similitud de proteínas homólogas con características conocidas (la llamada predicción de características basada en la homología ). El desarrollo posterior de los métodos condujo a la aparición de predicciones basadas en el contexto genómico y en la estructura de la molécula de proteína , lo que hizo posible ampliar el rango de datos obtenidos y combinar métodos basados ​​en diferentes tipos de datos para obtener el más completo. imagen del papel de la proteína [3] . El valor y el rendimiento de la predicción computacional de la función de los genes se destaca por el hecho de que, a partir de 2010, el 98 % de las anotaciones de Gene Ontology se realizaron sobre la base de la extracción automática de otras bases de datos de anotaciones y solo el 0,6 % sobre la base de datos experimentales [4] .

Métodos para predecir la función de las proteínas

Métodos basados ​​en homología

Las proteínas con secuencias similares suelen ser homólogas [5] y, por lo tanto, tienen una función similar. Por lo tanto, en genomas secuenciados recientemente, las proteínas suelen estar anotadas por analogía con las secuencias de proteínas similares de otros genomas. Sin embargo, proteínas estrechamente relacionadas no siempre realizan la misma función [6] , por ejemplo, las proteínas de levadura Gal1 y Gal3 son parálogas con 73% y 92% de similitud, que adquirieron funciones muy diferentes durante la evolución : por ejemplo, Gal1 es una galactoquinasa , y Gal3 es un inductor de la transcripción [7] . Desafortunadamente, no existe un umbral claro para el grado de similitud de secuencia para predecir características de manera segura; muchas proteínas con la misma función tienen similitudes sutiles, mientras que hay aquellas que son muy similares en secuencia pero completamente diferentes en función.

Métodos basados ​​en motivos secuenciales

El desarrollo de bases de datos de dominios de proteínas como Pfam [8] permite encontrar dominios ya conocidos en la secuencia deseada para sugerir posibles funciones. El recurso dcGO [9] contiene anotaciones tanto para dominios individuales como supradominios (es decir, combinaciones de dos o más dominios consecutivos), lo que hace que la predicción se acerque más a la realidad. Además, dentro de los propios dominios de la proteína hay secuencias características más cortas asociadas con ciertas funciones (los llamados motivos ) [10] , cuya presencia en la proteína deseada puede determinarse buscando en bases de datos de motivos, como PROSITE [11] . Los motivos también se pueden usar para predecir la localización intracelular de una proteína: la presencia de péptidos señalizadores cortos específicos determina a qué orgánulos se transportará la proteína después de la síntesis, y se han desarrollado muchos recursos para identificar tales secuencias señalizadoras [12] , como SignalP, que se ha actualizado varias veces a lo largo de los años, el desarrollo de métodos [13] . Por lo tanto, algunas características de la función de la proteína pueden predecirse sin comparación con secuencias homólogas de longitud completa.

Métodos basados ​​en la estructura de proteínas

Debido a que la estructura 3D de una proteína suele estar más conservada que la secuencia de la proteína, la similitud de las estructuras puede indicar la similitud y la función de las proteínas. Se han desarrollado muchos programas para buscar pliegues similares dentro del Protein Data Bank [14] , por ejemplo, FATCAT [15] , CE [16] , DeepAlign [17] . En el caso de que no haya una estructura resuelta para la secuencia de proteína deseada, primero se compila un modelo tridimensional probable de la secuencia, en base al cual se predice posteriormente la función de la proteína; así funciona, por ejemplo, el servidor de predicción de funciones de proteínas RaptorX. En muchos casos, en lugar de la estructura de la proteína completa, la búsqueda se lleva a cabo en las estructuras de los motivos individuales que contienen, por ejemplo, el sitio de unión al ligando o el sitio activo de la enzima . Para anotar este último en nuevas secuencias de proteínas, se desarrolló la base de datos Catalytic Site Atlas [18] .

Métodos basados ​​en el contexto genómico

Muchos de los métodos de predicción recientes no se basan en comparaciones de secuencias o estructuras como se describió anteriormente, sino en la correlación entre los nuevos genes/proteínas y los ya anotados: para cada gen, se compila un perfil filogenético (por presencia o ausencia en diferentes genomas). , que luego se comparan para establecer relaciones funcionales (se supone que los genes con los mismos perfiles están funcionalmente relacionados entre sí) [19] . Si bien los métodos basados ​​en la homología a menudo se usan para establecer funciones moleculares, la predicción basada en el contexto genómico se puede usar para sugerir el proceso biológico en el que está involucrada una proteína. Por ejemplo, las proteínas involucradas en la misma vía de transducción de señales comparten un contexto genómico común entre especies.

Fusión de genes

Cuando dos (o más) genes que codifican diferentes proteínas en un organismo se combinan en un gen en otro organismo durante la evolución, se dice que se ha producido una fusión de genes (respectivamente, en el proceso inverso, una separación de genes) [20] . Este fenómeno se aprovechó en la búsqueda de homólogos para todas las secuencias de proteínas de E. coli , cuando se encontró que más de 6000 pares de secuencias de E. coli no homólogas compartían homología con genes únicos en otros genomas, lo que indica una interacción potencial entre proteínas en cada uno de ellos. de los pares. , que no se puede predecir solo a partir de la homología.

Colocalización/coexpresión

En los procariotas , en el proceso de evolución, a menudo se conservan grupos de genes cercanos entre sí que, por regla general, codifican proteínas que interactúan entre sí o forman parte del mismo operón. Por lo tanto, para predecir la similitud funcional entre proteínas, al menos en procariotas, se puede utilizar la proximidad de genes en el cromosoma (un método basado en la proximidad de genes) [21] . Además, en algunos genomas eucariotas , incluido el Homo sapiens , para ciertas rutas biológicas se observó la ubicación cercana de los genes incluidos en ellos [22] , lo que, con el desarrollo de técnicas, puede ser útil para estudiar interacciones de proteínas en eucariotas.

Los genes involucrados en los mismos procesos a menudo también se cotranscriben, por lo que la coexpresión con proteínas conocidas puede sugerir una función similar de la proteína no anotada. En base a este hecho, se están desarrollando los denominados algoritmos de “culpabilidad por asociación” ,  que se utilizan para analizar grandes cantidades de datos de secuencias e identificar proteínas desconocidas por similitud con patrones de expresión de genes ya conocidos [23] [24] . Los estudios de culpa de complicidad a menudo comparan un grupo de genes candidatos con una función desconocida con un grupo objetivo (p. ej., genes fuertemente asociados con una enfermedad en particular) y se basan en datos recopilados (p. ej., coexpresión génica, interacciones proteína-proteína o perfiles filogenéticos). ) clasifican los genes candidatos según su grado de similitud con el grupo diana. Por ejemplo, dado que muchas proteínas son multifuncionales, los genes que las codifican pueden pertenecer a varios grupos objetivo al mismo tiempo, por lo tanto, dichos genes se detectarán con mayor frecuencia en estudios de "culpa por complicidad", y tales predicciones no son específicas.

Con la acumulación de datos de secuenciación de ARN , que se pueden utilizar para evaluar los perfiles de expresión de las isoformas de proteínas obtenidas mediante corte y empalme alternativo , se han desarrollado algoritmos de aprendizaje automático para predecir funciones a nivel de isoformas [25] .

Topografía solvente computacional

Uno de los problemas asociados con la predicción de la función de la proteína es la detección del sitio activo, complicado por el hecho de que algunos sitios activos no se forman hasta que la proteína sufre un cambio conformacional causado por la unión de moléculas pequeñas, como las moléculas de disolvente. La mayoría de las estructuras de proteínas se han obtenido mediante análisis de difracción de rayos X , que requiere cristales de proteína pura, como resultado, los cambios conformacionales necesarios para la formación de sitios activos no se pueden rastrear en los modelos tridimensionales de proteínas existentes. La topografía computacional de solventes utiliza las llamadas sondas (pequeñas moléculas orgánicas ) que, en el proceso de simulación por computadora, se "mueven" a lo largo de la superficie de la proteína en busca de posibles sitios de unión y posterior agrupamiento. Por regla general, se utilizan varias sondas diferentes para obtener tantas estructuras conformacionales de proteína sonda diferentes como sea posible. Las estructuras resultantes se evalúan por la energía libre promedio. Después de múltiples simulaciones con varias sondas, el lugar donde se forma la mayor cantidad de grupos se identifica con el sitio activo de la proteína [27] .

Este método es una adaptación informática del método húmedo de un artículo de 1996. Al superponer estructuras de proteínas obtenidas por disolución en varios disolventes orgánicos, se encontró que las moléculas de disolvente se acumulan con mayor frecuencia en el centro activo de la proteína. Este trabajo se realizó para eliminar las moléculas de agua restantes que aparecen en los mapas de densidad de electrones obtenidos por difracción de rayos X: al interactuar con la proteína, tienden a acumularse en las regiones polares de la proteína. Esto condujo a la idea de lavar el cristal de proteína purificada en varios solventes (como etanol , isopropanol ) para determinar dónde se agrupan las moléculas del solvente. Los disolventes se pueden elegir en función de las moléculas con las que puede interactuar la proteína (por ejemplo, la elección del etanol como sonda puede identificar la interacción de la proteína con la serina , la elección del isopropanol con la treonina , etc.). Es muy importante que el cristal de proteína conserve su estructura terciaria en cada disolvente. Después de que se haya llevado a cabo el procedimiento de lavado con varios disolventes, se obtienen datos a partir de los cuales se pueden suponer sitios activos potenciales de la proteína [28] .

Notas

  1. Rost B. , Liu J. , Nair R. , Wrzeszczynski K.O. , Ofran Y. Predicción automática de la función de la proteína.  (Inglés)  // Ciencias de la vida celular y molecular: CMLS. - 2003. - vol. 60, núm. 12 _ - Pág. 2637-2650. -doi : 10.1007 / s00018-003-3114-8 . —PMID 14685688 .
  2. Ashburner M. , Ball CA , Blake JA , Botstein D. , Butler H. , Cherry JM , Davis AP , Dolinski K. , Dwight SS , Eppig JT , Harris MA , Hill DP , Issel-Tarver L. , Kasarskis A. , Lewis S. , Matese JC , Richardson JE , Ringwald M. , Rubin GM , Sherlock G. Ontología génica: herramienta para la unificación de la biología. El Consorcio de Ontología Genética.  (Inglés)  // Genética de la naturaleza. - 2000. - vol. 25, núm. 1 . - Pág. 25-29. -doi : 10.1038/ 75556 . — PMID 10802651 .
  3. 1 2 Gabaldón T. , Huynen MA Predicción de la función y vías de las proteínas en la era del genoma.  (Inglés)  // Ciencias de la vida celular y molecular: CMLS. - 2004. - vol. 61, núm. 7-8 . - Pág. 930-944. -doi : 10.1007 / s00018-003-3387-y . —PMID 15095013 .
  4. du Plessis L. , Skunca N. , Dessimoz C. El qué, dónde, cómo y por qué de la ontología génica: manual básico para bioinformáticos.  (Inglés)  // Briefings en bioinformática. - 2011. - vol. 12, núm. 6 _ - Pág. 723-735. doi : 10.1093 / bib/bbr002 . — PMID 21330331 .
  5. Reeck GR , de Haën C. , Teller DC , Doolittle RF , Fitch WM , Dickerson RE , Chambon P. , McLachlan AD , Margoliash E. , Jukes TH "Homología" en proteínas y ácidos nucleicos: un lío terminológico y una salida de eso  (Inglés)  // Celular. - 1987. - vol. 50, núm. 5 . - Pág. 667. - PMID 3621342 .
  6. Whisstock JC , Lesk AM Predicción de la función de la proteína a partir de la secuencia y estructura de la proteína.  (Inglés)  // Revistas trimestrales de biofísica. - 2003. - vol. 36, núm. 3 . - Pág. 307-340. —PMID 15029827 .
  7. Platt A. , Ross HC , Hankin S. , Reece RJ La inserción de dos aminoácidos en un inductor transcripcional lo convierte en una galactoquinasa.  (inglés)  // Actas de la Academia Nacional de Ciencias de los Estados Unidos de América. - 2000. - vol. 97, núm. 7 . - Pág. 3154-3159. —PMID 10737789 .
  8. Finn RD , Mistry J. , Tate J. , Coggill P. , Heger A. , Pollington JE , Gavin OL , Gunasekaran P. , Ceric G. , Forslund K. , Holm L. , Sonnhammer EL , Eddy SR , Bateman A La base de datos de familias de proteínas Pfam.  (Inglés)  // Investigación de ácidos nucleicos. - 2010. - Vol. 38.-P.D211-222. doi : 10.1093 / nar/gkp985 . —PMID 19920124 .
  9. Fang H. , Gough J. DcGO: base de datos de ontologías centradas en dominios sobre funciones, fenotipos, enfermedades y más.  (Inglés)  // Investigación de ácidos nucleicos. - 2013. - Vol. 41.-P.D536-544. -doi : 10.1093 / nar/gks1080 . — PMID 23161684 .
  10. Sleator RD , Walsh P. Una descripción general de la predicción de la función de proteínas in silico.  (Inglés)  // Archivos de microbiología. - 2010. - Vol. 192, núm. 3 . - Pág. 151-155. -doi : 10.1007/ s00203-010-0549-9 . —PMID 20127480 .
  11. Sigrist CJ , Cerutti L. , de Castro E. , Langendijk-Genevaux PS , Bulliard V. , Bairoch A. , Hulo N. PROSITE, una base de datos de dominios de proteínas para la anotación y caracterización funcional.  (Inglés)  // Investigación de ácidos nucleicos. - 2010. - Vol. 38.-P.D161-166. doi : 10.1093 / nar/gkp885 . —PMID 19858104 .
  12. Menne KM , Hermjakob H. , Apweiler R. Una comparación de métodos de predicción de secuencias de señales usando un conjunto de prueba de péptidos de señales.  (Inglés)  // Bioinformática. - 2000. - vol. 16, núm. 8 _ - Pág. 741-742. — PMID 11099261 .
  13. Petersen TN , Brunak S. , von Heijne G. , Nielsen H. SignalP 4.0: discriminación de péptidos señal de regiones transmembrana.  (Inglés)  // Métodos de la naturaleza. - 2011. - vol. 8, núm. 10 _ - Pág. 785-786. - doi : 10.1038/nmeth.1701 . — PMID 21959131 .
  14. Berman HM , Westbrook J. , Feng Z. , Gilliland G. , Bhat TN , Weissig H. , Shindyalov IN , Bourne PE The Protein Data Bank.  (Inglés)  // Investigación de ácidos nucleicos. - 2000. - vol. 28, núm. 1 . - Pág. 235-242. — PMID 10592235 .
  15. Ye Y. , Godzik A. FATCAT: un servidor web para la comparación de estructuras flexibles y la búsqueda de similitud de estructuras.  (Inglés)  // Investigación de ácidos nucleicos. - 2004. - vol. 32. - Pág. 582-585. doi : 10.1093 / nar/gkh430 . — PMID 15215455 .
  16. Shindyalov IN , Bourne PE Alineación de la estructura de la proteína mediante extensión combinatoria incremental (CE) de la ruta óptima.  (Inglés)  // Ingeniería de proteínas. - 1998. - vol. 11, núm. 9 _ - Pág. 739-747. — PMID 9796821 .
  17. Wang S. , Ma J. , Peng J. , Xu J. Alineación de estructuras de proteínas más allá de la proximidad espacial.  (Inglés)  // Informes científicos. - 2013. - Vol. 3. - Pág. 1448. - doi : 10.1038/srep01448 . — PMID 23486213 .
  18. Porter CT , Bartlett GJ , Thornton JM The Catalytic Site Atlas: un recurso de sitios catalíticos y residuos identificados en enzimas utilizando datos estructurales.  (Inglés)  // Investigación de ácidos nucleicos. - 2004. - vol. 32.—Pág. D129–133. -doi : 10.1093 / nar/gkh028 . — PMID 14681376 .
  19. Eisenberg D. , Marcotte EM , Xenarios I. , Yeates TO Función de proteínas en la era posgenómica.  (Inglés)  // Naturaleza. - 2000. - vol. 405, núm. 6788 . - Pág. 823-826. -doi : 10.1038/ 35015694 . —PMID 10866208 .
  20. Marcotte EM , Pellegrini M. , Ng HL , Rice DW , Yeates TO , Eisenberg D. Detección de la función de la proteína y las interacciones proteína-proteína de las secuencias del genoma.  (Inglés)  // Ciencia (Nueva York, NY). - 1999. - vol. 285, núm. 5428 . - Pág. 751-753. — PMID 10427000 .
  21. Overbeek R. , Fonstein M. , D'Souza M. , Pusch GD , Maltsev N. El uso de grupos de genes para inferir el acoplamiento funcional.  (inglés)  // Actas de la Academia Nacional de Ciencias de los Estados Unidos de América. - 1999. - vol. 96, núm. 6 _ - Pág. 2896-2901. —PMID 10077608 .
  22. Lee JM , Sonnhammer EL Análisis de agrupación de genes genómicos de vías en eucariotas.  (Inglés)  // Investigación del genoma. - 2003. - vol. 13, núm. 5 . - Pág. 875-882. - doi : 10.1101/gr.737703 . — PMID 12695325 .
  23. Walker MG , Volkmuth W. , Sprinzak E. , Hodgson D. , Klingler T. Predicción de la función génica mediante análisis de expresión a escala del genoma: genes asociados al cáncer de próstata.  (Inglés)  // Investigación del genoma. - 1999. - vol. 9, núm. 12 _ - Pág. 1198-1203. — PMID 10613842 .
  24. Klomp JA , Furge KA Coincidencia de genes en todo el genoma con roles celulares usando modelos de culpa por asociación derivados del análisis de una sola muestra.  (Inglés)  // Notas de investigación de BMC. - 2012. - vol. 5. - Pág. 370. - doi : 10.1186/1756-0500-5-370 . —PMID 22824328 .
  25. Eksi R., Li Hong-Dong, Menon R., Wen Yuchen, Omenn G. S., Kretzler M., Guan Yuanfang.  Funciones de diferenciación sistemática para isoformas empalmadas alternativamente a través de la integración de datos de RNA-seq  // PLOS Computational Biology . - 2013. - Vol. 9, núm. 11.- P.e1003314. - doi : 10.1371/journal.pcbi.1003314 . — PMID 24244129 .
  26. Wang G. , MacRaild CA , Mohanty B. , Mobli M. , Cowieson NP , Anders RF , Simpson JS , McGowan S. , Norton RS , Scanlon MJ Información molecular sobre la interacción entre el antígeno 1 de la membrana apical de Plasmodium falciparum y una invasión- péptido inhibidor.  (Inglés)  // Biblioteca Pública de Ciencias UNO. - 2014. - Vol. 9, núm. 10 _ — Pág. e109674. -doi : 10.1371 / journal.pone.0109674 . — PMID 25343578 .
  27. Clodfelter KH , Waxman DJ , Vajda S. El mapeo computacional de solventes revela la importancia de los cambios conformacionales locales para una amplia especificidad de sustrato en los citocromos P450 de mamíferos.  (Inglés)  // Bioquímica. - 2006. - vol. 45, núm. 31 . - Pág. 9393-9407. doi : 10.1021 / bi060343v . —PMID 16878974 .
  28. Mattos C. , Ringe D. Localización y caracterización de sitios de unión en proteínas.  (Inglés)  // Biotecnología de la naturaleza. - 1996. - vol. 14, núm. 5 . - Pág. 595-599. -doi : 10.1038/ nbt0596-595 . —PMID 9630949 .

Enlaces