Predicción de la estructura de proteínas

La predicción de la estructura de la proteína es una  dirección del modelado molecular , la predicción de la estructura tridimensional de la proteína [ 1] ( secundaria , terciaria o cuaternaria ) por la secuencia de aminoácidos . Esta tarea es uno de los objetivos más importantes de la bioinformática y la química teórica . Los datos de predicción se utilizan en medicina (por ejemplo, en productos farmacéuticos ) y biotecnología en la creación de nuevas enzimas ).

Introducción

Grandes cantidades de datos de secuenciación de proteínas están disponibles como resultado de los esfuerzos actuales de secuenciación de ADN a gran escala , como el Proyecto Genoma Humano . A pesar de los esfuerzos de toda la comunidad en el campo de la genómica estructural , el número de estructuras de proteínas determinadas experimentalmente - por lo general utilizando cristalografía de rayos X o espectroscopia de RMN  que requieren mucho trabajo y son relativamente costosas  - está muy por detrás del número de secuencias de proteínas , lo que hace que la predicción de la estructura terciaria de la proteína extremadamente demandada [2] .

Predecir la estructura de una proteína sigue siendo un problema extremadamente difícil y sin resolver. Los dos problemas principales son el cálculo de la energía libre y encontrar el mínimo global de esta energía [3] . Un método de predicción de estructuras proteicas debe explorar el espacio de todas las estructuras proteicas posibles, que es astronómicamente grande. Estos problemas pueden evitarse parcialmente mediante modelos comparativos (homólogos) y métodos de reconocimiento de pliegues , en los que el espacio de búsqueda se reduce debido a la suposición de que la proteína en cuestión adopta una estructura cercana a la estructura determinada experimentalmente de otra proteína homóloga . Por otro lado, los métodos de predicción de la estructura de proteínas ab initio deberían resolver explícitamente estos problemas sin depender de suposiciones iniciales [4] [5] .

En diciembre de 2020, el equipo de DeepMind (la división de investigación de Google ) anunció que había resuelto el problema científico fundamental de la predicción de la estructura de las proteínas. El programa, desarrollado por la empresa y basado en redes neuronales, fue capaz de predecir la estructura de la proteína con gran precisión. [6]

Estructura de la proteína

Estructura secundaria de una proteína

Hélice Alfa

La hélice alfa es el tipo más común de estructura secundaria en las proteínas. La hélice alfa tiene 3,6 aminoácidos por turno y se forma un enlace H entre cada cuarto residuo; la longitud promedio es de 10 aminoácidos (3 vueltas) o 10 Å , pero varía de 5 a 40 (1,5 a 11 vueltas). La alineación de los enlaces H crea un momento dipolar para la hélice, con una carga parcial neta positiva en el extremo amino de la hélice. La ubicación más común de las hélices α es en la superficie de las proteínas, donde interactúan con el ambiente acuoso [7] .

El lado interior de la hélice suele contener aminoácidos hidrófobos y el lado exterior, aminoácidos hidrófilos . Por lo tanto, cada tercio de los cuatro aminoácidos de la cadena será hidrofóbico y, por lo tanto, este aminoácido se puede detectar fácilmente. En una cremallera de leucina, el patrón repetitivo de residuos de leucina en los lados exteriores de dos hélices adyacentes es en gran parte indicativo de la estructura. Otras hélices α, que se encuentran en el núcleo hidrofóbico de la proteína o en los dominios transmembrana de las proteínas , tienen un mayor porcentaje de aminoácidos hidrofóbicos que se distribuyen más uniformemente a lo largo de la cadena, lo que también sirve como un buen marcador para estas partes de las proteínas. . El contenido cualitativo de aminoácidos puede ser un buen marcador para la región α-helicoidal. Regiones con una alta concentración de varios aminoácidos , como alanina (A), ácido glutámico (E), leucina (L) y metionina (M), así como concentraciones más bajas de prolina (P), glicina (G), tirosina (Y) y la serina (S) tienden a formar una hélice α [8] [9] .

lista β

Las hojas β están formadas por enlaces H entre un promedio de 5 a 10 aminoácidos consecutivos en una parte de la cadena y otros 5 a 10 más abajo en la cadena. Cada cadena puede correr en la misma dirección, formando una hoja paralela, si las cadenas van en diferentes direcciones, entonces se forma una hoja antiparalela. La naturaleza del enlace H es diferente en la configuración paralela y antiparalela. Los ángulos ψ y φ de los aminoácidos en las hojas varían considerablemente en un área del Mapa de Ramachandran . Predecir la ubicación de las hojas β en la estructura de una proteína es más difícil que predecir las hélices α [10] [11] .

Bucle

Los bucles son regiones de la cadena proteica que se encuentran entre hélices α y láminas β, de varias longitudes y configuraciones tridimensionales, y pueden ubicarse tanto en la superficie de la proteína como más cerca del núcleo [12] .

Los bucles en horquilla, que representan un giro completo en la cadena polipeptídica que conecta dos cadenas β antiparalelas, pueden tener hasta dos aminoácidos de largo. Los bucles pueden interactuar con el medio ambiente (agua y otros solventes) y otras proteínas. Dado que la geometría de los aminoácidos en los bucles no está limitada en el espacio, como los aminoácidos en la región del núcleo, donde la cadena está plegada muy densamente, y no afectan tanto el plegamiento correcto de la proteína, entonces puede haber habrá más sustituciones, inserciones y deleciones que no afectarán las funciones de la proteína. Por tanto, cuando las secuencias están alineadas, la presencia de estas mutaciones (inserciones, deleciones, sustituciones) puede indicar un bucle. Las posiciones de los intrones en el ADN genómico a veces corresponden a ubicaciones de bucles en la proteína codificada, los bucles también tienden a tener aminoácidos cargados y polares y, a menudo, son un componente de los sitios de unión [13] .

Estructura terciaria de una proteína

Estructura terciaria  : la estructura espacial (incluida la conformación ) de todos los elementos de la estructura secundaria, que consta de una sola cadena de aminoácidos. La espiralización de una cadena polipeptídica lineal reduce su tamaño unas 4 veces; y la colocación en una estructura terciaria la hace diez veces más compacta que la cadena original [14] .

Dado que ni la cadena polipeptídica, ni las hélices α y las hojas β dan una idea del volumen , la forma de la cadena polipeptídica, el investigador siempre se enfrenta a la necesidad de determinar la configuración tridimensional o espacial de la proteína. [quince]

Estructura de la proteína cuaternaria

Estructura cuaternaria: una forma de colocar en el espacio cadenas polipeptídicas individuales que tienen la misma (o diferente) estructura primaria , secundaria o terciaria , y la formación de una sola formación macromolecular en aspectos estructurales y funcionales. La especificidad de la estructura cuaternaria de las proteínas se manifiesta en una cierta autonomía conformacional de los fragmentos polipeptídicos que componen la macromolécula proteica. La contribución de las interacciones hidrofóbicas a la estabilización de la estructura terciaria y cuaternaria de las proteínas es muy significativa: en el caso de la estructura terciaria, representan más de la mitad de la fuerza estabilizadora. [dieciséis]

Muchas proteínas son ensamblajes de varias cadenas polipeptídicas. Los ejemplos de proteínas con una estructura cuaternaria incluyen hemoglobina , ADN polimerasa y varios canales iónicos [17]

Predicción de la estructura de proteínas

Algoritmos de predicción de estructuras secundarias

Los algoritmos de predicción de la estructura secundaria son un conjunto de métodos para predecir la estructura secundaria local de las proteínas basándose únicamente en el conocimiento de su secuencia de aminoácidos [18] . Para las proteínas, la predicción consiste en asociar secciones individuales de la secuencia de aminoácidos con las clases más probables de estructuras secundarias, como hélices α, hebras β o bucles [18] . La precisión de la predicción se define como la relación entre el número de aminoácidos para los cuales la clase estructural predicha coincidió con la clase estructural determinada para ese aminoácido por el algoritmo DSSP [en] (o un algoritmo similar, por ejemplo, el algoritmo STRIDE ) al número total de aminoácidos en la secuencia. Estos algoritmos marcan la secuencia de aminoácidos de una proteína de acuerdo con la pertenencia de los aminoácidos a una de las clases de estructura secundaria, que difieren en patrones específicos de enlaces de hidrógeno y conjuntos de ángulos diédricos. Para DSSP, estas son 8 clases que se pueden combinar en tres grupos: 3 clases de hélices (α-hélice, π-hélice y 3 10 - hélice), dos clases de estructuras β (puentes β aislados y láminas β) y tres tipos de bucle (giros, codos y elementos no clasificados que cumplen las características del bucle) [19] . Muy a menudo, para evaluar la calidad de la estructura, se utiliza una clasificación simplificada, en la que las clases dentro de estos tres grupos se consideran idénticas [2] . Los algoritmos para predecir la estructura secundaria de una proteína se pueden dividir condicionalmente en grupos según los principios subyacentes. Estos grupos incluyen métodos estadísticos, métodos del vecino más cercano, métodos que utilizan redes neuronales, métodos de vectores de soporte y métodos basados ​​en modelos ocultos de Markov . [veinte]

Algunos de estos algoritmos se analizan a continuación.

El método estadístico de Chow-Fasman se basa en el cálculo de una estimación de la probabilidad de que un determinado aminoácido pertenezca a una determinada clase de estructura secundaria en las bases de datos. La predicción se realiza con respecto a tres clases de estructuras secundarias: bucle, hoja β y rotación. El objetivo del algoritmo es encontrar un segmento a partir del número de aminoácidos consecutivos determinados para cada clase de estructura secundaria, para cada uno de los cuales la estimación de la probabilidad de pertenecer a esta clase de estructura secundaria es mayor que un valor dado. En la salida, dichos algoritmos producen segmentos predichos de esta manera para cada una de las tres clases principales de estructuras secundarias, mapeadas en una secuencia. [21]

El primer paso del método del vecino más cercano ( algoritmo NNSSP ) es encontrar una secuencia homóloga para la cual se conoce la estructura tridimensional. Dadas las características estructurales locales de un determinado residuo de aminoácido en la estructura tridimensional de la secuencia homóloga, como la accesibilidad al disolvente, la polaridad y la estructura secundaria, a cada residuo de aminoácido se le asigna una "clase de entorno". La evaluación de la probabilidad de que un aminoácido en el centro del segmento estudiado de longitud n aminoácidos pertenezca a una determinada clase de estructura secundaria se calcula como el logaritmo de la frecuencia de este aminoácido en el medio ambiente, al que pertenece la mayoría de sus vecinos pertenecen, en bases de datos. [22]

Uno de los algoritmos que usa redes neuronales, PSIPRED , incluye cuatro pasos principales: generación de una matriz de peso posicional usando PSI-BLAST , predicción primaria de la estructura secundaria y filtrado adicional de las predicciones. La segunda y tercera etapa involucran dos redes neuronales. Para determinar si un aminoácido pertenece a una determinada clase de estructura secundaria, se alimenta a la entrada de la primera red neuronal un fragmento de una matriz de peso posicional de 33x21 de tamaño, correspondiente a un fragmento de la secuencia original de 33 aminoácidos con el aminoácido de interés en el centro [23] . Esta red tiene dos capas ocultas y tres nodos de salida correspondientes a las tres clases de estructuras secundarias previstas. La segunda red neuronal se utiliza para filtrar las predicciones de la primera red y también tiene tres nodos de salida para cada clase de estructura secundaria en la posición central de la ventana en estudio. A la salida, el algoritmo produce un marcado de la secuencia de aminoácidos por los elementos de la estructura secundaria. [24]

Además de lo anterior, los algoritmos clásicos que utilizan modelos ocultos de Markov, como el algoritmo de avance-retroceso , el algoritmo de Viterbi y el algoritmo de Baum-Welsh , pueden optimizarse para asociar una secuencia de aminoácidos con clases de estructuras secundarias. [25]

Los mejores métodos modernos para determinar la estructura secundaria de una proteína alcanzan un 80% de precisión [26] . La precisión de los métodos actuales para predecir estructuras secundarias se evalúa mediante recursos actualizados semanalmente, como LiveBench , archivado el 12 de abril de 2020 en Wayback Machine y EVA , archivado el 24 de febrero de 2020 en Wayback Machine [27] .

Algoritmos de predicción de estructura terciaria

Formación primaria

La mayoría de los métodos de modelado de estructuras terciarias están optimizados para modelar la estructura terciaria de dominios proteicos individuales. Un paso llamado análisis de límite de dominio o predicción de límite de dominio generalmente se realiza primero para separar la proteína en dominios estructurales potenciales. Al igual que con el resto de los pasos de predicción de estructura terciaria, esto se puede hacer por comparación con estructuras conocidas, o ab initio solo por secuencia (generalmente mediante aprendizaje automático que implica covarianza ) [28] [29] . Las estructuras de los dominios individuales se combinan en una estructura terciaria final en un proceso denominado ensamblaje de dominios [30] .

Métodos basados ​​en energía

Los métodos de modelado ab initio tienen como objetivo crear modelos de proteínas tridimensionales desde cero, es decir, se basan en principios físicos en lugar de directamente en datos estructurales derivados experimentalmente. Hay muchos enfoques posibles que tratan de imitar el plegamiento de proteínas o aplican métodos estocásticos para encontrar posibles soluciones (es decir, buscar el máximo global de alguna función de energía ) [31] . Estos enfoques tienden a ser computacionalmente intensivos y, por lo tanto, solo se pueden aplicar a proteínas diminutas. Predecir la estructura de la proteína ab initio para proteínas más grandes requiere algoritmos más sofisticados y mayores recursos computacionales, representados por poderosas supercomputadoras (como Blue Gene o MDGRAPE-3 ) o computación distribuida (como Folding@home , Human Proteome Folding Project y Rosetta @Home ) [32] .

Secuencias coevolutivas en predicción de contacto 3D

A medida que la secuenciación se volvió más común en la década de 1990, varios grupos de investigadores utilizaron la alineación de secuencias de proteínas para predecir mutaciones correlacionadas , y se esperaba que estos residuos de evolución conjunta pudieran usarse para predecir la estructura terciaria . Se contempla que cuando una mutación de un residuo de aminoácido no es letal, puede ocurrir una mutación compensatoria para estabilizar las interacciones entre los residuos. En los primeros trabajos, se utilizaron los llamados métodos locales para calcular mutaciones correlacionadas en secuencias de proteínas, mientras que debido a la consideración independiente de cada par de residuos, surgieron correlaciones espurias [33] [34] .

En 2011, otro enfoque estadístico demostró que los residuos coevolutivos predichos son suficientes para predecir el plegamiento tridimensional de proteínas, siempre que haya suficientes secuencias disponibles (se necesitan >1000 secuencias homólogas) [35] . El método EVfold no utiliza modelos de homología y se puede ejecutar en una computadora personal estándar incluso para proteínas con cientos de residuos. La precisión predictiva de este y otros enfoques relacionados se ha demostrado en muchas estructuras y mapas de contacto [36] [37] [38] .

Modelado comparativo de la estructura de proteínas

El modelado comparativo de la estructura de proteínas utiliza estructuras obtenidas previamente utilizando métodos experimentales como puntos de partida. Esto es efectivo porque, aparentemente, aunque el número de proteínas existentes es enorme, el número de motivos estructurales terciarios , a los que pertenecen la mayoría de las proteínas , es limitado [4] .

Estos métodos también se pueden dividir en dos grupos [39] :

  1. El modelado de homología se basa en la suposición de que lasproteínas homólogas tienen una estructura similar. Dado que el plegamiento de la proteína está más conservado que su secuencia de aminoácidos , la estructura de la proteína en estudio se puede predecir con buena precisión incluso si está lejanamente relacionada con la proteína utilizada como plantilla, siempre que la homología entre la plantilla y el objetivo. la proteína se puede rastrear mediante la alineación de secuencias [40] . Se ha sugerido que la principal debilidad del modelado comparativo radica en las imprecisiones de las alineaciones más que en los errores en la predicción de la estructura dada una buena alineación conocida [41] . No es sorprendente que el modelado de homología logre los mejores resultados cuando la proteína objetivo y la plantilla tienen secuencias similares. [cuatro]
  2. El reconocimiento de pliegues busca una secuencia de aminoácidos para la que se desconoce una estructura en una base de datos de estructuras conocidas [42] . En cada caso, la función de puntuación se utiliza para evaluar la compatibilidad de la secuencia con la estructura, lo que permite obtener un conjunto de posibles modelos tridimensionales. Este tipo de técnica también se conoce como reconocimiento de pliegues 3D-1D debido al análisis de compatibilidad entre estructuras 3D y secuencias de proteínas lineales . [43]
Predicción geométrica de radicales laterales

La predicción precisa de la ubicación de los radicales de aminoácidos laterales en la estructura es un problema aparte en la predicción de la estructura de proteínas. Los métodos que resuelven el problema de la predicción de la geometría radical lateral incluyen la eliminación de interbloqueos y los métodos de campo autoconsistentes [44] [45] . Las conformaciones de cadena lateral de baja energía se definen normalmente en un esqueleto polipeptídico rígido y utilizan un conjunto de conformaciones de cadena lateral discretas , "rotámeros". El principio de funcionamiento de tales métodos es buscar un conjunto de rotámeros que minimice la energía total del modelo [40] .

Estos métodos utilizan bibliotecas de rotámeros, que son conjuntos de conformaciones favorables para cada tipo de residuo en una proteína. Las bibliotecas de rotámeros pueden contener información sobre la conformación, su frecuencia y las desviaciones estándar relativas a los valores medios de los ángulos de torsión, que pueden utilizarse en la selección de opciones [46] . Las bibliotecas de rotámeros se generan mediante bioinformática estructural u otro análisis estadístico de conformaciones de cadena lateral en estructuras de proteínas conocidas experimentalmente. Las bibliotecas de rotámeros pueden ser independientes de la columna vertebral , dependientes de la estructura secundaria o dependientes de la columna vertebral. Las bibliotecas de rotámeros independientes de la columna vertebral no utilizan información de conformación de la columna vertebral y se calculan a partir de todas las cadenas laterales disponibles de un determinado tipo (por ejemplo, el primer ejemplo de una biblioteca de rotámeros realizada por Ponder y Richards en la Universidad de Yale en 1987 [47] ). Las bibliotecas que dependen de la estructura secundaria son diferentes ángulos de torsión y/o frecuencias de rotámeros para clases de estructuras secundarias (hélice alfa, hoja beta o bucle [48] ). Las bibliotecas de rotámeros dependientes de la columna vertebral son conformaciones y (o) sus frecuencias, dependiendo de la conformación local de la cadena principal, que está determinada por los ángulos de torsión phi y psi y no depende de la estructura secundaria [49] . Las versiones modernas de estas bibliotecas, utilizadas en la mayoría de los programas, se presentan como distribuciones de probabilidad o frecuencia multivariadas, donde los picos corresponden a conformaciones de ángulo de torsión consideradas como rotámeros separados. [cincuenta]

Algoritmos de Predicción de Estructura Cuaternaria

Acoplamiento proteína-proteína

El acoplamiento proteína-proteína (o interacción proteína-proteína (PPI) ) es un método de modelado molecular que permite predecir la orientación y conformación más favorable de una molécula (ligando) en el centro de unión de otra (receptor) para la formación de un complejo estable. Los datos sobre la posición y la conformación de las proteínas asociadas se utilizan para predecir la fuerza de la interacción a través de las denominadas funciones de puntuación. [51]

Métodos computacionales para predecir interacciones proteína-proteína

Dado que todavía no hay datos completos sobre el interactoma y no se han encontrado todas las interacciones proteína-proteína, se utilizan varios métodos computacionales en la reconstrucción de señalización o mapas metabólicos de interacciones. Le permiten llenar los vacíos al predecir la presencia de ciertas interacciones entre los nodos de la red. Con la ayuda de métodos computacionales, es posible predecir no solo la posibilidad de WBV, sino también su fuerza [52] .

Los siguientes son varios enfoques computacionales para predecir las interacciones proteína-proteína:

  • Búsqueda de eventos de fusión de genes o dominios de proteínas : Las fusiones de genes , que a menudo también significa fusión de dominios, se pueden utilizar para buscar una relación funcional entre proteínas. Esto utiliza la suposición de que la fusión de estos genes durante la evolución fue facilitada por la selección [53] .
  • Genómica comparativa y métodos de agrupamiento de genes : a menudo, los genes que codifican proteínas con una función similar o proteínas que interactúan están en el mismo operón (en el caso de las bacterias) o están co-regulados (corregulación) (en el caso de los eucariotas). Dichos genes suelen estar muy cerca del genoma. Los métodos de agrupación de genes estiman la probabilidad de coexistencia de ortólogos de proteínas que codifican genes del mismo grupo. Tales enfoques ayudan a revelar la interacción funcional entre las proteínas en lugar de su contacto físico [52] .
  • Métodos basados ​​en perfiles filogenéticos : en dichos métodos, se supone que si las proteínas no homólogas están relacionadas funcionalmente, existe la posibilidad de que puedan entrar en el PPI y coevolucionar. Para encontrar una relación funcional entre proteínas, se utiliza el agrupamiento por perfiles filogenéticos de estas proteínas, o se estima la probabilidad de co-ocurrencia de proteínas en diferentes proteomas [52] . La idea de que las proteínas que interactúan a menudo tienen árboles filogenéticos topológicamente similares se utiliza en el método del árbol espejo [54] .
  • Métodos de predicción basados ​​en la homología : este enfoque asume que las proteínas bajo estudio interactuarán entre sí si se sabe que sus homólogos interactúan. Estos pares de proteínas de diferentes organismos, que han conservado la capacidad de interactuar entre sí durante la evolución, se denominan interólogos . Ejemplos de servicios que utilizan este método son PPISearch y BIPS [52] .
  • Predicción basada en datos de coexpresión de genes : si las proteínas estudiadas codifican genes con patrones de expresión similares ( perfil y nivel de expresión similares ) en diferentes intervalos de tiempo, entonces se puede suponer que estas proteínas están relacionadas funcionalmente y, posiblemente, de alguna manera interactúan entre sí. otro [ 55] .
  • Métodos basados ​​en topología de red : las redes BWV se pueden representar como un gráfico donde los nodos son proteínas y cada borde representa una interacción entre proteínas. Con la ayuda de una interpretación matemática de la red PPI (por ejemplo, en forma de matriz de adyacencia ), se puede determinar cómo se relacionan funcionalmente las proteínas entre sí, así como predecir nuevos PPI. Si dos proteínas tienen muchos socios comunes en la red, lo más probable es que participen en el mismo proceso biológico y puedan interactuar potencialmente entre sí [52] .
  • Enfoque de dos híbridos in-silico : la suposición principal de este método es que las proteínas que interactúan coevolucionan para mantener la funcionalidad. Este método analiza múltiples alineaciones de una familia de proteínas y busca mutaciones correlacionadas para predecir el VPP y buscar bases dentro del sitio de unión [56] .
  • Predicción PPI basada en la estructura : este enfoque permite no solo averiguar si las proteínas pueden interactuar, sino también caracterizar esta interacción (por ejemplo, sus características físicas o los aminoácidos que forman la superficie de interacción de dos proteínas). Uno de los métodos que utiliza la estructura tridimensional de las proteínas es el acoplamiento . Esto también incluye métodos que asumen el conservadurismo evolutivo de las bases que componen la superficie de interacción. Así, sobre la base de estructuras ya conocidas, es posible predecir cómo se verá el complejo multimolecular de las proteínas estudiadas [52] .
  • Métodos basados ​​en aprendizaje automático o minería de texto : basado en aprendizaje automático, se ha desarrollado un método para predecir el PPI que utiliza solo las secuencias de las proteínas estudiadas [57] . Esto permite analizar, aunque con menor precisión, un mayor número de posibles interacciones, ya que solo se utilizan secuencias de aminoácidos para el trabajo. La minería de texto busca vínculos entre proteínas considerando su mención mutua en oraciones o párrafos de diferentes bloques de texto [58] .


CASP

CASP (del inglés  Evaluación crítica de la predicción de estructuras de proteínas  - una evaluación crítica de la predicción de estructuras de proteínas) es un experimento a gran escala sobre la predicción de estructuras de proteínas. Se lleva a cabo desde 1994 con una frecuencia de cada dos años [59] . CASP prueba objetivamente los métodos de predicción de la estructura de proteínas y proporciona una evaluación independiente del modelado estructural. El objetivo principal de CASP es ayudar a mejorar los métodos para determinar la estructura tridimensional de las proteínas a partir de sus secuencias de aminoácidos . Más de 100 grupos de investigación participan en el proyecto de forma continuada. Uno de los principios fundamentales de CASP es que los participantes no tienen ninguna información previa sobre la proteína que no sea la secuencia de aminoácidos. Por esta razón, CASP utiliza un método doble ciego  : ni los organizadores, ni los expertos, ni los participantes conocen la estructura de las proteínas probadas hasta el final de la etapa de predicción. Proteínas probadas suelen ser estructuras no resueltas obtenidas por análisis de difracción de rayos X y RMN [60] .

Este evento ayuda a comparar métodos avanzados para predecir estructuras de proteínas y la búsqueda de un algoritmo "ideal" que pueda predecir la estructura terciaria de una proteína solo a partir de la secuencia de aminoácidos [61] .

El último CASP13 lo ganó el equipo que utilizó la red neuronal AlphaFold . Por lo tanto, lo más probable es que la predicción de las estructuras de las proteínas en el futuro se realice mediante redes neuronales [62] .


Foldit

Foldit es un rompecabezas de plegamiento de proteínas en línea. El juego es parte de un proyecto de investigación y desarrollado en la Universidad de Washington . El objetivo del juego es plegar la estructura de las proteínas seleccionadas de la mejor manera posible; las mejores soluciones de usuario son analizadas por científicos, que pueden utilizarlas para resolver problemas científicos reales relacionados con la búsqueda de vacunas e innovaciones biológicas. La mayoría de los mejores jugadores de Foldit no tienen experiencia en bioquímica [63] .

El objetivo de este juego es predecir la estructura tridimensional de una determinada proteína con el nivel de energía libre más bajo [64] . Cada tarea se publica en el sitio durante un período determinado, durante el cual los usuarios compiten entre sí.

Durante el juego, los jugadores manipulan interactivamente la molécula cambiando los ángulos de la columna vertebral de la proteína y también la disposición de los radicales de aminoácidos. Los jugadores pueden establecer restricciones en ciertas áreas ("bandas elásticas") o "congelarlas". Los usuarios también cuentan con una barra de herramientas para realizar tareas automatizadas, como el comando "menear" para minimizar la energía localmente.

El usuario recibe información sobre qué tan bien se las arregla para plegar la proteína, en forma de puntos que se otorgan, en particular, por la formación de nuevos enlaces de hidrógeno, ocultando residuos hidrofóbicos dentro de la molécula, etc. El programa también da pistas a los jugadores, por ejemplo, resalta áreas en las que ciertos grupos se superponen y deben diluirse, áreas hidrofóbicas abiertas que deben ocultarse de los efectos del agua, etc. El sitio permite a los usuarios compartir y discutir soluciones entre ellos [63] .


Historia

Uno de los primeros algoritmos para predecir la estructura secundaria de una proteína fue el método Chou - Fasman  , basado principalmente en parámetros probabilísticos determinados usando las frecuencias relativas de ocurrencia de cada aminoácido en cada tipo de estructuras secundarias [21] . La precisión del método de Chow-Fasman es de alrededor del 50-60 % [65] .

El siguiente programa digno de mención fue el método GOR , llamado así por las primeras letras de los nombres de sus desarrolladores, un método basado en la teoría de la información [66] . Utiliza el método probabilístico de inferencia bayesiana [66] . El método GOR tiene en cuenta no solo la probabilidad de que un aminoácido de un determinado tipo se incluya en una determinada estructura secundaria, sino también la probabilidad condicional de que un aminoácido se incluya en esta estructura secundaria, teniendo en cuenta la contribución de sus vecinos. (no se supone que los vecinos tengan la misma estructura) [66] . El método GOR original tenía una precisión de alrededor del 65% y fue significativamente más exitoso en la predicción de hélices alfa que de hélices beta , que con frecuencia predecía erróneamente como bucles o parches desorganizados 65] .

Otro gran paso adelante fue el uso de métodos de aprendizaje automático : los primeros métodos de redes neuronales se utilizaron en programas para predecir las estructuras secundarias de las proteínas. Como muestras de entrenamiento, utilizaron secuencias de proteínas con estructuras obtenidas experimentalmente para determinar motivos comunes asociados con una determinada disposición de estructuras secundarias [67] . Estos métodos tienen más del 70% de precisión en sus predicciones, aunque el número de cadenas beta también se subestima a menudo debido a la falta de información sobre la estructura tridimensional que permitiría estimar los patrones de enlaces de hidrógeno que pueden contribuir a la formación de la hoja beta [65] . PSIPRED Archivado el 21 de julio de 2011 en Wayback Machine y JPRED Archivado el 7 de abril de 2020 en Wayback Machine se encuentran entre los programas de predicción de estructura secundaria de proteínas basados ​​en redes neuronales más conocidos [68] [69] . Más recientemente , las máquinas de vectores de soporte han demostrado ser particularmente útiles para predecir giros que son difíciles de identificar con métodos estadísticos [70] [71] .

Las extensiones de los métodos de aprendizaje automático se utilizan para predecir propiedades locales más precisas de las proteínas, como los ángulos de la columna vertebral de torsión en regiones de estructura no clasificada. Tanto las máquinas de vectores de soporte como las redes neuronales se han utilizado para resolver este problema [70] [72] [73] . Más recientemente, el programa SPINE -X , archivado el 12 de abril de 2020 en Wayback Machine , hizo posible predecir con precisión los ángulos de torsión reales y usar con éxito esta información para predecir la estructura ab initio [74] .

Notas

  1. Zaki, MJ, Bystroff, C. Predicción de la estructura de proteínas , Humana Press, 2008, 337 p. Fragmento de texto en Google Books
  2. ↑ 1 2 Yang Y. , Gao J. , Wang J. , Heffernan R. , Hanson J. , Paliwal K. , Zhou Y. Sesenta y cinco años de la larga marcha en la predicción de la estructura secundaria de proteínas: ¿la recta final?  (Inglés)  // Briefings En Bioinformática. - 2018. - 1 de mayo ( vol. 19 , núm. 3 ). - Pág. 482-494 . -doi : 10.1093 / bib/bbw129 . — PMID 28040746 .
  3. ↑ Principios de Anfinsen CB que rigen el plegamiento de las cadenas de proteínas   // Ciencia . - 1973. - 20 de julio ( vol. 181 , núm. 4096 ). - pág. 223-230 . — ISSN 0036-8075 . -doi : 10.1126 / ciencia.181.4096.223 .
  4. ↑ 1 2 3 Li Bian , Fooksa Michaela , Heinze Sten , Meiler Jens. Encontrar la aguja en el pajar: hacia la solución computacional del problema del plegamiento de proteínas  //  Reseñas críticas en bioquímica y biología molecular. - 2017. - 4 de octubre ( vol. 53 , núm. 1 ). - Pág. 1-28 . — ISSN 1040-9238 . doi : 10.1080 / 10409238.2017.1380596 .
  5. Zhang Yang. Avances y desafíos en la predicción de la estructura de proteínas  //  Opinión actual en biología estructural. - 2008. - junio ( vol. 18 , no. 3 ). - P. 342-348 . — ISSN 0959-440X . -doi : 10.1016/ j.sbi.2008.02.004 .
  6. "Problema de proteínas" fundamental resuelto. Los científicos pelearon por él durante medio siglo , y al final los programadores de Google los ayudaron , y esto puede ser muy importante para la medicina .
  7. Richardson Jane S. Anatomía y taxonomía de la estructura de proteínas  (inglés)  // Avances en la química de proteínas Volumen 34. - 1981. - P. 167-339 . — ISBN 9780120342341 . — ISSN 0065-3233 . - doi : 10.1016/S0065-3233(08)60520-3 .
  8. Pace CN , Scholtz JM Una escala de propensión experimental de hélice basada en estudios de péptidos y proteínas.  (Inglés)  // Revista Biofísica. - 1998. - julio ( vol. 75 , n. 1 ). - Pág. 422-427 . - doi : 10.1016/s0006-3495(98)77529-0 . —PMID 9649402 .
  9. Nick Pace C. , Martin Scholtz J. Una escala de propensión a la hélice basada en estudios experimentales de péptidos y proteínas  //  Revista biofísica. - 1998. - julio ( vol. 75 , n. 1 ). - Pág. 422-427 . — ISSN 0006-3495 . - doi : 10.1016/s0006-3495(98)77529-0 .
  10. Chothia C. Conformación de láminas plegadas beta retorcidas en proteínas.  (Inglés)  // Revista de Biología Molecular. - 1973. - 5 de abril ( vol. 75 , n. 2 ). - P. 295-302 . - doi : 10.1016/0022-2836(73)90022-3 . — PMID 4728692 .
  11. Richardson JS , Richardson DC Las proteínas de hoja beta naturales utilizan un diseño negativo para evitar la agregación de borde a borde.  (inglés)  // Actas de la Academia Nacional de Ciencias de los Estados Unidos de América. - 2002. - 5 de marzo ( vol. 99 , n. 5 ). - Pág. 2754-2759 . -doi : 10.1073/ pnas.052706099 . —PMID 11880627 .
  12. Finkelstein A. V., Ptitsyn O. B. Estructuras secundarias de cadenas polipeptídicas // Física de proteínas. - Moscú: KDU, 2005. - S. 86-95. — ISBN 5-98227-065-2 .
  13. Choi Yoonjoo , Agarwal Sumeet , Deane Charlotte M. ¿Cuánto mide un bucle?  (Inglés)  // PeerJ. - 2013. - 12 de febrero ( vol. 1 ). -P.e1 ._ _ — ISSN 2167-8359 . -doi : 10.7717/ peerj.1 .
  14. ¿Qué son las estructuras macromoleculares? . Consultado el 20 de abril de 2020. Archivado desde el original el 12 de mayo de 2020.
  15. estructura terciaria Archivado el 19 de mayo de 2011 en Wayback Machine // IUPAC, 1996, 68, 2193. (Terminología básica de estereoquímica (Recomendaciones IUPAC 1996)) en la página 2220, Libro dorado de IUPAC.
  16. Clarke, Jeremy M. Berg; John L. Tymoczko; Lubert Stryer. Contenido web de Neil D. Sección 3.5 Estructura cuaternaria: las cadenas polipeptídicas pueden ensamblarse en estructuras de múltiples subunidades // Bioquímica . - 5. ed., 4. impresión.. - Nueva York, NY [ua]: W. H. Freeman, 2002. - ISBN 0-7167-3051-0 .
  17. Chou, Kuo-Chen; Cai, Yu Dong. Predicción de la estructura cuaternaria de proteínas por composición de  pseudoaminoácidos // Proteínas  : estructura, función y bioinformática : diario. - 2003. - 1 de noviembre ( vol. 53 , n. 2 ). - pág. 282-289 . -doi : 10.1002/ prot.10500 . — PMID 14517979 .
  18. ↑ 1 2 Yang Yuedong , Gao Jianzhao , Wang Jihua , Heffernan Rhys , Hanson Jack , Paliwal Kuldip , Zhou Yaoqi. Sesenta y cinco años de la larga marcha en la predicción de estructuras secundarias de proteínas: ¿la recta final?  (Inglés)  // Briefings en Bioinformática. - 2016. - 31 de diciembre. —P.bbw129 ._ _ — ISSN 1467-5463 . -doi : 10.1093 / bib/bbw129 .
  19. Wolfgang Kabsch, Christian Sander. Diccionario de estructura secundaria de proteínas: Reconocimiento de patrones de características geométricas y con enlaces de hidrógeno  // Biopolímeros. — 1983-12. - T. 22 , n. 12 _ — S. 2577–2637 . - ISSN 1097-0282 0006-3525, 1097-0282 . -doi : 10.1002/ bip.360221211 . Archivado el 29 de mayo de 2020.
  20. Xu, Ying, Xu, Dong, Liang, Jie. Métodos computacionales para la predicción y el modelado de la estructura de proteínas: Volumen 1: Caracterización básica . - 2007. - ISBN 978-0-387-68372-0 . Archivado el 11 de junio de 2020 en Wayback Machine .
  21. ^ 1 2 Chou Peter Y. , Fasman Gerald D. Predicción de la conformación de proteínas   // Bioquímica . - 1974. - 15 de enero ( vol. 13 , no. 2 ). - pág. 222-245 . — ISSN 0006-2960 . -doi : 10.1021/ bi00699a002 .
  22. Asaf A. Salamov, Víctor V. Soloviev. Predicción de la estructura secundaria de proteínas mediante la combinación de algoritmos de vecinos más cercanos y alineaciones de secuencias múltiples  // Journal of Molecular Biology. - 1995-03. - T. 247 , n. 1 . — P. 11–15 . — ISSN 0022-2836 . -doi : 10.1006/ jmbi.1994.0116 .
  23. Daniel W. A. ​​​​Buchan, David T Jones. El banco de trabajo de análisis de proteínas PSIPRED: 20 años después  // Investigación de ácidos nucleicos. — 2019-04-26. - T. 47 , n. W1 . — S. W402–W407 . — ISSN 1362-4962 0305-1048, 1362-4962 . -doi : 10.1093 / nar/gkz297 .
  24. David T Jones. Predicción de la estructura secundaria de proteínas basada en matrices de puntuación específicas de posición 1 1 Editado por G. Von Heijne  // Journal of Molecular Biology. — 1999-09. - T. 292 , n. 2 . — S. 195–202 . — ISSN 0022-2836 . -doi : 10.1006/ jmbi.1999.3091 .
  25. Kiyoshi Asai, Satoru Hayamizu, Ken'ichi Handa. Predicción de la estructura secundaria de proteínas por el modelo oculto de Markov  // Bioinformática. - 1993. - T. 9 , núm. 2 . — S. 141–146 . - ISSN 1460-2059 1367-4803, 1460-2059 . -doi : 10.1093 / bioinformática/9.2.141 .
  26. Pirovano Walter , Heringa Jaap. Predicción de Estructura Secundaria de Proteínas  (Inglés)  // Métodos en Biología Molecular. - 2009. - 30 de octubre. - Pág. 327-348 . — ISBN 9781603272407 . — ISSN 1064-3745 . -doi : 10.1007 / 978-1-60327-241-4_19 .
  27. Bioinformática / Shui Qing Ye. — Chapman y Hall/CRC, 2007-08-20. — ISBN 978-0-429-14203-1 .
  28. Seung Hwan Hong, Keehyoung Joo, Jooyoung Lee. ConDo: predicción de límites de dominio de proteínas utilizando información coevolutiva   // Bioinformática . — 2019-07-15. — vol. 35 , edición. 14 _ - Pág. 2411-2417 . — ISSN 1367-4803 . -doi : 10.1093 / bioinformática/bty973 .
  29. Ovchinnikov S, Kim De, Wang Ry, Liu Y, DiMaio F, Baker D. Predicción de estructura De Novo mejorada en CASP11 mediante la incorporación de información de coevolución en  Rosetta . Proteínas (septiembre 2016). Consultado el 13 de abril de 2020. Archivado desde el original el 1 de abril de 2021.
  30. Dong Xu, Lukasz Jaroszewski, Zhanwen Li, Adam Godzik. AIDA: ensamblaje de dominios ab initio para la predicción automatizada de la estructura de proteínas multidominio y la predicción de la interacción dominio-dominio  (inglés)  // Bioinformática. — 2015-07-01. — vol. 31 , edición. 13 _ - Pág. 2098-2105 . — ISSN 1367-4803 . -doi : 10.1093 / bioinformática/btv092 . Archivado desde el original el 3 de junio de 2018.
  31. Bian Lia et al. Encontrar la aguja en el pajar: hacia la solución computacional del problema del plegamiento de proteínas  //  Crit Rev Biochem Mol Biol: revista. - 2018. - Vol. 52 , núm. 1 . - Pág. 1-28 . doi : 10.1080 / 10409238.2017.1380596 .
  32. Philip Hunter. en el pliegue. Los avances en tecnología y algoritmos facilitan grandes avances en la predicción de la estructura de proteínas  // Informes EMBO. — 2006-03. - T. 7 , núm. 3 . — S. 249–252 . — ISSN 1469-221X . -doi : 10.1038 / sj.embor.7400655 .
  33. Ulrike Göbel, Chris Sander, Reinhard Schneider, Alfonso Valencia. Mutaciones correlacionadas y contactos de residuos en proteínas  (inglés)  // Proteínas: estructura, función y bioinformática. - 1994. - vol. 18 , edición. 4 . - Pág. 309-317 . — ISSN 1097-0134 . -doi : 10.1002/ prot.340180402 .
  34. William R. Taylor, Kerr Hatrick. Compensación de cambios en alineaciones de secuencias múltiples de proteínas  //  Ingeniería, diseño y selección de proteínas. - 1994-03-01. — vol. 7 , edición. 3 . - P. 341-348 . — ISSN 1741-0126 . doi : 10.1093 / proteína/7.3.341 .
  35. Debora S. Marks, Lucy J. Colwell, Robert Sheridan, Thomas A. Hopf, Andrea Pagnani. Estructura 3D de proteínas calculada a partir de la variación de la secuencia evolutiva  // PLOS One  . - Biblioteca Pública de Ciencias , 2011-07-12. — vol. 6 , edición. 12 _ —P.e28766 . _ — ISSN 1932-6203 . - doi : 10.1371/journal.pone.0028766 . Archivado desde el original el 8 de marzo de 2022.
  36. Lukas Burguer, Erik van Nimwegen. Desenredando la coevolución directa de la indirecta de residuos en alineaciones de proteínas  //  PLOS Computational Biology. — 2010-01-01. — vol. 6 , edición. 1 . — P.e1000633 . — ISSN 1553-7358 . -doi : 10.1371 / journal.pcbi.1000633 . Archivado desde el original el 18 de febrero de 2022.
  37. Faruck Morcos, Andrea Pagnani, Bryan Lunt, Arianna Bertolino, Debora S. Marks. El análisis de acoplamiento directo de la coevolución de residuos captura contactos nativos en muchas familias de proteínas  // Actas de la Academia Nacional de Ciencias  . - Academia Nacional de Ciencias , 2011-12-06. — vol. 108 , edición. 49 . - Pág. E1293–E1301 . - ISSN 1091-6490 0027-8424, 1091-6490 . -doi : 10.1073/ pnas.1111471108 . Archivado desde el original el 25 de julio de 2020.
  38. Timothy Nugent, David T. Jones. Predicción precisa de la estructura de novo de grandes dominios de proteínas transmembrana mediante ensamblaje de fragmentos y análisis de mutaciones correlacionadas  // Actas de la Academia Nacional de Ciencias  . - Academia Nacional de Ciencias , 2012-06-12. — vol. 109 , edición. 24 . - Pág. E1540–E1547 . - ISSN 1091-6490 0027-8424, 1091-6490 . -doi : 10.1073/ pnas.1120036109 . Archivado el 25 de mayo de 2021.
  39. Yang Zhang. Avances y desafíos en la predicción de la estructura de proteínas  //  Opinión actual en biología estructural. — Elsevier , 2008-06-01. — vol. 18 , edición. 3 . - P. 342-348 . — ISSN 0959-440X . -doi : 10.1016/ j.sbi.2008.02.004 .
  40. ↑ 1 2 Bian Li, Michaela Fooksa, Sten Heinze, Jens Meiler. Encontrar la aguja en el pajar: hacia la solución computacional del problema del plegamiento de proteínas  //  Reseñas críticas en bioquímica y biología molecular. — 2018-01-02. — vol. 53 , edición. 1 . — Pág. 1–28 . — ISSN 1549-7798 1040-9238, 1549-7798 . doi : 10.1080 / 10409238.2017.1380596 .
  41. Yang Zhang, Jeffrey Skolnick. El problema de predicción de la estructura de la proteína podría resolverse utilizando la biblioteca PDB actual  // Actas de la Academia Nacional de Ciencias  . - Academia Nacional de Ciencias , 2005-01-25. — vol. 102 , edición. 4 . - P. 1029-1034 . - ISSN 1091-6490 0027-8424, 1091-6490 . -doi : 10.1073 / pnas.0407152101 . Archivado desde el original el 22 de julio de 2020.
  42. JU Bowie, R. Luthy, D. Eisenberg. Un método para identificar secuencias de proteínas que se pliegan en una estructura tridimensional conocida   // Ciencia . - 1991-07-12. — vol. 253 , edición. 5016 . - P. 164-170 . — ISSN 1095-9203 0036-8075, 1095-9203 . -doi : 10.1126 / ciencia.1853201 . Archivado desde el original el 21 de febrero de 2020.
  43. Yo Matsuo, Haruki Nakamura, Ken Nishikawa. Detección de la compatibilidad de la proteína 3D-1D caracterizada por la evaluación del empaquetamiento de la cadena lateral y las interacciones electrostáticas  //  The Journal of Biochemistry. - 1995-07. — vol. 118 , edición. 1 . — pág. 137–148 . — ISSN 0021-924X 1756-2651, 0021-924X . -doi : 10.1093 / oxfordjournals.jbchem.a124869 .
  44. Desmet J, De Maeyer M, Hazes B, Lasters I. El teorema de eliminación sin salida y su uso en el posicionamiento de la cadena lateral de proteínas  . Naturaleza (9 de abril de 1992). Consultado el 27 de abril de 2020. Archivado desde el original el 31 de octubre de 2021.
  45. Patrice Koehl, Marc Delarue. Aplicación de una teoría de campo medio autoconsistente para predecir la conformación de cadenas laterales de proteínas y estimar su entropía conformacional  // Journal of Molecular Biology. - 1994-06. - T. 239 , n. 2 . - S. 249-275 . — ISSN 0022-2836 . -doi : 10.1006/ jmbi.1994.1366 .
  46. Roland L. Dunbrack. Bibliotecas de Rotamer en el siglo XXI  //  Opinión actual en biología estructural. — Elsevier , 2002-08-01. — vol. 12 , edición. 4 . - P. 431-440 . — ISSN 0959-440X . - doi : 10.1016/S0959-440X(02)00344-5 .
  47. Jay W. Ponder, Frederic M. Richards. Plantillas terciarias para proteínas: uso de criterios de empaquetamiento en la enumeración de secuencias permitidas para diferentes clases estructurales  //  Journal of Molecular Biology. - 1987-02-20. — vol. 193 , edición. 4 . - Pág. 775-791 . — ISSN 0022-2836 . - doi : 10.1016/0022-2836(87)90358-5 .
  48. Simon C. Lovell, J. Michael Word, Jane S. Richardson, David C. Richardson. La penúltima biblioteca de rotámeros  (alemán)  // Proteínas: estructura, función y bioinformática. - 2000. - Bd. 40 , H.3 . - S. 389-408 . — ISSN 1097-0134 . - doi : 10.1002/1097-0134(20000815)40:33.0.CO;2-2 .
  49. Maxim V. Shapovalov, Roland L. Dunbrack. Una biblioteca de rotámeros dependiente de la columna vertebral suavizada para proteínas derivadas de estimaciones y regresiones de la densidad del núcleo adaptativo   // Estructura . — 2011-06-08. — vol. 19 , edición. 6 _ - P. 844-858 . — ISSN 0969-2126 . -doi : 10.1016/ j.str.2011.03.019 . Archivado desde el original el 21 de julio de 2013.
  50. Andrew M. Watkins, Timothy W. Craven, P. Douglas Renfrew, Paramjit S. Arora, Richard Bonneau. Bibliotecas de rotámeros para el diseño de alta resolución de foldamers de β-aminoácidos  // Estructura (Londres, Inglaterra: 1993). — 2017-11-07. - T. 25 , n. 11 _ — S. 1771–1780.e3 . — ISSN 0969-2126 . -doi : 10.1016/ j.str.2017.09.005 .
  51. Thomas Lengauer, Matthias Rarey. Métodos computacionales para acoplamiento biomolecular  //  Opinión actual en biología estructural. - 1996-06-01. — vol. 6 , edición. 3 . - Pág. 402-406 . — ISSN 0959-440X . - doi : 10.1016/S0959-440X(96)80061-3 . Archivado desde el original el 29 de noviembre de 2012.
  52. 1 2 3 4 5 6 Keskin, O.; Tuncbag, N; Gursoy, A. Predicción de interacciones proteína-proteína desde el nivel molecular hasta el proteómico   // Revisiones químicas : diario. - 2016. - Vol. 116 , núm. 8 _ - Pág. 4884-4909 . —PMID 27074302 .
  53. Enright, AJ; Iliopoulos, I.; Kyrpides, Carolina del Norte; Ouzounis, CA Mapas de interacción de proteínas para genomas completos basados ​​en eventos de fusión de genes  //  Naturaleza: revista. - 1999. - vol. 402 , núm. 6757 . - P. 86-90 . —PMID 10573422 .
  54. Pazos, F.; Valencia, A. Similitud de árboles filogenéticos como indicador de interacción proteína-proteína  // Protein Eng  ., Des. sel. : diario. - 2001. - vol. 14 , núm. 9 _ - Pág. 609-614 . —PMID 11707606 .
  55. Jansen, R.; Greenbaum, D.; Gerstein, M. Relación de datos de expresión del genoma completo con interacciones proteína-proteína  // Genome Res  . . : diario. - 2002. - vol. 12 , núm. 1 . - P. 37-46 . — PMID 11779829 .
  56. Pazos, F.; Valencia, A. Sistema de dos híbridos in silico para la selección de pares de proteínas que interactúan físicamente  //  Proteins: Struct., Funct., Genet. : diario. - 2002. - vol. 47 , núm. 2 . - pág. 219-227 . —PMID 11933068 .
  57. Shen, J.; IZhang, J.; Luo, X.; Zhu, W.; Yu, K.; Chen, K.; Li, Y.; Jiang, H. Predicción de interacciones proteína-proteína basadas solo en información de secuencias  (inglés)  // Actas de la Academia Nacional de Ciencias de los Estados Unidos de América  : revista. - 2007. - vol. 104 , núm. 11 _ - Pág. 4337-4341 . — PMID 17360525 .
  58. Papanikolaou, N.; Pavlopoulos, GA; Teodosiou, T.; Iliopoulos, I. Predicciones de interacción proteína-proteína utilizando métodos de minería de texto  //  Métodos: revista. - 2015. - Vol. 74 . - P. 47-53 . —PMID 25448298 .
  59. Moult John , Pedersen Jan T. , Judson Richard , Fidelis Krzysztof. Un experimento a gran escala para evaluar los métodos de predicción de la estructura de proteínas  //  Proteínas: estructura, función y genética. - 1995. - noviembre ( vol. 23 , no. 3 ). - P. ii-iv . — ISSN 0887-3585 . - doi : 10.1002/prot.340230303 .
  60. Moult J. , Pedersen JT , Judson R. , Fidelis K. Un experimento a gran escala para evaluar los métodos de predicción de la estructura de proteínas.  (Inglés)  // Proteínas. - 1995. - noviembre ( vol. 23 , no. 3 ). - doi : 10.1002/prot.340230303 . —PMID 8710822 .
  61. Ben-David M. , Noivirt-Brik O. , Paz A. , Prilusky J. , Sussman JL , Levy Y. Evaluación de las predicciones de estructura CASP8 para objetivos sin plantilla.  (Inglés)  // Proteínas. - 2009. - Vol. 77 flexible 9 . - Pág. 50-65 . - doi : 10.1002/prot.22591 . —PMID 19774550 .
  62. DeepMind de Google predice formas 3D de proteínas , The Guardian  (2 de diciembre de 2018). Archivado desde el original el 18 de julio de 2019. Consultado el 19 de julio de 2019.
  63. 1 2 Cooper S., Khatib F., Treuille A., Barbero J., Lee J., Beenen M., Leaver-Fay A., Baker D., Popović Z., Players F. Predicción de estructuras de proteínas con un modo multijugador juego online  (ing.)  // Naturaleza: diario. - 2010. - Vol. 466 . - Pág. 756-760 . -doi : 10.1038/ naturaleza09304 . —PMID 20686574 .
  64. Good BM, Su AI Juegos con finalidad científica  // Genome Biol.. - 2011. - V. 12 . - art. 135 . -doi : 10.1186 / gb-2011-12-12-135 . — PMID 22204700 .
  65. ↑ 1 2 3 Mount, David W. Bioinformática: secuencia y análisis del genoma . — 2ª ed. - Cold Spring Harbor, NY: Cold Spring Harbor Laboratory Press, 2004. - xii, 692 páginas p. — ISBN 0-87969-687-7 , 978-0-87969-687-0 , 0-87969-712-1 , 978-0-87969-712-9 652-070-9. Archivado el 5 de enero de 2009 en Wayback Machine .
  66. ↑ 1 2 3 Garnier J. , Osguthorpe DJ , Robson B. Análisis de la precisión y las implicaciones de los métodos simples para predecir la estructura secundaria de las proteínas globulares  //  Journal of Molecular Biology. - 1978. - Marzo ( vol. 120 , n. 1 ). - Pág. 97-120 . — ISSN 0022-2836 . - doi : 10.1016/0022-2836(78)90297-8 .
  67. Holley LH , Karplus M. Predicción de estructura secundaria de proteínas con una red neuronal.  (Inglés)  // Actas de la Academia Nacional de Ciencias. - 1989. - 1 de enero ( vol. 86 , n. 1 ). - P. 152-156 . — ISSN 0027-8424 . -doi : 10.1073/ pnas.86.1.152 .
  68. Buchan Daniel WA , Jones David T. The PSIPRED Protein Analysis Workbench: 20 years on  //  Nucleic Acids Research. - 2019. - 26 abril ( vol. 47 , no. W1 ). -P.W402 - W407 . — ISSN 0305-1048 . -doi : 10.1093 / nar/gkz297 .
  69. Drozdetskiy Alexey , Cole Christian , Procter James , Barton Geoffrey J. JPred4: un servidor de predicción de estructuras secundarias de proteínas  //  Nucleic Acids Research. - 2015. - 16 de abril ( vol. 43 , no. W1 ). -P.W389 - W394 . — ISSN 0305-1048 . -doi : 10.1093 / nar/gkv332 .
  70. 1 2 PHAM THO HOAN , SATOU KENJI , HO TU BAO. MÁQUINAS VECTORIALES DE SOPORTE PARA LA PREDICCIÓN Y ANÁLISIS DE GIROS BETA Y GAMMA EN PROTEÍNAS  //  Journal of Bioinformatics and Computational Biology. - 2005. - Abril ( vol. 03 , no. 02 ). - P. 343-358 . — ISSN 0219-7200 . -doi : 10.1142/ S0219720005001089 .
  71. Zhang Q. , Yoon S. , Welsh WJ Método mejorado para predecir el giro mediante una máquina de vectores de soporte   // Bioinformática . - 2005. - 29 de marzo ( vol. 21 , no. 10 ). - Pág. 2370-2374 . — ISSN 1367-4803 . -doi : 10.1093 / bioinformática/bti358 .
  72. Zimmermann O. , Hansmann UHE Máquinas de vectores de soporte para la predicción de regiones de ángulo diedro   // Bioinformática . - 2006. - 27 de septiembre ( vol. 22 , núm. 24 ). - Pág. 3009-3015 . — ISSN 1367-4803 . -doi : 10.1093 / bioinformática/btl489 .
  73. Kuang R. , Leslie C.S. , Yang A.-S. Predicción del ángulo de la columna vertebral de proteínas con enfoques de aprendizaje automático   // Bioinformática . - 2004. - 26 febrero ( vol. 20 , no. 10 ). - Pág. 1612-1621 . — ISSN 1367-4803 . -doi : 10.1093 / bioinformática/bth136 .
  74. Faraggi Eshel , Yang Yuedong , Zhang Shesheng , Zhou Yaoqi. Predicción de la estructura local continua y el efecto de su sustitución por la estructura secundaria en la predicción de la estructura de la proteína libre de fragmentos   // Estructura . - 2009. - noviembre ( vol. 17 , no. 11 ). - pág. 1515-1527 . — ISSN 0969-2126 . -doi : 10.1016/ j.str.2009.09.006 .