El acoplamiento molecular es un método de modelado molecular que permite predecir la orientación y la conformación más favorables de una molécula ( ligando ) en el sitio de unión de otra ( receptor ) para la formación de un complejo estable [1] . Los datos sobre la posición y la conformación de los socios se utilizan para predecir la fuerza de la interacción a través de las llamadas funciones de puntuación. Si el ligando es una macromolécula , el acoplamiento se denomina macromolecular .
El acoplamiento molecular se puede considerar como una búsqueda de la posición óptima de la "llave" (ligando) en la "cerradura" (receptor) [2] . En este caso, las moléculas se consideran cuerpos rígidos. Sin embargo, en realidad, durante el proceso de acoplamiento, el ligando y la proteína cambian de forma para lograr la mejor unión. Los cambios en la conformación de proteínas pueden incluir movimientos de bucles y dominios [2] . Tal proceso que conduce a una unión exitosa se denomina "coincidencia inducida" [3] .
El acoplamiento molecular se utiliza para modelar el proceso de reconocimiento molecular. Por lo general, es necesario encontrar la conformación óptima del ligando. Esta posición se alcanza cuando la energía libre de unión es mínima. [4] .
Los complejos de moléculas biológicamente significativas como proteínas, ácidos nucleicos , carbohidratos y lípidos juegan un papel clave en la transducción de señales químicas. Además, la orientación relativa de las dos moléculas que interactúan puede afectar el tipo de señal producida (ya sea inhibidora o catalítica ). Por lo tanto, la interacción entre moléculas biológicas es importante para predecir tanto el tipo como la intensidad de la señal producida [5] .
El acoplamiento se utiliza a menudo para predecir la afinidad y la actividad de una pequeña molécula de fármaco por una proteína diana. Por lo tanto, el acoplamiento molecular, al ser una de las etapas en el desarrollo de fármacos , juega un papel importante en este proceso [6] .
Una de las ventajas del acoplamiento molecular es la posibilidad de su automatización. Como parte de la tarea de desarrollo de fármacos, es posible seleccionar bibliotecas de compuestos de bajo peso molecular . El acoplamiento molecular hace posible determinar el compuesto que interactúa de manera más óptima: un fármaco de una serie de análogos con una composición similar [7] .
Uno de los métodos utilizados en el desarrollo de fármacos es el diseño fragmentado . El método se basa en la búsqueda de pequeños fragmentos con baja afinidad de unión al objetivo y su posterior combinación para buscar un compuesto con alta afinidad. El diseño de fragmentos se utiliza para buscar inhibidores potentes. Este problema se resuelve utilizando varios métodos. Estos incluyen algunos tipos de espectroscopia de RMN , titulación-calorimetría isotérmica , método de termoforesis microscópica , resonancia de plasmones y otros [8] . El acoplamiento molecular, a su vez, también permite resolver un problema similar escaneando bibliotecas de varios compuestos, tanto de bajo peso molecular como complejos, y evaluando su afinidad [9] .
El acoplamiento se puede utilizar en la biorremediación para buscar contaminantes ambientales degradados por ciertas enzimas [10] .
Sin embargo, hay casos en los que el lugar mismo de la interacción no se conoce directamente. Luego aplicamos el llamado acoplamiento "a ciegas" [11] . Varias variaciones de este enfoque se implementan en los siguientes algoritmos: MolDock [12] , Fragment Hotspot Maps [11] , DoGSiteScorer [13] .
Entre las áreas fundamentales de aplicación del acoplamiento molecular se encuentran [4] :
Hay varios enfoques para modelar el acoplamiento. Un enfoque utiliza una técnica de emparejamiento que describe la proteína y el ligando como superficies adicionales [14] [15] . Otro enfoque modela el proceso de acoplamiento real en el que se calculan las energías de interacción por pares . Ambos enfoques tienen ventajas significativas, así como algunas limitaciones [16] .
"Rígido" se denomina acoplamiento, en el que las longitudes de unión, los ángulos y los ángulos de torsión de los socios de acoplamiento permanecen sin cambios durante la simulación. Sin embargo, como resultado de la interacción con otra proteína o ligando, se producen cambios conformacionales tanto en el esqueleto de la proteína como en las cadenas laterales. La movilidad de la columna vertebral, a su vez, se puede dividir en dos tipos: la movilidad de grandes secciones de la proteína: dominios, el llamado movimiento de "cambio" y la movilidad de partes individuales, como bucles. En este caso, el acoplamiento "duro" describe incorrectamente las interacciones. Por lo tanto, hay algunos algoritmos de acoplamiento "flexibles" adicionales. Permiten cambios conformacionales, por lo que este enfoque permite obtener estimaciones de interacción más cercanas a las naturales. Sin embargo, el cálculo de todos los posibles cambios conformacionales, teniendo en cuenta el movimiento en un determinado nivel de desarrollo informático, llevaría una enorme cantidad de tiempo. Además, un gran número de grados de libertad también puede dar lugar a un aumento del número de falsos positivos. En relación con estos problemas, se hace necesario seleccionar racionalmente un pequeño subconjunto de posibles cambios conformacionales para el modelado [17] .
El acoplamiento "flexible" también se puede utilizar en el contexto del acoplamiento de compuestos de bajo peso molecular. Sin embargo, en este caso, se permite la rotación alrededor de cualquier enlace en la molécula del propio ligando, mientras que la proteína sigue siendo una estructura "rígida" [18]
El acoplamiento también se puede dividir en sencillo ( inglés sencillo ) y secuencial ( inglés secuencial ) [19] . El acoplamiento secuencial se utiliza principalmente para acoplar varios compuestos de bajo peso molecular (ligandos). Después de acoplar uno de los ligandos a un archivo separado, se guarda la estructura de la proteína con este ligando. Además, se repite el algoritmo y se implementa el acoplamiento para el segundo ligando en la estructura previamente guardada. Este enfoque puede ser útil en la búsqueda de centros alostéricos [20] .
La correspondencia geométrica (métodos para determinar la interdependencia de la forma) se describe para una proteína y un ligando como una serie de características que determinan su interacción óptima [21] . Estas características pueden incluir tanto la superficie molecular sí como una descripción de características superficiales adicionales. En este caso, la superficie molecular del receptor se describe en términos de su accesibilidad al disolvente y la superficie molecular del ligando se describe en términos de su correspondencia con la descripción de la superficie del receptor. La interdependencia entre las dos superficies constituye una descripción de coincidencia de forma que puede ayudar a detectar diferentes posiciones del ligando. Otro enfoque es describir las características hidrofóbicas de una proteína usando rotaciones en los átomos de la columna vertebral . Otro enfoque puede basarse en la transformada de Fourier [22] [23] [24] .
En este enfoque, la proteína y el ligando están separados por cierta distancia física, y el ligando encuentra su posición en el sitio activo de la proteína después de un cierto número de "pasos". Los pasos incluyen transformaciones de cuerpo rígido , como traslación y rotación , así como cambios internos en la estructura del ligando, incluidas las rotaciones angulares. Cada uno de estos pasos en el espacio cambia la estimación de energía general del sistema y, por lo tanto, se calcula después de cada movimiento. La ventaja obvia de este método es que permite explorar la flexibilidad del ligando durante la simulación, mientras que los métodos de relación de forma deben utilizar algún otro enfoque para conocer la movilidad del ligando. Otra ventaja es que el proceso está físicamente más cerca de lo que realmente sucede cuando la proteína y el ligando se acercan después del reconocimiento molecular. La desventaja de esta técnica es que lleva tiempo evaluar la solución de acoplamiento óptima, ya que es necesario explorar un panorama energético bastante grande [1] .
Lo primero que se necesita para seleccionar moléculas mediante acoplamiento es la estructura de la proteína de interés. Por lo general, la estructura se determina mediante métodos biofísicos ( análisis de difracción de rayos X o espectroscopia de RMN ), también se puede obtener mediante modelos de homología . La estructura de la proteína, junto con una base de datos de posibles ligandos, sirve como entrada para el programa de acoplamiento. El éxito del acoplamiento depende de dos componentes: el algoritmo de búsqueda y la función de evaluación [4] .
El acoplamiento exitoso requiere dos condiciones [25] :
En muchos casos, por ejemplo, anticuerpos e inhibidores competitivos , se conoce el sitio de unión. En otros casos, el sitio de unión puede determinarse a partir de mutagénesis o filogenia . Las configuraciones en las que los átomos de proteínas se superponen (el llamado flare, del inglés clash ) siempre están excluidas [26] .
Después de tamizar los complejos con bengalas, la energía de cada estructura (modelo complejo) se mide utilizando la llamada función de velocidad (evaluación). Este último debe distinguir una estructura "confiable" por encima de al menos 100.000 alternativas. Este es un problema computacional complejo, por lo que se han desarrollado muchos métodos para resolverlo. Los algoritmos se pueden dividir en deterministas y estocásticos [4] .
Desde un punto de vista matemático, el acoplamiento es una búsqueda del mínimo global de la función de energía libre , dada en un espacio multidimensional de todas las formas posibles de unir un ligando a una proteína. El espacio de búsqueda en teoría consta de todas las posibles posiciones en el espacio y conformaciones de la proteína asociada con el ligando. Sin embargo, en la práctica, con los recursos informáticos disponibles, es imposible explorar completamente el espacio de búsqueda; esto requeriría el cálculo de todos los cambios posibles de cada molécula (las moléculas son dinámicas y existen como un conjunto de estados conformacionales) y todos los cambios rotacionales y posiciones posicionales del ligando en relación con la proteína en un nivel de detalle dado. La mayoría de los programas de acoplamiento tienen en cuenta todo el espacio conformacional de las variantes de un ligando (un ligando "flexible"), y algunos también intentan modelar una proteína receptora "flexible". Cada posición fija de este par en el espacio se denomina solución de acoplamiento [27] .
Los algoritmos para encontrar la mejor unión se pueden dividir en las siguientes categorías: métodos sistemáticos, métodos heurísticos aleatorios o estocásticos, métodos de dinámica molecular y métodos termodinámicos [28] .
Los métodos que garantizan encontrar el mínimo global en un número finito de pasos son métodos sistemáticos, es decir, métodos de enumeración secuencial de todas las posiciones posibles del ligando en el centro activo de la proteína diana. Sin embargo, debido a la gran cantidad de cálculos requeridos, este método requiere la introducción de importantes simplificaciones. Existen otros métodos de optimización global que no garantizan encontrar el mínimo global en un número finito de pasos del programa, pero en la práctica resultan ser capaces de encontrar dichos mínimos mucho más rápido que los métodos de enumeración sistemática. Dichos métodos se pueden dividir en dos grandes grupos: heurísticos y termodinámicos [29] .
Los métodos heurísticos utilizan algunas estrategias empíricas para encontrar el mínimo global, lo que acelera el procedimiento en comparación con el simple escaneo de la hipersuperficie. Los más famosos y populares son los siguientes métodos heurísticos [28] :
Los métodos termodinámicos incluyen el modelado de recocido .
En los métodos de tipo Monte Carlo, la configuración inicial se refina aceptando o rechazando pasos (cambios iterativos a algún conjunto de parámetros), dependiendo del valor de la función de evaluación (es decir, puntaje de estructura) (ver el criterio de Metropolis ), hasta que un se ha dado cierto número de pasos. Se supone que la convergencia a la mejor estructura provendrá de una gran clase de estructuras iniciales, de las cuales solo se debe tener en cuenta una. Las estructuras iniciales se pueden analizar mucho más rápido mediante métodos "ásperos" ( gruesos ) . Es difícil encontrar una función de puntaje que distinga bien una estructura "buena" y converja con ella desde una gran distancia (en el espacio muestreado). Por lo tanto, se propuso utilizar dos niveles de aproximación ("gruesa" y "exacta") con diferentes funciones de evaluación. La rotación se puede introducir en Monte Carlo como un parámetro adicional para el paso [34] .
Los métodos de Monte Carlo son estocásticos y no garantizan una búsqueda exhaustiva, por lo que se puede perder la mejor configuración incluso cuando se usa el estimador, que en teoría la distingue. Todavía no se ha establecido claramente la seriedad con la que este problema afecta los resultados del acoplamiento [34] .
Este enfoque se implementa en el algoritmo RosettaDock . RossettaCommons . Consultado el 27 de abril de 2020. [35] .
Como resultado del acoplamiento, se genera una gran cantidad de posibles posiciones de ligandos, algunas de las cuales se rechazan inmediatamente debido a las colisiones con la molécula de proteína. El resto se evalúa utilizando una función de puntuación que toma la decisión de acoplamiento actual como entrada y devuelve un número que indica la probabilidad de que la decisión de acoplamiento represente una interacción vinculante favorable. Por lo tanto, se puede evaluar la eficacia de unión de un ligando con respecto a otro [4] .
En los algoritmos de acoplamiento modernos, se pueden distinguir tres tipos principales de funciones de evaluación: basadas en campos de fuerza, empíricas y estadísticas.
La mayoría de las funciones de puntuación se basan en la física de los campos de fuerza de la mecánica molecular , que estiman la energía de una solución de acoplamiento dentro de un sitio de unión. Varias contribuciones a la energía de la solución de acoplamiento se pueden escribir como una ecuación [4] :
Los componentes de la ecuación incluyen los efectos del solvente, los cambios conformacionales en la proteína y el ligando, la energía libre debido a las interacciones proteína-ligando, las rotaciones internas, la energía de asociación del ligando y el receptor para formar un solo complejo y la energía libre debido a los cambios en la vibración. modos. Una energía baja (negativa) indica un sistema estable y, por lo tanto, una probable interacción de enlace [36] .
Las funciones de evaluación empírica, a diferencia de las basadas en campos de fuerza, incluyen componentes que describen los contactos intermoleculares de una forma más sencilla. No hay analogías directas con interacciones físicas intermoleculares por pares en este caso. La capacidad predictiva de este enfoque depende en gran medida tanto de los componentes mismos como de los coeficientes con los que entran en la ecuación. Las interacciones intermoleculares se presentan como una combinación lineal de términos que describen varios tipos de contactos: enlaces de hidrógeno, interacciones hidrofóbicas, interacciones con iones metálicos y otros. La simplificación, por ejemplo, para enlaces de coordinación con iones metálicos o contactos hidrofóbicos, consiste en su descripción utilizando las distancias entre los átomos correspondientes del ligando y del receptor, sin embargo, tal aproximación no es físicamente correcta. Los enlaces de hidrógeno se describen por parámetros geométricos empíricos (la distancia entre el donante y el aceptor y el ángulo entre ellos y el átomo de hidrógeno), y no por sus características energéticas [37] .
Un enfoque alternativo a través de funciones de puntuación estadística es obtener un potencial estadístico basado en el conocimiento para las interacciones de la base de datos PDB de complejos proteína-ligando , y evaluar el ajuste de la solución de acoplamiento de acuerdo con el potencial estimado [38] .
Hay muchos programas para el acoplamiento teórico de proteínas. La mayor parte funciona así: una proteína está fija en el espacio y la segunda gira a su alrededor. En este caso, para cada configuración de giros, se realizan cálculos de evaluación según la función de evaluación. La función de evaluación se basa en la complementariedad de la superficie, las interacciones electrostáticas , la repulsión de van der Waals , etc. El problema con esta búsqueda es que los cálculos sobre todo el espacio de configuración toman mucho tiempo y rara vez conducen a una única solución [39] .
La imperfección de la función de evaluación conduce inevitablemente a la necesidad de evaluar la capacidad predictiva de un algoritmo de acoplamiento en particular (por ejemplo, AutoDock, ICM). Esto requiere datos experimentales adicionales, como una estructura de referencia. La evaluación puede llevarse a cabo de varias maneras [4] :
La precisión de acoplamiento [40] es una de las evaluaciones de la aplicabilidad de un algoritmo, la capacidad de un algoritmo para reproducir datos experimentales.
El factor de enriquecimiento se estima como la capacidad del algoritmo para distinguir (representar en la parte superior de los mejores) los ligandos "verdaderos" de los "falsos" en la muestra, donde el número de "falsos" es mucho mayor que el número de "verdaderos". . "Verdadero" se refiere a ligandos cuya unión se ha probado experimentalmente, y "falso" se refiere a ligandos cuya unión no se ha probado. El análisis de la curva ROC del método se lleva a cabo a menudo [41] .
La capacidad de los programas de acoplamiento para reproducir estructuras obtenidas por análisis de difracción de rayos X puede evaluarse mediante una serie de métodos de evaluación comparativa [42] .
En el caso de moléculas pequeñas, se pueden tomar conjuntos de referencia especiales que contienen datos experimentales para el análisis comparativo. Por ejemplo, Astex Diverse Set [43] que contiene estructuras de proteínas con ligandos obtenidos mediante análisis de difracción de rayos X o el método Directory of Useful Decoys (DUD) [44] .
En el caso del acoplamiento de péptidos , se pueden utilizar las Lecciones para la evaluación de la eficiencia del acoplamiento y la puntuación (LEADS-PEP) [45] .
Recientemente, han aparecido más y más artículos científicos dedicados a la detección y el acoplamiento virtuales. Sin embargo, no confíes ciegamente en sus resultados. Algunas de las preguntas más frecuentes de los investigadores incluyen:
Con el rápido desarrollo de una gran cantidad de algoritmos diferentes, también existe el problema de elegir el algoritmo más apropiado. La mejor estrategia de selección es encontrar el algoritmo que se probó en una muestra adecuada para la tarea y mostró valores óptimos [47] .
En biología, una gran cantidad de procesos bioquímicos tienen lugar a nivel macromolecular . Los procesos están mediados por interacciones proteína-proteína y proteína - ácido nucleico . Para estudiar este tipo de interacciones se utiliza el acoplamiento macromolecular. Este método permite predecir la estructura tridimensional del complejo estudiado en el entorno natural. Al igual que el acoplamiento molecular, el resultado del estudio es un conjunto de modelos del complejo (estructuras), que se clasifican además en función de la función estimada (puntuación, puntuación, puntuación) [48] .
Este método permite resolver un mayor número de problemas biológicos [49] .