El concepto de similitud molecular (o similitud química , similitud química ) es uno de los conceptos clave de la quimioinformática [1] [2] . Desempeña un papel importante en los enfoques modernos para predecir las propiedades de los compuestos químicos , diseñar nuevos compuestos con propiedades predeterminadas y, en particular, en la búsqueda de nuevos medicamentos mediante la detección de grandes bases de datos de compuestos químicos disponibles (o potencialmente disponibles). Tal búsqueda se basa en el principio de similitud de propiedades formulado por Johnson y Maggiora: compuestos químicos similares tienen propiedades similares [1] .
La medida de la similitud molecular a menudo se describe como el recíproco de la distancia, o como una constante menos la distancia en el espacio de descriptores.
El cribado virtual basado en similitudes (una variación del cribado virtual basado en ligandos) se basa en la suposición de que todos los compuestos de la base de datos que son similares a un compuesto dado tienen una actividad biológica similar. Aunque esta hipótesis no siempre es cierta [3] , sin embargo, a menudo el conjunto de estructuras químicas seleccionadas en el curso de dicha selección resulta estar significativamente enriquecido con compuestos que tienen el tipo deseado de actividad biológica [4] . Para lograr una mayor eficiencia en el cribado virtual basado en la similitud, las estructuras químicas suelen describirse mediante cribados moleculares ( claves estructurales ) o huellas dactilares moleculares de tamaño fijo o variable. Aunque las pantallas moleculares y las huellas dactilares moleculares se pueden generar tanto a partir de información de conectividad molecular puramente topológica (2D) como de información (3D) sobre la estructura espacial de las moléculas, las huellas dactilares topológicas, que son una forma de descriptores de fragmentos binarios, dominan este campo. Si bien las claves estructurales, como las claves MDL [5] , son bastante adecuadas para trabajar con bases de datos químicas de tamaño pequeño y mediano , para un trabajo eficiente con bases de datos grandes es preferible utilizar huellas dactilares moleculares con una mayor densidad de información. Algunos ejemplos son las huellas dactilares moleculares basadas en fragmentos de Daylight [6] , BCI [7] y Tripos [8] . La medida de similitud más común para estructuras representadas por huellas dactilares moleculares es el coeficiente T de Tanimoto (Jakara) . Dos estructuras químicas generalmente se consideran similares si (para las huellas dactilares moleculares de Daylight).