El coeficiente de similitud (también una medida de similitud, índice de similitud) es un indicador adimensional de la similitud de los objetos comparados. También conocida como medida de asociación, medida de similitud, etc.
Se utiliza en biología para cuantificar el grado de similitud de los objetos biológicos (sitios, regiones, fitocenosis individuales , zoocenosis , etc.). También se utiliza en geografía, sociología, reconocimiento de patrones , motores de búsqueda , lingüística comparada, bioinformática , quimioinformática , comparación de cadenas, etc.
En un sentido más amplio, hablan de medidas de proximidad, que incluyen: medidas de diversidad, medidas de concentración (homogeneidad), medidas de inclusión , medidas de similitud, medidas de diferencia (incluyendo distancias), medidas de compatibilidad de eventos, medidas de incompatibilidad de hechos, medidas de interdependencia , medidas de independencia mutua. La teoría de las medidas de proximidad está en su infancia y, por lo tanto, hay muchas ideas diferentes sobre la formalización de las relaciones de proximidad.
La mayoría de los coeficientes están normalizados y varían de 0 (sin similitud) a 1 (similitud total). La semejanza y la diferencia se complementan (matemáticamente, esto se puede expresar de la siguiente manera: Semejanza = 1 − Diferencia).
Los coeficientes de similitud se pueden dividir condicionalmente en tres grupos, dependiendo de cuántos objetos se consideren:
En el estudio de objetos biológicos, se utilizan ampliamente las medidas de la variabilidad tanto de las características individuales como de las frecuencias de distribución de las variables aleatorias. En el caso más simple, la diversidad del inventario (dentro del biosistema estudiado) puede estimarse por la riqueza de especies , o el número de especies.
Las medidas de diversidad más utilizadas [1] ( coeficiente de variación , índices de la familia paramétrica de Renyi , incluido el índice de Shannon ; índices de la familia Hill; índices de Margalef, Gleason , etc.). Con menos frecuencia, se utilizan medidas de concentración que las complementan (por ejemplo, la familia de medidas de Kolmogorov , la medida de disonancia de Rosenberg ).
Estos son los coeficientes más utilizados en biología y geografía [2] . El primer coeficiente de similitud fue propuesto por P. Jaccard en 1901 [ 3 ] : Posteriormente, se propusieron varios coeficientes (medidas, índices) de similitud en varios campos de la ciencia. Los más utilizados (las designaciones son las mismas):
Se conoce una notación alternativa para la tabla de contingencia de R. R. Sokal ( Sokal ) y P. Sneath ( Sneath ) [10] [11] :
La presencia de la especie en el 1er sitio | Falta de vista en el primer sitio | |
La presencia de la especie en el 2º sitio | a | b |
Falta de vista en el segundo sitio | C | d |
donde a es el número de especies encontradas en ambos sitios; b es el número de especies encontradas en el primer sitio de muestreo, pero sin tener en cuenta la presencia de especies comunes; c es el número de especies encontradas en el segundo sitio de muestreo, pero sin tener en cuenta la ocurrencia de especies comunes.
Esta tabla crea mucha confusión. A menudo se confunde con una tabla cruzada estadística similar ; la notación de la tabla Sokal-Sneath se confunde con la notación clásica (ver arriba); casi siempre ignora el hecho de que la tabla solo considera probabilidades.
En el proceso de formalización matemática de los objetos y las relaciones entre ellos, surgió una notación universal teórica de conjuntos para los coeficientes de similitud. Por primera vez, tal registro aparece en los trabajos de A. S. Konstantinov [12] , M. Levandovsky y D. Winter [13] . Entonces, el coeficiente de similitud de Jaccard se puede escribir de la siguiente manera:
El coeficiente de similitud más simple es una medida de similitud absoluta, que es esencialmente el número de características comunes de dos objetos comparados: [14] . Al normalizar esta medida, los valores de la medida de similitud están entre 0 y 1 y el coeficiente se conoce como “medida de similitud porcentual” cuando se utilizan unidades de medida relativas (en porcentaje) y como medida de intersección en cálculos intermedios. de medidas de similitud relativa (por ejemplo, se conoce en el extranjero como la medida de Renkonen [ 15 ] ).
En 1973, B. I. Semkin propuso una fórmula general basada en la fórmula media de Kolmogorov , que combina la mayoría de los coeficientes de similitud conocidos en un continuo continuo de medidas [16] [17] :
donde ; ; ; ; ; . Por ejemplo, los valores de los coeficientes anteriores son los siguientes: [1,-1] (coeficiente de Jaccard); [0,-1] (coeficiente de Sorensen); [0,1] (coeficiente de Kulchinsky); [0,0] (coeficiente de Ochiai); [0, ] (coeficiente de Shimkevich-Simpson); [0, ] (coeficiente de Brown-Blanque). La fórmula de generalización permite definir clases de coeficientes equivalentes y no equivalentes [18] , así como evitar la creación de nuevos coeficientes duplicados.
Un tipo específico de coeficientes de similitud son las medidas de inclusión . Estas son medidas asimétricas ( y ), que muestran el grado de similitud (inclusión) de un objeto con respecto a otro. Se pueden obtener coeficientes de proximidad (simétricos) más familiares promediando dos medidas de inclusión asimétricas complementarias, es decir, cada medida de similitud simétrica corresponde a dos medidas de similitud asimétrica específicas. Por ejemplo, para la medida de Sørensen , esto es y ), y para la medida de Jaccard, esto es y . En general, dos medidas de inclusión no simétricas son mejores para estimar la similitud de los objetos que una medida de similitud simétrica promediada.
El tema de comparar objetos por indicadores de peso es controvertido y ambiguo. En ecología, estos son indicadores que tienen en cuenta la abundancia . Los esquemas de formalización más consistentes de este tipo son el esquema de B. I. Semkin basado en conjuntos descriptivos y el esquema de A. Chao con índices basados en la abundancia (abundance-based indexes) [19] . También en la literatura extranjera se ha establecido la presentación de índices basados en la incidencia (íncidence-based index), es decir, índices para datos booleanos del tipo presencia/ausencia (presencia/ausencia) de un rasgo. De hecho, ambos pueden describirse como casos especiales de conjuntos descriptivos.
La comparación de eventos aleatorios (por ejemplo, ocurrencia ) e indicadores de información siguen siendo discutibles. En el esquema de formalización de las relaciones de proximidad de B. I. Semkin, se propone destacar una serie de interpretaciones analíticas para varias relaciones de proximidad: múltiples , descriptivas , probabilísticas , informativas . Formalmente, la pertenencia a medidas de similitud está determinada por un sistema de axiomas (aquí E es un conjunto arbitrario):
Los sistemas de axiomas para medidas de similitud fueron propuestos por: A. Renyi [20] , Yu. A. Voronin [21] [22] , A. Tversky [23] , A. A. Vikentiev, G. S. Lbov [24] , G. V. Raushenbakh [25] , B. I. Semkin [26] [27] y otros.
Por regla general, un conjunto de medidas de proximidad se presenta en forma de matrices del tipo "objeto a objeto". Estas son, por ejemplo, matrices de similitud , matrices de distancias (en sentido amplio, diferencias), matrices de probabilidades conjuntas, matrices de funciones de información. La mayoría de ellas se pueden construir a partir de: medidas absolutas o relativas, y éstas, a su vez, pueden ser simétricas o asimétricas (estas últimas suelen denominarse medidas de inclusión).
Dichos coeficientes se utilizan para comparar una serie de objetos. Estos incluyen: la similitud media de Alekhine , el índice de dispersión biótica de Koch, el coeficiente de dispersión (dispersión) de Shennikov , la medida de diversidad beta de Whittaker , la medida de homotonicidad de Mirkin- Rosenberg y su medida dual de heterotonicidad , y la medida de heterotonicidad de Semkin . coeficiente de similitud de una serie de descripciones. En la literatura extranjera, las medidas de este tipo se encuentran bajo los nombres: coeficientes multidimensionales, coeficientes n -dimensionales, medida de similitud de múltiples sitios, coeficiente multidimensional, medida de múltiples comunidades [28] [29] [30] . El coeficiente más famoso fue propuesto por L. Koch [31] :
,donde , es decir, la suma del número de características de cada uno de los objetos; , es decir, el número total de características; — un conjunto de n conjuntos (objetos).
Por regla general, las medidas de proximidad se calculan en el módulo de análisis de conglomerados del programa. El más utilizado es Statistica , pero en el módulo correspondiente no se presentan medidas de similitud en absoluto, solo distancias. SPSS (PASW Statistics) propone el cálculo de una serie de medidas de similitud (Ohai, Jacquard, Sokal-Sneath, Kulchinsky, medidas de Dados simétricos). Hay una gran cantidad de pequeños programas para calcular medidas de proximidad y la posterior representación gráfica de dependencias [32] [33] . Las medidas de similitud se presentan muy raramente y principalmente en programas especializados para biólogos [34] : Graphs, NTSYS, BIODIV, PAST, e incluso allí son muy pocas (generalmente solo la medida de Jaccard y, a veces, la medida de Sørensen). También podemos mencionar TurboVEG e IBIS [35] , que se basan en una base de datos con módulos de procesamiento, y el programa IBIS implementa la mayor cantidad de medidas de proximidad utilizadas actualmente en biología, geografía y otros campos.