Coeficiente de similitud

El coeficiente de similitud (también una medida de similitud, índice de similitud) es un indicador adimensional de la similitud de los objetos comparados. También conocida como medida de asociación, medida de similitud, etc.

Se utiliza en biología para cuantificar el grado de similitud de los objetos biológicos (sitios, regiones, fitocenosis individuales , zoocenosis , etc.). También se utiliza en geografía, sociología, reconocimiento de patrones , motores de búsqueda , lingüística comparada, bioinformática , quimioinformática , comparación de cadenas, etc.

En un sentido más amplio, hablan de medidas de proximidad, que incluyen: medidas de diversidad, medidas de concentración (homogeneidad), medidas de inclusión , medidas de similitud, medidas de diferencia (incluyendo distancias), medidas de compatibilidad de eventos, medidas de incompatibilidad de hechos, medidas de interdependencia , medidas de independencia mutua. La teoría de las medidas de proximidad está en su infancia y, por lo tanto, hay muchas ideas diferentes sobre la formalización de las relaciones de proximidad.

La mayoría de los coeficientes están normalizados y varían de 0 (sin similitud) a 1 (similitud total). La semejanza y la diferencia se complementan (matemáticamente, esto se puede expresar de la siguiente manera: Semejanza = 1 − Diferencia).

Los coeficientes de similitud se pueden dividir condicionalmente en tres grupos, dependiendo de cuántos objetos se consideren:

Coeficientes unarios

En el estudio de objetos biológicos, se utilizan ampliamente las medidas de la variabilidad tanto de las características individuales como de las frecuencias de distribución de las variables aleatorias. En el caso más simple, la diversidad del inventario (dentro del biosistema estudiado) puede estimarse por la riqueza de especies , o el número de especies.

Las medidas de diversidad más utilizadas [1] ( coeficiente de variación , índices de la familia paramétrica de Renyi , incluido el índice de Shannon ; índices de la familia Hill; índices de Margalef, Gleason , etc.). Con menos frecuencia, se utilizan medidas de concentración que las complementan (por ejemplo, la familia de medidas de Kolmogorov , la medida de disonancia de Rosenberg ).

Probabilidades binarias

Estos son los coeficientes más utilizados en biología y geografía [2] . El primer  coeficiente de similitud fue  propuesto por P. Jaccard en 1901 [ 3  ]  : Posteriormente, se propusieron varios coeficientes (medidas, índices) de similitud en varios campos de la ciencia. Los más utilizados (las designaciones son las mismas):

Se conoce una notación alternativa para la tabla de contingencia de R. R. Sokal ( Sokal ) y P. Sneath ( Sneath ) [10] [11] :

La presencia de la especie en el 1er sitio Falta de vista en el primer sitio
La presencia de la especie en el 2º sitio a b
Falta de vista en el segundo sitio C d

donde a  es el número de especies encontradas en ambos sitios; b  es el número de especies encontradas en el primer sitio de muestreo, pero sin tener en cuenta la presencia de especies comunes; c  es el número de especies encontradas en el segundo sitio de muestreo, pero sin tener en cuenta la ocurrencia de especies comunes.

Esta tabla crea mucha confusión. A menudo se confunde con una tabla cruzada estadística similar ; la notación de la tabla Sokal-Sneath se confunde con la notación clásica (ver arriba); casi siempre ignora el hecho de que la tabla solo considera probabilidades. En el proceso de formalización matemática de los objetos y las relaciones entre ellos, surgió una notación universal teórica de conjuntos para los coeficientes de similitud. Por primera vez, tal registro aparece en los trabajos de A. S. Konstantinov [12] , M. Levandovsky y D. Winter [13] . Entonces, el coeficiente de similitud de Jaccard se puede escribir de la siguiente manera:

o .

El coeficiente de similitud más simple es una medida de similitud absoluta, que es esencialmente el número de características comunes de dos objetos comparados: [14] . Al normalizar esta medida, los valores de la medida de similitud están entre 0 y 1 y el coeficiente se conoce como “medida de similitud porcentual” cuando se utilizan unidades de medida relativas (en porcentaje) y como medida de intersección en cálculos intermedios. de medidas de similitud relativa (por ejemplo, se conoce en el extranjero como la medida de Renkonen [ 15 ] ).

En 1973, B. I. Semkin propuso una fórmula general basada en la fórmula media de Kolmogorov , que combina la mayoría de los coeficientes de similitud conocidos en un continuo continuo de medidas [16] [17] :

,

donde ; ; ; ; ; . Por ejemplo, los valores de los coeficientes anteriores son los siguientes: [1,-1] (coeficiente de Jaccard); [0,-1] (coeficiente de Sorensen); [0,1] (coeficiente de Kulchinsky); [0,0] (coeficiente de Ochiai); [0, ] (coeficiente de Shimkevich-Simpson); [0, ] (coeficiente de Brown-Blanque). La fórmula de generalización permite definir clases de coeficientes equivalentes y no equivalentes [18] , así como evitar la creación de nuevos coeficientes duplicados.

Un tipo específico de coeficientes de similitud son las medidas de inclusión . Estas son medidas asimétricas ( y ), que muestran el grado de similitud (inclusión) de un objeto con respecto a otro. Se pueden obtener coeficientes de proximidad (simétricos) más familiares promediando dos medidas de inclusión asimétricas complementarias, es decir, cada medida de similitud simétrica corresponde a dos medidas de similitud asimétrica específicas. Por ejemplo, para la medida de Sørensen , esto es y ), y para la medida de Jaccard, esto es y . En general, dos medidas de inclusión no simétricas son mejores para estimar la similitud de los objetos que una medida de similitud simétrica promediada.

El tema de comparar objetos por indicadores de peso es controvertido y ambiguo. En ecología, estos son indicadores que tienen en cuenta la abundancia . Los esquemas de formalización más consistentes de este tipo son el esquema de B. I. Semkin basado en conjuntos descriptivos y el esquema de A. Chao con índices basados ​​en la abundancia (abundance-based indexes) [19] . También en la literatura extranjera se ha establecido la presentación de índices basados ​​en la incidencia (íncidence-based index), es decir, índices para datos booleanos del tipo presencia/ausencia (presencia/ausencia) de un rasgo. De hecho, ambos pueden describirse como casos especiales de conjuntos descriptivos.

La comparación de eventos aleatorios (por ejemplo, ocurrencia ) e indicadores de información siguen siendo discutibles. En el esquema de formalización de las relaciones de proximidad de B. I. Semkin, se propone destacar una serie de interpretaciones analíticas para varias relaciones de proximidad: múltiples , descriptivas , probabilísticas , informativas . Formalmente, la pertenencia a medidas de similitud está determinada por un sistema de axiomas (aquí E es un conjunto arbitrario):

  1. (no negatividad);
  2. (simetría);
  3. (“el todo es mayor que la parte”);
  4. (subaditividad).

Los sistemas de axiomas para medidas de similitud fueron propuestos por: A. Renyi [20] , Yu. A. Voronin [21] [22] , A. Tversky [23] , A. A. Vikentiev, G. S. Lbov [24] , G. V. Raushenbakh [25] , B. I. Semkin [26] [27] y otros.

Por regla general, un conjunto de medidas de proximidad se presenta en forma de matrices del tipo "objeto a objeto". Estas son, por ejemplo, matrices de similitud , matrices de distancias (en sentido amplio, diferencias), matrices de probabilidades conjuntas, matrices de funciones de información. La mayoría de ellas se pueden construir a partir de: medidas absolutas o relativas, y éstas, a su vez, pueden ser simétricas o asimétricas (estas últimas suelen denominarse medidas de inclusión).

Coeficientes de varios lugares

Dichos coeficientes se utilizan para comparar una serie de objetos. Estos incluyen: la similitud media de Alekhine , el índice de dispersión biótica de Koch, el coeficiente de dispersión (dispersión) de Shennikov , la medida de diversidad beta de Whittaker , la medida de homotonicidad de Mirkin- Rosenberg y su medida dual de heterotonicidad , y la medida de heterotonicidad de Semkin . coeficiente de similitud de una serie de descripciones. En la literatura extranjera, las medidas de este tipo se encuentran bajo los nombres: coeficientes multidimensionales, coeficientes n -dimensionales, medida de similitud de múltiples sitios, coeficiente multidimensional, medida de múltiples comunidades [28] [29] [30] . El coeficiente más famoso fue propuesto por L. Koch [31] :

,

donde , es decir, la suma del número de características de cada uno de los objetos; , es decir, el número total de características;  — un conjunto de n conjuntos (objetos).

Software de medición

Por regla general, las medidas de proximidad se calculan en el módulo de análisis de conglomerados del programa. El más utilizado es Statistica , pero en el módulo correspondiente no se presentan medidas de similitud en absoluto, solo distancias. SPSS (PASW Statistics) propone el cálculo de una serie de medidas de similitud (Ohai, Jacquard, Sokal-Sneath, Kulchinsky, medidas de Dados simétricos). Hay una gran cantidad de pequeños programas para calcular medidas de proximidad y la posterior representación gráfica de dependencias [32] [33] . Las medidas de similitud se presentan muy raramente y principalmente en programas especializados para biólogos [34] : Graphs, NTSYS, BIODIV, PAST, e incluso allí son muy pocas (generalmente solo la medida de Jaccard y, a veces, la medida de Sørensen). También podemos mencionar TurboVEG e IBIS [35] , que se basan en una base de datos con módulos de procesamiento, y el programa IBIS implementa la mayor cantidad de medidas de proximidad utilizadas actualmente en biología, geografía y otros campos.

Véase también

Notas

  1. Magurran A.E. Midiendo la diversidad biológica. - Oxford, Reino Unido.: Blackwell Publishing, 2004. - 256 p.
  2. Pesenko Yu. A. Principios y métodos de análisis cuantitativo en la investigación faunística Copia de archivo fechada el 20 de diciembre de 2014 en Wayback Machine . — M.: Nauka, 1982. — 287 p.
  3. Jaccard P. Distribution de la flore alpine dans le Bassin des Dranses et dans quelquesregions voisines // Bull. soc. Ciencia vaudoise. Naturaleza 1901. V. 37. Bd. 140. Art. 241-272.
  4. Sörensen T. Un método para establecer grupos de igual amplitud en la sociología vegetal basado en la similitud del contenido de especies // Kongelige Danske Videnskabernes Selskab. Biol. krifter Bd V. No. 4. 1948. P. 1-34.
  5. Kulczinsky S. Zespoly Roslin con Pienach // Bol. interno. académico polon. ciencia Letón. cl. ciencia Matemáticas. naturaleza. Ser. B. 1927. S. 2. Pág. 57-203.
  6. Ochiai A. Estudios zoogeográficos sobre los peces soleoides encontrados en Japón y sus regiones vecinas.  (enlace no disponible) II // Bol. jap. soc. ciencia pez. 1957. V. 22. No. 9. P. 526-530. (Resumen en inglés. Texto principal del artículo en japonés.)
  7. Szymkiewicz D. Une contribución estadística a la géographie floristique // Acta Soc. Bot. Polon. 1934. T. 34. Núm. 3. Pág. 249-265.
  8. Simpson GG Faunas de mamíferos holárticos y relación continental durante el Cenozoico // Bull. geol. ciencia America. 1947. V. 58. P. 613-688.
  9. Braun-Blanquet J. Pflanzensoziologie Grundzüge der Vegetationsskunde. - Berlín: Verlaq von Julius springer, 1928. - 330 s.
  10. Sokal RR , Sneath PHA Principios de taxonomía numérica Archivado el 5 de marzo de 2016 en Wayback Machine . - San Francisco: Londres: Freeman, 1963. - 359 p.
  11. Sneath PHA, Sokal RR . Taxonomía numérica: los principios y prácticas de la clasificación numérica. Archivado el 5 de marzo de 2016 en Wayback Machine . - San-Francisco: Freeman, 1973. - 573 p.
  12. Konstantinov A.S. El uso de la teoría de conjuntos en el análisis biogeográfico y ecológico // Usp. moderno biológico 1969. T. 67. núm. 1. C 99-108.
  13. Levandowsky M., Winter D. Distancia entre conjuntos Archivado el 5 de marzo de 2016 en Wayback Machine // Nature. 1971. V.234. Nº 5323. Pág. 34-35.
  14. Kovalevskaya V. B., Pogozhev I. B. , Pogozheva (Kusurgasheva) A. P. Métodos cuantitativos para evaluar el grado de proximidad de los monumentos por el porcentaje de material en masa // Arqueología soviética. 1970. Nº 3. S. 26-39.
  15. Renkonen O. Statististisch-ökologische Untersuchungen über die terrestrische Käferwelt finischen Bruchmoore // Acta zool. soc. zool.-bot. fenn Vanamo. 1938. V. 6. fasc. 1. pág. 1-231.
  16. Semkin B. I. Conjuntos descriptivos y sus aplicaciones // Estudio de sistemas. T. 1. Análisis de sistemas complejos. Vladivostok: DVNTs AN SSSR, 1973, págs. 83-94.
  17. Semkin B. I. Métodos teóricos de gráficos en florística comparativa Copia de archivo del 5 de marzo de 2016 en Wayback Machine // En el libro: Problemas teóricos y metodológicos de la florística comparativa: Materiales del segundo taller sobre florística comparativa. - Neringa: 1983. - S. 149-163.
  18. Semkin B. I., Dvoychenkov V. I. Sobre la equivalencia de medidas de similitud y diferencia Copia de archivo fechada el 5 de marzo de 2016 en Wayback Machine // Systems Research. T. 1. Análisis de sistemas complejos. Vladivostok: DVNTs AN SSSR, 1973, págs. 95-104.
  19. Chao A, Chazdon RL, Colwell RK, Shen TJ. Índices de similitud basados ​​en la abundancia y su estimación cuando hay especies no vistas en las muestras . Archivado el 4 de septiembre de 2012 en Wayback Machine // Biometrics. 2006. Nº 62. Págs. 361-371.
  20. Rényi A. Sobre medidas de dependencia  (enlace no disponible) // Acta Math. Academia ciencia colgado. 1959.V.10. Nº 3-4. págs. 441-451.
  21. Voronin Yu. A. Introducción de medidas de similitud y conexión para resolver problemas geológicos y geofísicos // Dokl. Academia de Ciencias de la URSS. 1971. V. 139. Nº 5. S. 64-70.
  22. Voronin Yu. A. Comienzos de la teoría de la similitud. - Novosibirsk: Ciencia. Hermano. Departamento, 1991. - 128 p.
  23. Tversky A. Características de similitud // Revisión psicológica. 1977. V.84. Nº 4. Pág. 327-352.
  24. Vikentiev A. A., Lbov G. S. Sobre metrizaciones del álgebra booleana de oraciones y la informatividad de declaraciones de expertos // Dokl. UN. Informática. 1998. V. 361. Nº 2. S. 174-176.
  25. Raushenbakh G.V. Medidas de proximidad y similitud // Análisis de información no numérica sobre investigación sociológica. M.: Nauka, 1985. S. 169-203.
  26. Semkin B. I., Gorshkov M. V. El sistema de axiomas de funciones simétricas de dos variables y medidas que miden la relación de similitud, diferencia, compatibilidad y dependencia de los componentes de la biodiversidad Copia de archivo del 16 de diciembre de 2018 en Wayback Machine // Vestnik TSEU. 2008. Nº 4. S. 31-46.
  27. Semkin B. I., Gorshkov M. V. Introducción axiomática de medidas de similitud, diferencia, compatibilidad y dependencia para los componentes de la biodiversidad en un caso multidimensional // Boletín de KrasGAU . 2009. Nº 12. S. 18-24.
  28. ↑ Chao A., Hwang WH , Chen YC , Kuo CY Estimación del número de especies compartidas en dos comunidades Sinica. 2000. Nº 10. Pág. 227-246.  
  29. Baselga A., Jiménez-Valverde A., Niccolini G. Una medida de similitud de múltiples sitios independiente de la riqueza Archivado el 5 de marzo de 2016 en Wayback Machine // Biol. Letón. 2007. Nº 3. Pág. 642-645.
  30. Diserud OH, Ødegaard F. Una medida de similitud de múltiples sitios  (enlace no disponible) // Biol. Letón. 2007. Nº 3. Págs. 20-22.
  31. ↑ Índice de Koch LF de dispersión biotal // Ecología. 1957. V. 38. Nº 1. P. 145-148.
  32. http://www.biometrica.tomsk.ru/list/other.htm Archivado el 16 de enero de 2012 en Wayback Machine Internet Statistical Resources
  33. http://evolution.genetics.washington.edu Archivado el 18 de abril de 2022 en Wayback Machine Programs for Phylogenetic Calculation en el Portal de Internet de la Universidad de Washington
  34. Novakovsky A. B. Revisión de herramientas de software utilizadas para el análisis de datos geobotánicos // Vegetación de Rusia. 2006. Nº 9. S. 86-95.
  35. Zverev A. A. Tecnologías de la información en la investigación de la cubierta vegetal. - Tomsk: TML-Press, 2007. -304 p.