Análisis de conglomerados

El análisis de conglomerados es un procedimiento estadístico multidimensional  que recopila datos que contienen información sobre una muestra de objetos y luego organiza los objetos en grupos relativamente homogéneos [1] [2] [3] [4] . El problema de la agrupación se refiere al procesamiento estadístico y también a una amplia clase de problemas de aprendizaje no supervisados .

La mayoría de los investigadores (ver, por ejemplo, [5] ) se inclinan a creer que por primera vez el término "análisis de conglomerados" ( inglés  cluster  - bunch, clot, bundle) fue propuesto por el psicólogo R. Tryon [6] . Posteriormente, surgieron una serie de términos que actualmente se consideran sinónimos del término "análisis de conglomerados": clasificación automática, botriología.

El abanico de aplicaciones del análisis de conglomerados es muy amplio: se utiliza en arqueología , medicina , psicología , química , biología , administración pública , filología , antropología , marketing , sociología , geología y otras disciplinas. Sin embargo, la universalidad de la aplicación ha llevado a la aparición de una gran cantidad de términos, métodos y enfoques incompatibles que dificultan el uso inequívoco y la interpretación coherente del análisis de conglomerados.

Tareas y condiciones

El análisis de conglomerados realiza las siguientes tareas principales:

Independientemente del tema de estudio, el uso del análisis de conglomerados implica los siguientes pasos:

Puede encontrar una descripción de dos requisitos fundamentales para los datos: uniformidad e integridad. La homogeneidad requiere que todas las entidades agrupadas sean de la misma naturaleza, descritas por un conjunto similar de características [7] . Si el análisis de conglomerados está precedido por un análisis factorial , entonces la muestra no necesita ser "reparada": los requisitos establecidos se realizan automáticamente mediante el propio procedimiento de modelado factorial (hay otra ventaja: la estandarización z sin consecuencias negativas para la muestra; si se lleva a cabo directamente para el análisis de conglomerados, puede resultar en una disminución en la claridad de la separación de grupos). De lo contrario, la muestra debe ser ajustada.

Tipología de problemas de agrupamiento

Tipos de datos de entrada

En la ciencia moderna, se utilizan varios algoritmos para procesar datos de entrada. El análisis mediante la comparación de objetos basados ​​en características (más común en las ciencias biológicas) se denomina análisis de tipo Q y, en el caso de comparar características basadas en objetos, análisis de tipo R. Hay intentos de utilizar tipos híbridos de análisis (por ejemplo, análisis RQ ), pero esta metodología aún no se ha desarrollado adecuadamente.

Objetivos de la agrupación

En el primer caso, intentan reducir el número de clústeres. En el segundo caso, es más importante asegurar un alto grado de similitud de los objetos dentro de cada grupo, y puede haber cualquier número de grupos. En el tercer caso, los objetos individuales que no encajan en ninguno de los grupos son los de mayor interés.

En todos estos casos, se puede aplicar el agrupamiento jerárquico , cuando los clústeres grandes se dividen en otros más pequeños, que, a su vez, se dividen aún más pequeños, etc. Tales tareas se denominan tareas de taxonomía . El resultado de la taxonomía es una estructura jerárquica en forma de árbol. Además, cada objeto se caracteriza por una enumeración de todos los grupos a los que pertenece, generalmente de mayor a menor.

Métodos de agrupamiento

No existe una clasificación generalmente aceptada de los métodos de agrupamiento, pero se pueden distinguir varios grupos de enfoques (algunos métodos pueden atribuirse a varios grupos a la vez y, por lo tanto, se propone considerar esta tipificación como una aproximación a la clasificación real del agrupamiento). métodos) [9] :

  1. Enfoque probabilístico . Se supone que cada objeto bajo consideración pertenece a una de las k clases. Algunos autores (por ejemplo, A. I. Orlov) creen que este grupo no pertenece en absoluto al agrupamiento y lo oponen bajo el nombre de "discriminación", es decir, la elección de asignar objetos a uno de los grupos conocidos (muestras de entrenamiento).
  2. Enfoques basados ​​en sistemas de inteligencia artificial: un grupo muy condicionado, ya que hay muchos métodos y metodológicamente son muy diferentes.
  3. enfoque lógico. La construcción de un dendograma se realiza mediante un árbol de decisión.
  4. Enfoque teórico de grafos.
  5. Enfoque jerárquico. Se supone la presencia de grupos anidados (clusters de diferentes órdenes). Los algoritmos, a su vez, se dividen en aglomerativos (unificadores) y divisivos (separadores). Según el número de características, a veces se distinguen métodos de clasificación monotéticos y politéticos.
    • Clustering divisional jerárquico o taxonomía. Los problemas de agrupamiento se tratan en taxonomía cuantitativa .
  6. Otros metodos. No incluidos en los grupos anteriores.
    • Algoritmos de agrupamiento estadístico
    • Conjunto de agrupadores
    • Algoritmos de la familia KRAB
    • Algoritmo basado en el método de tamizado
    • DBSCAN, etc.

Los enfoques 4 y 5 a veces se combinan bajo el nombre de enfoque estructural o geométrico, que tiene un concepto más formalizado de proximidad [10] . A pesar de las diferencias significativas entre los métodos enumerados, todos se basan en la " hipótesis de compacidad " original : en el espacio de objetos, todos los objetos cercanos deben pertenecer al mismo grupo y todos los objetos diferentes, respectivamente, deben estar en grupos diferentes.

Declaración formal del problema de agrupamiento

Sea  un conjunto de objetos,  sea un conjunto de números (nombres, etiquetas) de grupos. Se da la función de distancia entre objetos . Hay un conjunto finito de objetos de entrenamiento . Es necesario dividir la muestra en subconjuntos que no se superpongan, llamados conglomerados , de modo que cada conglomerado esté formado por objetos que tengan una métrica similar y los objetos de diferentes conglomerados difieran significativamente. En este caso, a cada objeto se le asigna un número de grupo .

El algoritmo de agrupamiento  es una función que asocia cualquier objeto con un número de clúster . El conjunto en algunos casos se conoce de antemano, pero más a menudo la tarea es determinar el número óptimo de conglomerados, en términos de uno u otro criterio de calidad de conglomerado.

El agrupamiento ( aprendizaje no supervisado ) difiere de la clasificación ( aprendizaje supervisado ) en que las etiquetas de los objetos originales no se establecen inicialmente, y el conjunto mismo puede incluso ser desconocido .

La solución del problema de la agrupación es fundamentalmente ambigua, y esto se debe a varias razones (según varios autores):

Aplicación

En biología

En biología, la agrupación tiene muchas aplicaciones en una amplia variedad de campos. Por ejemplo, en bioinformática , se utiliza para analizar redes complejas de genes que interactúan, que a veces constan de cientos o incluso miles de elementos. El análisis de conglomerados le permite identificar subredes, cuellos de botella, concentradores y otras propiedades ocultas del sistema en estudio, lo que finalmente le permite descubrir la contribución de cada gen a la formación del fenómeno en estudio.

En el campo de la ecología, se usa ampliamente para identificar grupos espacialmente homogéneos de organismos, comunidades, etc. Con menos frecuencia, los métodos de análisis de conglomerados se usan para estudiar comunidades a lo largo del tiempo. La heterogeneidad de la estructura de las comunidades conduce a la aparición de métodos no triviales de análisis de conglomerados (por ejemplo, el método Czekanowski ).

Históricamente, las medidas de similitud se usan más comúnmente como medidas de proximidad en biología , en lugar de medidas de diferencia (distancia).

En sociología

Al analizar los resultados de la investigación sociológica, se recomienda realizar el análisis utilizando los métodos de una familia aglomerante jerárquica, a saber, el método de Ward, en el que se optimiza la dispersión mínima dentro de los conglomerados, como resultado, conglomerados de tamaños aproximadamente iguales. son creados. El método de Ward es el más exitoso para el análisis de datos sociológicos. Como medida de diferencia, la distancia euclidiana cuadrática es mejor, lo que contribuye a un aumento en el contraste de los conglomerados. El principal resultado del análisis de conglomerados jerárquicos es un dendrograma o "diagrama de carámbano". Al interpretarlo, los investigadores se enfrentan a un problema del mismo tipo que la interpretación de los resultados del análisis factorial: la falta de criterios inequívocos para identificar grupos. Se recomienda utilizar dos métodos como los principales: análisis visual del dendrograma y comparación de los resultados del agrupamiento realizado por diferentes métodos.

El análisis visual del dendrograma implica "cortar" el árbol al nivel óptimo de similitud de los elementos de la muestra. La "rama de vid" (terminología de M. S. Oldenderfer y R. K. Blashfield [11] ) debe "cortarse" en la marca 5 de la escala Rescaled Distance Cluster Combine, por lo que se logrará un nivel de similitud del 80 %. Si la selección de grupos por esta etiqueta es difícil (varios grupos pequeños se fusionan en uno grande), entonces puede elegir otra etiqueta. Esta técnica es propuesta por Oldenderfer y Blashfield.

Ahora surge la cuestión de la estabilidad de la solución de clúster adoptada. De hecho, verificar la estabilidad del agrupamiento se reduce a verificar su confiabilidad. Aquí hay una regla general: se conserva una tipología estable cuando cambian los métodos de agrupación. Los resultados del análisis de conglomerados jerárquicos se pueden verificar mediante un análisis de conglomerados iterativo de k-medias. Si las clasificaciones comparadas de grupos de encuestados tienen una proporción de coincidencias de más del 70% (más de 2/3 de coincidencias), entonces se toma una decisión de conglomerado.

Es imposible comprobar la adecuación de la solución sin recurrir a otro tipo de análisis. Al menos teóricamente, este problema no ha sido resuelto. El análisis de conglomerados clásico de Oldenderfer y Blashfield elabora y finalmente rechaza cinco métodos de prueba de robustez adicionales:

  1. correlación cofenética  - no recomendado y de uso limitado;
  2. pruebas de significancia (análisis de varianza) - siempre dan un resultado significativo;
  3. la técnica de muestras repetidas (aleatorias), que, sin embargo, no prueba la validez de la decisión;
  4. las pruebas de significancia para características externas solo son adecuadas para mediciones repetidas;
  5. Los métodos de Monte Carlo son muy complejos y solo accesibles para matemáticos experimentados. .

En informática

Véase también

Notas

  1. Aivazyan S. A., Buchstaber V. M., Enyukov I. S., Meshalkin L. D. Estadística aplicada: Clasificación y reducción de dimensionalidad. - M .: Finanzas y estadísticas, 1989. - 607 p.
  2. Mandel I. D. Análisis de conglomerados. — M.: Finanzas y estadísticas, 1988. — 176 p.
  3. Khaidukov D.S. Aplicación del análisis de conglomerados en la administración pública // Filosofía de las matemáticas: problemas reales. — M.: MAKS Press, 2009. — 287 p.
  4. Clasificación y clúster. ed. J. Wen Raizina. M.: Mir, 1980. 390 p.
  5. Mandel I. D. Análisis de conglomerados. - M .: Finanzas y estadísticas, 1988. - P. 10.
  6. Análisis de conglomerados de RC de Tryon . - Londres: Ann Arbor Edwards Bros, 1939. - 139 p.
  7. Zhambyu M. Correspondencias y análisis de conglomerados jerárquicos. — M.: Finanzas y estadísticas, 1988. — 345 p.
  8. Duran B., Odell P. Análisis de conglomerados. — M.: Estadísticas, 1977. — 128 p.
  9. Berikov V. S., Lbov G. S. Modern Trends in Cluster Analysis Copia de archivo fechada el 10 de agosto de 2013 en Wayback Machine // Selección competitiva de toda Rusia de artículos analíticos y de revisión en la dirección prioritaria "Sistemas de información y telecomunicaciones", 2008. - 26 p. . .
  10. Vyatchenin D. A. Métodos borrosos de clasificación automática. - Minsk: Technoprint, 2004. - 219 p.
  11. Oldenderfer M.S., Blashfield R.K. Análisis de conglomerados/Análisis factorial, discriminante y de conglomerados: per. De inglés; Por debajo. edición I. S. Enyukova. — M.: Finanzas y estadísticas, 1989—215 p.

Enlaces

En ruso En inglés