La agrupación jerárquica (también algoritmos de agrupación de gráficos y análisis de agrupación jerárquica ) es un conjunto de algoritmos de ordenación de datos destinados a crear una jerarquía ( árbol ) de agrupaciones anidadas. Hay dos clases de métodos de agrupamiento jerárquico:
Los algoritmos de agrupamiento jerárquico asumen que el conjunto de objetos analizado se caracteriza por un cierto grado de conectividad. Según el número de características, a veces se distinguen métodos de clasificación monotéticos y politéticos . Como la mayoría de las formas visuales de representar dependencias, los gráficos pierden visibilidad rápidamente a medida que aumenta la cantidad de clústeres. Hay una serie de programas especializados para la construcción de gráficos .
Un dendograma se suele entender como un árbol construido a partir de una matriz de medidas de proximidad. El dendrograma le permite representar la relación entre los objetos de un conjunto dado [1] . La creación de un dendrograma requiere una matriz de similitud (o diferencia ) que determina el nivel de similitud entre pares de conglomerados. Los métodos aglomerativos son los más utilizados.
Para construir una matriz de similitud (diferencia), es necesario establecer una medida de distancia entre dos conglomerados. Los métodos más utilizados para determinar la distancia ( estrategias de clasificación en inglés ) [2] :
Para los tres primeros métodos, existe una fórmula general propuesta por A. N. Kolmogorov para medidas de similitud [5] :
donde es un grupo de dos objetos (clusters) y ; — el objeto (grupo) con el que se busca la similitud del grupo especificado; es el número de elementos en el grupo ; es el número de elementos en el grupo . Para distancias existe una fórmula similar de Lance-Williams [6] .
Ampliamente utilizado en geobotánica y floristería . A menudo se denominan pléyades de correlación [7] [8] [9] [10] .
Un caso especial es el método conocido como método de construcción de árboles óptimos (dendritas) , que fue propuesto por el matemático de la escuela de Lviv Hugo Steinhaus [11] , posteriormente el método fue desarrollado por matemáticos de la escuela taxonómica de Wroclaw [12] . Las dendritas tampoco deben formar ciclos. Puede usar parcialmente arcos dirigidos de gráficos usando medidas de inclusión adicionales (medidas de similitud asimétrica).
El método de "diagonalización" de la matriz de diferencias y la representación gráfica de grupos a lo largo de la diagonal principal de la matriz de diferencias (diagrama de Czekanowski) fue propuesto por primera vez por Jan Czekanowski en 1909 [13] . Aquí hay una descripción de la metodología:
La esencia de este método radica en el hecho de que la amplitud total de los valores de similitud obtenidos se divide en varias clases, y luego en la matriz de valores de similitud, estos valores se reemplazan por un sombreado que es diferente para cada clase, y generalmente se usa un sombreado más oscuro para las clases de mayor similitud. Luego, al cambiar el orden de las descripciones en la tabla, se aseguran de que haya más descripciones similares a continuación [14]
Pongamos un ejemplo hipotético de obtención del diagrama anterior. La base del método es la construcción de una matriz de clausura transitiva [15] .
Para construir una matriz de cierre transitiva, tomemos una matriz de similitud simple y multiplíquela por sí misma:
,donde es el elemento en la intersección de la -ésima fila y la -ésima columna en la nueva (segunda) matriz obtenida después de la primera iteración; es el número total de filas (columnas) de la matriz de similitud. Este procedimiento debe continuarse hasta que la matriz se vuelva idempotente (es decir, autosimilar): , donde n es el número de iteraciones.
A continuación, transformamos la matriz de tal manera que los valores numéricos cercanos estén cerca. Si a cada valor numérico se le asigna un color o tono de color (como en nuestro caso), obtenemos el clásico diagrama de Czekanowski. Tradicionalmente, un color más oscuro corresponde a una mayor similitud, y un color más claro corresponde a una menor. En esto es similar al mapa de calor para la matriz de distancia .
Aprendizaje automático y minería de datos | |
---|---|
Tareas | |
Aprendiendo con un maestro | |
análisis de conglomerados | |
Reducción de dimensionalidad | |
Pronóstico estructural | |
Detección de anomalías | |
Graficar modelos probabilísticos | |
Redes neuronales | |
Aprendizaje reforzado |
|
Teoría | |
revistas y congresos |
|