Método de agrupamiento difuso de medias C

El método de agrupación difusa C-means ( en inglés  fuzzy clustering, soft k-means, c-means ) permite dividir el conjunto disponible de elementos con una potencia en un número determinado de conjuntos difusos . El método de agrupamiento difuso C -means puede considerarse como un método k -means mejorado , en el que para cada elemento del conjunto en consideración, se calcula el grado de su pertenencia ( responsabilidad en inglés ) a cada uno de los grupos.  

El algoritmo fue desarrollado por JC Dunn en 1973 [1] y mejorado por JC Bezdek en 1981 [2] .

Algoritmo:

  1. Establecer al azar centros de grupos ;
  2. Calcular la matriz de pertenencia de elementos a conglomerados . En el caso de una distribución normal : , donde es el -ésimo elemento del conjunto, es el centro del conglomerado ,  es la distancia entre los puntos y , es la densidad de probabilidad de la distribución normal en el punto .
  3. Mover centros de clústeres ;
  4. Calcule la función de pérdida (por ejemplo, según el principio de máxima verosimilitud ). En el caso de una distribución normal, la función de pérdida será igual a: ;
  5. Si el valor de la función de pérdida disminuye, repita el ciclo desde el paso 2.

El método de agrupamiento borroso de C -means es de uso limitado debido a un inconveniente importante: la imposibilidad de particionar correctamente en grupos en el caso de que los grupos tengan una dispersión diferente en diferentes dimensiones (ejes) de elementos (por ejemplo, un grupo tiene la forma de una elipse). Esta deficiencia se elimina en los algoritmos de modelos de mezcla y GMM ( modelos de mezcla gaussiana ).

Enlaces

  1. Dunn JC Un pariente borroso del proceso ISODATA y su uso en la detección de clústeres compactos bien separados  // Journal of Cybernetics. - 1973. - 17 de septiembre ( vol. 3 , núm. 3 ). — Pág. 32–57 . — ISSN 0022-0280 . -doi : 10.1080/ 01969727308546046 .
  2. Bezdek, James C. Reconocimiento de patrones con algoritmos de funciones objetivas difusas . - 1981. - ISBN 0-306-40671-3 .