Método de k-mediana

El método -median [1] [2] es una variación del método -averages  utilizado en estadísticas y aprendizaje automático para problemas de agrupación , donde se calcula la mediana en lugar del promedio para determinar el centroide de la agrupación . Este enfoque corresponde a minimizar el error sobre todos los conglomerados en una métrica de 1 norma , en lugar de la métrica de 2 normas utilizada en el método de medias estándar.

La tarea de determinar las medianas es encontrar centros tales que los grupos formados por ellos sean los más "compactos". Formalmente, dados los puntos de datos , los centros deben elegirse para minimizar la suma de las distancias de cada uno al más cercano .

El método a veces funciona mejor que el método de medias, donde se minimiza la suma de las distancias al cuadrado. El criterio de la suma de distancias es ampliamente utilizado para problemas de transporte [3] .

Otra alternativa es el método -medoids , en el que se busca el medoid óptimo , y no la mediana del clúster (el medoid es uno de los puntos de datos, mientras que las medianas no tienen por qué serlo).

Enlaces

  1. A. K. Jain y R. C. Dubes, Algorithms for Clustering Data: Prentice-Hall, 1981.
  2. PS Bradley, OL Mangasarian y WN Street, "Clustering via Concave Minimization", en Advances in Neural Information Processing Systems, vol. 9, MC Mozer, MI Jordan y T. Petsche, eds. Cambridge, MA: MIT Press, 1997, págs. 368-374.
  3. Copia archivada . Consultado el 24 de octubre de 2010. Archivado desde el original el 3 de abril de 2022.