K-medias++

k -means++ es una versión mejorada del algoritmo de agrupamiento k -means . La esencia de la mejora es encontrar más valores iniciales "buenos" de los centroides del clúster. El k-means original no especifica cómo se realiza este paso del algoritmo y, por lo tanto, es inestable. El algoritmo fue propuesto en 2007 por David Arthur y Sergey Vassilvitsky. También existen otros métodos similares descubiertos por otros científicos de forma independiente.

Inicialización

Elija el primer centroide al azar (entre todos los puntos)
Para cada punto, encuentre el valor del cuadrado de la distancia al baricentro más cercano (de los ya seleccionados) dx²
Elija entre estos puntos el próximo centroide de modo que la probabilidad de elegir un punto sea proporcional a la distancia al cuadrado calculada para él.Esto
se puede hacer de la siguiente manera. En el paso 2, debe calcular la suma Sum(dx²) en paralelo con el cálculo de dx². Después de acumular la suma, encuentre el valor Rnd=random(0.0,1.0)*Sum. Rnd apuntará aleatoriamente a un número del intervalo [0; Suma), y solo nos queda determinar a qué punto corresponde. Para hacer esto, debe comenzar a contar la suma S (dx²) nuevamente hasta que la suma exceda Rnd. Una vez que esto sucede, la suma se detiene y podemos tomar el punto actual como el centroide.
Al elegir cada centroide siguiente, no es necesario asegurarse de que no coincida con uno de los puntos ya elegidos como centroides, ya que la probabilidad de volver a seleccionar un punto determinado es 0.
Repita los pasos 2 y 3 hasta encontrar todos los centroides requeridos.

A continuación, se ejecuta el algoritmo principal k -means .

Implementaciones

Se incluye una implementación del lenguaje Java en la popular biblioteca Apache [1] .

Notas

↑ Commons Math: La biblioteca de matemáticas de Apache Commons . Fecha de acceso: 20 de septiembre de 2013. Archivado desde el original el 6 de octubre de 2014. (indefinido)

Aprendizaje automático y minería de datos
Tareas	Problema de clasificación Aprender sin un maestro Aprendizaje asistido por profesores Análisis de regresión AutoML reglas de asociación Extracción de características entrenamiento de rasgos Entrenamiento de clasificación Derivación gramatical Aprender en línea
Aprendiendo con un maestro	método del k-vecino más cercano Clasificador bayesiano ingenuo árbol de decisión Máquinas de vectores soporte Regresión lineal Regresión logística perceptrón conjuntos de modelos Harpillera impulsar bosque aleatorio Método de vector relevante
análisis de conglomerados	método k-medias método de agrupamiento difuso Agrupación jerárquica algoritmo EM ABEDUL CURAR DBSCAN ÓPTICA Desplazamiento medio
Reducción de dimensionalidad	Análisis factorial Método de componentes principales CCA ACI LDA Expansión de matriz no negativa t-SNE
Pronóstico estructural	Graficar modelo probabilístico red bayesiana Modelo oculto de Markov FRC
Detección de anomalías	método del k-vecino más cercano Nivel de emisión local
Graficar modelos probabilísticos	red bayesiana Red de Markov Modelo oculto de Markov
Redes neuronales	Máquina Boltzmann limitada mapa autoorganizado Función de activación Sigmoideo softmax Funcion de base radial Método de propagación hacia atrás Aprendizaje profundo perceptrón multicapa Red neuronal recurrente memoria a corto plazo Bloque recurrente controlado Red neuronal convolucional U-red Codificador automático
Aprendizaje reforzado	proceso de Markov Ecuación de Bellman Algoritmo codicioso Q-aprendizaje SARAS Diferencia temporal (DT)
Teoría	Teoría de Vapnik-Chervonenkis Dilema de dispersión de sesgo Teoría del aprendizaje computacional Minimización empírica del riesgo El aprendizaje de Occam aprendizaje PAC Teoría del aprendizaje estadístico
revistas y congresos	NeurIPS ICML ML JMLR ArXiv:cs.LG