La reducción iterativa balanceada y el agrupamiento mediante jerarquías ( BIRCH ) es un algoritmo de minería de datos no supervisado que se utiliza para realizar el agrupamiento jerárquico en grandes conjuntos de datos [1] . La ventaja de BIRCH es la capacidad del método para agruparse dinámicamente a medida que llegan puntos de datos métricos multidimensionales en un intento de obtener una agrupación de mejor calidad para el conjunto de recursos disponibles (memoria y marco de tiempo ). En la mayoría de los casos, el algoritmo BIRCH requiere un paso a través de la base de datos .
Los desarrolladores de BIRCH afirmaron que era "el primer algoritmo de agrupamiento en ofrecer un manejo eficiente del 'ruido' (puntos de datos que no forman parte del esquema) en las bases de datos" [1] superando a DBSCAN en dos meses. El algoritmo recibió el premio SIGMOD en 2006 después de 10 años de pruebas [2] .
Los algoritmos de agrupamiento anteriores funcionaban de forma menos eficiente en bases de datos grandes y se comportaban de forma inadecuada cuando los datos eran demasiado grandes para caber en la RAM . Como resultado, hubo un gran costo para obtener un agrupamiento de alta calidad mientras se minimizaba el costo de E/S adicional. Además, la mayoría de los predecesores de BIRCH analizaron todos los puntos de datos (o todos los grupos actualmente seleccionados) por igual para cada "decisión de agrupación" y no hicieron una ponderación heurística basada en las distancias entre estos puntos de datos.
Cada solución de agrupación en clústeres es local y se realiza sin mirar todos los puntos de datos y los clústeres existentes actualmente. El método funciona en observaciones cuyo espacio de datos generalmente no se llena de manera uniforme y no todos los puntos de datos son igualmente importantes. El método permite usar toda la memoria disponible para obtener los subclusters más precisos posibles mientras se minimiza el costo de E/S. El método es incremental y no requiere el conjunto completo de datos a la vez.
El algoritmo BIRCH toma como entrada un conjunto de N puntos de datos, representados como vectores reales , y el número deseado de grupos , K. El algoritmo se divide en cuatro fases, la segunda de las cuales es opcional.
La primera fase construye un árbol CF de puntos de datos, una estructura de árbol altamente equilibrada definida de la siguiente manera:
En el segundo paso, el algoritmo pasa por todas las hojas del árbol CF inicial para construir un árbol CF más pequeño eliminando los abandonos y agrupando las subclases desbordadas en subclases más grandes. Este paso está marcado como opcional en la vista de origen de BIRCH.
El tercer paso utiliza el algoritmo existente para agrupar todas las hojas. Aquí, el algoritmo de agrupamiento jerárquico aglomerativo se aplica directamente a los subgrupos representados por sus vectores CF. También brinda la flexibilidad de permitir que el usuario especifique el número deseado de grupos o el umbral de diámetro de grupo deseado. Después de este paso, obtenemos un conjunto de clústeres que contienen los principales patrones de distribución de los datos. Sin embargo, puede haber pequeñas imprecisiones locales que pueden ser manejadas por el paso 4 opcional. En el paso 4, los centros de gravedad de los grupos obtenidos en el paso 3 se utilizan como semillas y puntos de redistribución de puntos de datos para obtener un nuevo conjunto de grupos. . El paso 4 también proporciona una opción para descartar valores atípicos. Es decir, un punto que está demasiado lejos del núcleo más cercano puede considerarse un valor atípico.
Si solo se da , se pueden obtener las mismas medidas sin conocer los valores verdaderos.
En casos multifactoriales, la raíz cuadrada se puede reemplazar por una norma apropiada.
Aprendizaje automático y minería de datos | |
---|---|
Tareas | |
Aprendiendo con un maestro | |
análisis de conglomerados | |
Reducción de dimensionalidad | |
Pronóstico estructural | |
Detección de anomalías | |
Graficar modelos probabilísticos | |
Redes neuronales | |
Aprendizaje reforzado |
|
Teoría | |
revistas y congresos |
|