Harpillera

La agregación Bootstrap , o embolsado , es un metaalgoritmo de aprendizaje automático compositivo diseñado para mejorar la estabilidad y precisión de los algoritmos de aprendizaje automático utilizados en la clasificación y regresión estadística . El algoritmo también reduce la varianza y ayuda a evitar el sobreajuste . Si bien generalmente se aplica a métodos de aprendizaje automático basados ​​en árboles de decisión , se puede usar con cualquier tipo de método. El embolsado es un tipo particular de promedio de modelo .

Descripción de la tecnología

Si se proporciona un conjunto de entrenamiento estándar de tamaño n , el embolsado genera m nuevos conjuntos de entrenamiento , cada uno de tamaño n′ , mediante el muestreo de D uniformemente y retrocediendo . Con el retroceso, algunas observaciones pueden repetirse en cada . Si n ′= n , entonces para n grande se espera que el conjunto tenga una (1 - 1/ e ) (≈63.2 %) proporción de instancias únicas de D , siendo el resto repeticiones [1] . Este tipo de muestreo se conoce como muestreo bootstrap . Estos m modelos se suavizan utilizando las m muestras de arranque anteriores y se combinan mediante el promedio (para la regresión) o la votación (para la clasificación).

El embolsado conduce a "mejoras para procedimientos inestables" [2] , que incluyen, por ejemplo, redes neuronales artificiales , árboles de clasificación y regresión, y selección de subconjuntos en regresión lineal [3] . Una aplicación interesante de embolsado que muestra una mejora en el procesamiento de imágenes se muestra en artículos de Sahu, Apley y otros [4] [5] . Por otro lado, el método puede degradar ligeramente el rendimiento de los métodos estables, como los vecinos más cercanos de K [2] .

Ejemplo: Dependencia de la temperatura de la concentración de ozono

Para ilustrar los principios básicos del embolsado, a continuación se presenta un análisis de la relación entre el ozono y la temperatura (datos tomados del libro de Russevy Leroy [6] . El análisis se realizó en el lenguaje de programación R ).

La relación entre la temperatura y el ozono en este conjunto de datos obviamente no es lineal. Para describir esta relación se utilizaron suavizadores LOESS(con un ancho de banda de 0,5). En lugar de construir un suavizador único a partir de todo el conjunto de datos, se extrajeron 100 muestras de datos de arranque . Cada muestra es diferente del conjunto de datos original, pero siguen siendo iguales en distribución y varianza. Para cada muestra de bootstrap, se aplicó el suavizante LOESS. Luego se hace una predicción a partir de los datos basados ​​en estos 100 suavizamientos. Los primeros 10 suavizados se muestran como líneas grises en la siguiente figura. Las líneas parecen ser muy onduladas y sufren de sobreajuste de datos: el resultado de la banda es demasiado pequeño.

Tomando el promedio de 100 suavizadores que se aplicaron a los subconjuntos del conjunto de datos original, obtenemos el predictor compuesto (línea roja). Está claro que la media es más robusta y no tan propensa al sobreajuste .

Historia

El embolsado (del inglés  Bagging = Bootstrap aggregating ) fue propuesto por Leo Breiman en 1994 para mejorar la clasificación mediante la combinación de la clasificación de conjuntos de entrenamiento generados aleatoriamente. Ver Informe Técnico #421 [3] .

Véase también

Notas

  1. Aslam, Popa, Rivest, 2007 .
  2. 1 2 Breiman, 1996 , pág. 123–140.
  3. 1 2 Breiman, 1994 .
  4. Sahu, Runger, Apley, 2011 , pág. 1-7.
  5. Shinde, Sahu, Apley, Runger, 2014 .
  6. Rousseeuw, Leroy, 1987 , p. 84-93.

Literatura