Bootstrap (estadísticas)

Bootstrap [1] ( inglés  bootstrap ) en estadística  es un método informático práctico para estudiar la distribución de estadísticas de distribuciones de probabilidad , basado en la generación múltiple de muestras por el método de Monte Carlo a partir de la muestra existente [2] . Le permite evaluar fácil y rápidamente una amplia variedad de estadísticas ( intervalos de confianza , varianza , correlación , etc.) para modelos complejos.

El concepto fue introducido en 1977 por Bradley Efron (la primera publicación data de 1979 [3] ). La esencia del método es construir una distribución empírica basada en la muestra existente . Usando esta distribución como una distribución de probabilidad teórica, es posible generar un número casi ilimitado de pseudo-muestras de tamaño arbitrario, por ejemplo, el mismo que el original, usando un generador de números pseudoaleatorios. En un conjunto de pseudomuestras, uno puede evaluar no solo las características estadísticas analizadas, sino también estudiar sus distribuciones de probabilidad. Así, por ejemplo, es posible estimar la varianza o cuantiles de cualquier estadístico, independientemente de su complejidad. Este método es un método de estadística no paramétrica .

Junto con los métodos "jackknife" , la validación cruzada y las pruebas de permutación ( ing.  prueba exacta ) constituyen una clase de métodos de generación de remuestreo ( ing.  remuestreo ).

Etimología

La palabra proviene de la expresión: "Saltar uno mismo de una valla por las correas de uno". (literalmente, "para cruzar la cerca tirando de las correas de las botas" (ver foto a la derecha). Para las personas de habla rusa, la historia del barón Munchausen estará más cerca , quien, tirando de su cabello, se jaló y su caballo del pantano.

El anglicismo Bootstrap en sí mismo se usa en muchas áreas del conocimiento, donde es necesario transmitir el significado de obtener algo "gratis" o mágicamente obtener algo que vale la pena de la nada. En el campo de las estadísticas, el análogo más cercano del término en términos de etimología es "autoextracción".

Ejemplo introductorio

Sean dos observaciones:

Supongamos que necesitamos estimar un parámetro en una regresión de y sobre x :

La estimación del parámetro obtenida por el método de mínimos cuadrados será igual a

La función de distribución empírica en este caso es igual a

En este caso, los datos de dos observaciones con respecto a la distribución empírica se distribuirán de la siguiente manera:

Esta es la distribución bootstrap. A continuación, podemos encontrar la distribución de la estimación OLS:

Aplicación

El bootstrap se utiliza para corregir sesgos, probar hipótesis, construir intervalos de confianza.

Intervalo de confianza Bootstrap: un algoritmo

Sea una muestra de la población general , y se requiere estimar el parámetro . Es necesario elegir el número de pseudomuestras que se formarán a partir de los elementos de la muestra original con devolución. Para cada una de las pseudomuestras, se calcula una pseudoestadística .

Las pseudoestadísticas se ordenan de menor a mayor. Los cuantiles toman valores . Se utilizan para construir un intervalo de confianza.

Notas

  1. También bootstrap , bootstrap , bootstrapping , bootstrapping .
  2. アーカイブされたコピー. Consultado el 23 de marzo de 2007. Archivado desde el original el 12 de julio de 2012.
  3. Efrón, 1979 .

Literatura

Enlaces