Distribución hipergeométrica

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 28 de marzo de 2018; las comprobaciones requieren 2 ediciones .
distribución hipergeométrica
Función de probabilidad
Designacion
Opciones

Transportador
Función de probabilidad
Valor esperado
Moda
Dispersión
Coeficiente de asimetría
Coeficiente de curtosis
Función generadora de momentos
función característica

La distribución hipergeométrica en la teoría de la probabilidad modela el número de buenas muestras sin regresar de una población finita.

Ejemplo

alargado no estirado Total
con un defecto k re - k D
sin defectos n−k norte + k - norte - re DAKOTA DEL NORTE
Total norte norte - norte norte

Un ejemplo típico se presenta en la tabla anterior: se ha realizado una entrega de N artículos, de los cuales D son defectuosos. La distribución hipergeométrica describe la probabilidad de que en una muestra de n artículos diferentes extraídos de un envío, exactamente k artículos sean defectuosos.

En general, si una variable aleatoria X sigue una distribución hipergeométrica con parámetros N , D y n , entonces la probabilidad de obtener exactamente k éxitos viene dada por:

Esta probabilidad es positiva cuando k se encuentra entre max{ 0, D + n − N } y min{ n , D }.

La fórmula anterior se puede interpretar de la siguiente manera: hay selecciones posibles (sin reemplazo). Hay formas de seleccionar k objetos defectuosos y formas de llenar el resto de la muestra con objetos sin defectos.

En el caso de que el tamaño de la población sea grande en comparación con el tamaño de la muestra (es decir, N es mucho mayor que n ), la distribución hipergeométrica se aproxima bien mediante una distribución binomial con parámetros n (número de ensayos) y p = D / N ( probabilidad de éxito en una prueba).

Definición

Sea una colección finita formada por elementos. Supongamos que (defectuosos) de ellos tienen la propiedad que necesitamos. El resto no tiene esta propiedad. Se selecciona aleatoriamente un grupo de elementos de la población total. Sea una variable aleatoria igual al número de elementos seleccionados que tienen la propiedad deseada. Entonces la función de probabilidad tiene la forma:

,

donde denota el coeficiente binomial . Escribimos: .

Momentos

, .

Ejemplo de aplicación

Una aplicación clásica de la distribución hipergeométrica es el muestreo sin reemplazo. Considere una urna con dos tipos de bolas: negras y blancas. Definamos sacar una bola blanca como un éxito y una negra como un fracaso. Si N es el número de todas las bolas de la urna y D es el número de bolas blancas, entonces N  −  D es el número de bolas negras.
Ahora suponga que hay 5 bolas blancas y 45 negras en una urna. De pie junto a la urna, cierras los ojos y sacas 10 bolas ( n ). ¿Cuál es la probabilidad p (k=4) de sacar 4 bolas blancas (y por lo tanto 6 bolas negras)?

La tarea se describe en la siguiente tabla:

alargado no estirado Total
bolas blancas 4 ( k ) 1 = 5 - 4 ( re - k ) 5 (D)
bolas negras 6 = 10 - 4 ( norte - k ) 39 = 50 + 4 - 10 - 5 ( norte + k - norte - re ) 45 ( N−D )
Total 10 ( n ) 40 ( n−n ) 50 ( norte )

La probabilidad Pr ( k = x ) de que se extraigan exactamente x bolas blancas (= número de éxitos) se puede calcular mediante la fórmula:

De aquí, en nuestro ejemplo ( x = 4), obtenemos:

Por lo tanto, la probabilidad de sacar exactamente 4 bolas blancas es bastante pequeña (alrededor de 0,004). Esto significa que al realizar el experimento (sacar 10 bolas de la urna con 50 bolas sin reposición) 1000 veces, esperamos obtener el resultado anterior 4 veces.

En cuanto a la probabilidad de sacar las 5 bolas blancas, es intuitivamente claro que será menor que la probabilidad de sacar 4 bolas blancas. Calculemos esta probabilidad.

alargado no estirado Total
bolas blancas 5 ( k ) 0 = 5 - 5 ( re - k ) 5 (D)
bolas negras 5 = 10 - 5 ( norte - k ) 40 = 50 + 5 - 10 - 5 ( norte + k - norte - re ) 45 ( N−D )
Total 10 ( n ) 40 ( n−n ) 50 ( norte )

Así, obtenemos la probabilidad:

Como era de esperar, la probabilidad de sacar 5 bolas blancas es menor que la probabilidad de sacar 4 bolas blancas.

Conclusión:
la pregunta original se puede ampliar de la siguiente manera: si se extraen 10 bolas de una urna (que contiene 5 bolas blancas y 45 negras), ¿cuál es la probabilidad de sacar al menos 4 bolas blancas? Para responder a esta pregunta, es necesario calcular la función de distribución p(k>=4). Dado que la distribución hipergeométrica es una distribución de probabilidad discreta, la función de distribución se puede calcular fácilmente como la suma de las probabilidades correspondientes.

En nuestro ejemplo, basta con sumar Pr ( k = 4) y Pr ( k = 5):

Pr ( k ≥ 4) = 0,003964583 + 0,0001189375 = 0,004083520

Simetría

Esta simetría es intuitiva si cambia el color de las bolas blancas a negras y viceversa, por lo que las bolas blancas y negras simplemente cambian de rol.

Esta simetría es intuitiva si, en lugar de dibujar bolas, marcas las bolas que dibujarías. Ambas expresiones dan la probabilidad de que exactamente k bolas sean negras y marcadas como dibujadas.

Relación con otras distribuciones