Prueba F

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 26 de octubre de 2017; las comprobaciones requieren 8 ediciones .

La prueba F o prueba de Fisher (F-test, φ*-test) es una prueba estadística cuyo estadístico de prueba , cuando se cumple la hipótesis nula , tiene la distribución de Fisher (distribución F).

De una forma u otra, las estadísticas de prueba se reducen a la relación de las varianzas de la muestra (sumas de cuadrados divididas por "grados de libertad"). Para que una estadística tenga una distribución de Fisher, el numerador y el denominador deben ser variables aleatorias independientes y las sumas de cuadrados correspondientes deben tener una distribución de Chi-cuadrado . Esto requiere que los datos tengan una distribución normal. Además, se supone que la varianza de las variables aleatorias cuyos cuadrados se suman es la misma.

La prueba se realiza comparando el valor del estadístico con el valor crítico de la distribución de Fisher correspondiente a un nivel de significación dado. Se sabe que si , entonces . Además, los cuantiles de la distribución de Fisher tienen la propiedad . Por lo tanto, generalmente en la práctica, un valor potencialmente grande está involucrado en el numerador, un valor más pequeño está involucrado en el denominador y la comparación se lleva a cabo con el cuantil "derecho" de la distribución. Sin embargo, la prueba puede ser tanto bilateral como unilateral. En el primer caso , se utiliza el cuantil para el nivel de significancia , y para la prueba de una cola, se utiliza [1] . $F \sim F(m,n)$ $1/F \sim F(n,m)$ $F_{1-\alfa}=1/F_{\alfa}$ $\alfa$ $F_{\alfa/2}$ $F_{\alfa}$

Una forma más conveniente de probar hipótesis es con un valor p , la probabilidad de que una variable aleatoria con una distribución de Fisher dada exceda un valor dado de la estadística. Si (para una prueba de dos colas - )) es menor que el nivel de significación , entonces se rechaza la hipótesis nula, de lo contrario se acepta. $pag(F)$ $pag(F)$ $2p(F$ $\alfa$

Ejemplos de prueba F

Prueba F para igualdad de varianzas

Dos selecciones

Sean dos muestras de tamaño m y n, respectivamente, de variables aleatorias X e Y que tienen una distribución normal. Es necesario comprobar la igualdad de sus varianzas. Estadísticas de prueba

$F=\frac {\sombrero{\sigma}^2_X}{\sombrero{\sigma}^2_Y}~ \sim ~F(m-1,n-1)$

donde es la varianza muestral de . ${\sombrero{\sigma}^2}$

Si la estadística es mayor que el valor crítico correspondiente al nivel de significancia elegido , entonces las varianzas de las variables aleatorias se reconocen como diferentes.

Selecciones múltiples

Sea una muestra de tamaño N de una variable aleatoria X dividida en k grupos con el número de observaciones en el i -ésimo grupo. $n_{i}$

Varianza intergrupal (“explicada”): $\hat{\sigma}^2_{BG}=\sum^k_{i=1} n_i (\overline {x_i}-\overline {x})^2/(k-1)$

Varianza dentro del grupo ("no explicada"): $\hat{\sigma}^2_{WG}=\sum^k_{i=1}\sum^{n_i}_{j=1} (x_{ij}-\overline {x}_i)^2/( Nk)$

$F=\frac {\hat{\sigma}^2_{BG}}{\hat{\sigma}^2_{WG}}~\sim~F(k-1,Nk)$

Esta prueba se puede reducir a probar la importancia de la regresión de la variable X en variables ficticias - indicadores de grupos. Si la estadística excede el valor crítico, entonces se rechaza la hipótesis sobre la igualdad de medias en las muestras, de lo contrario, las medias pueden considerarse iguales.

Comprobación de restricciones en los parámetros de regresión

La estadística de prueba para probar restricciones lineales en los parámetros de la regresión lineal normal clásica está determinada por la fórmula:

$F={\frac {(RSS_{S}-RSS_{L})/q}{RSS_{L}/(n-k_{L})))={\frac {(R_{L}^ {2}-R_{S}^{2})/q}{(1-R_{L}^{2})/(n-k_{L})}}~\sim ~F(q,n- k_{L})$

donde es el número de restricciones, n es el tamaño de la muestra, k es el número de parámetros del modelo, RSS es la suma de los cuadrados de los residuos del modelo, es el coeficiente de determinación, los índices S y L se refieren a los modelos corto y largo , respectivamente (modelos con restricciones y modelos sin restricciones). $q=k_L-k_S$ $R^2$

Nota

La prueba F descrita anteriormente es precisa en el caso de una distribución normal de errores aleatorios del modelo. Sin embargo, la prueba F también se puede aplicar en un caso más general. En este caso, es asintótico. El estadístico F correspondiente se puede calcular a partir de los estadísticos de las otras pruebas asintóticas : la prueba de Wald (W) , la prueba del multiplicador de Lagrange (LM) y la prueba de razón de verosimilitud (LR), de la siguiente manera:

$F=\frac {nk}{q} W/n ~,~ F=\frac {nk}{q} \frac {LM} {n-LM} ~,~F=\frac {nk}{q}( e^{LR/n}-1)$ Todos estos estadísticos tienen asintóticamente la distribución F(q, nk), a pesar de que sus valores pueden diferir en muestras pequeñas.

Pruebas de significación de regresión lineal

Esta prueba es muy importante en el análisis de regresión y es esencialmente un caso especial de prueba de restricciones. En este caso, la hipótesis nula se trata de la igualdad simultánea a cero de todos los coeficientes bajo los factores del modelo de regresión (es decir, las restricciones totales k-1). En este caso, el modelo corto es solo una constante como factor, es decir, el coeficiente de determinación del modelo corto es cero. El estadístico de prueba es:

$F=\frac {R^2/(k-1)}{(1-R^2)/(nk)}~\sim ~F(k-1,nk)$

En consecuencia, si el valor de esta estadística es mayor que el valor crítico en un nivel de significación dado, entonces se rechaza la hipótesis nula, lo que significa que la regresión es estadísticamente significativa. De lo contrario, el modelo se considera insignificante.

Ejemplo

Se estima una regresión lineal de la proporción de los gastos en alimentos en los gastos totales para una constante, el logaritmo de los gastos totales, el número de miembros adultos de la familia y el número de niños menores de 11 años. Es decir, hay 4 parámetros estimados en el modelo (k=4). Deje que el coeficiente de determinación se obtenga con base en los resultados de la evaluación de regresión . Utilizando la fórmula anterior, calculamos el valor del estadístico F si la regresión se estima a partir de los datos de 34 observaciones y de los datos de 64 observaciones: $R^{2}=41,2366\%$ $F_1=\frac {0,412366/(4-1)}{(1-0,412366)/(34-4)}=0,70174*10=7,02$

$F_2=\frac {0,412366/(4-1)}{(1-0,412366)/(64-4)}=0,70174*20=14,04$

El valor crítico del estadístico al nivel de significancia del 1% (en Excel, la función FDISP) en el primer caso es , y en el segundo caso . En ambos casos, la regresión se considera significativa en un determinado nivel de significancia. En el primer caso, el valor P es 0.1% y en el segundo es 0.00005%. Así, en el segundo caso, la confianza en la significancia de la regresión es significativamente mayor (la probabilidad de error es mucho menor si el modelo es reconocido como significativo). $F_{1\%}(3,30)=4,51$ $F_{1\%}(3,60)=4,13$

Pruebas de heterocedasticidad

Ver prueba Goldfeld-Quandt

Véase también

Notas

↑ Prueba F para la igualdad de dos varianzas . NIST . Fecha de acceso: 29 de marzo de 2017. Archivado desde el original el 9 de marzo de 2017.