La prueba de bondad de ajuste de Pearson o la prueba de bondad de ajuste (chi-cuadrado) es un método no paramétrico que le permite evaluar la importancia de las diferencias entre el número real (revelado como resultado del estudio) de resultados o características cualitativas de la muestra que caen en cada categoría y el número teórico que se puede esperar en los grupos estudiados si la hipótesis nula es cierta. En términos más simples, el método le permite evaluar la importancia estadística de las diferencias entre dos o más indicadores relativos (frecuencias, acciones).
Es el criterio más comúnmente utilizado para probar la hipótesis de que el tamaño de la muestra observada pertenece a alguna ley de distribución teórica .
El criterio de chi-cuadrado para el análisis de tablas de contingencia fue desarrollado y propuesto en 1900 por el fundador de la estadística matemática , el científico inglés Karl Pearson .
El criterio se puede utilizar para probar hipótesis simples de la forma
donde es el vector conocido de parámetros de la ley teórica, y al probar hipótesis complejas de la forma
cuando se calcula una estimación de un parámetro de distribución escalar o vectorial sobre la misma muestra.
El procedimiento para probar hipótesis utilizando criterios de tipo implica agrupar observaciones. El dominio de definición de una variable aleatoria se divide en intervalos que no se intersecan mediante puntos límite
donde es el límite inferior del dominio de definición de una variable aleatoria; - borde superior.
De acuerdo con la partición dada, se calcula el número de valores de muestra que caen en el intervalo th y las probabilidades de caer en el intervalo
correspondiente a una ley teórica con una función de distribución
Donde
yAl probar una hipótesis simple, se conocen tanto la forma de la ley como todos sus parámetros (se conoce el parámetro escalar o vectorial ).
Las estadísticas utilizadas en las pruebas de bondad de ajuste del tipo se basan en la medición de las desviaciones de .
El estadístico de bondad de ajuste de Pearson está determinado por la relación
En el caso de contrastar una hipótesis simple, en el límite en , este estadístico obedece a una distribución - con grados de libertad, si la hipótesis contrastada es verdadera . La densidad de la distribución, que es un caso especial de la distribución gamma , se describe mediante la fórmula
La hipótesis probada se rechaza para valores grandes de los estadísticos, cuando el valor de los estadísticos calculados a partir de la muestra es mayor que el valor crítico
o el nivel de significancia alcanzado ( valor p ) es menor que el nivel de significancia dado (la probabilidad de error dada del 1er tipo ) .
Al probar hipótesis complejas, si los parámetros de la ley para una misma muestra se estiman como resultado de la minimización de estadísticos o para una muestra agrupada utilizando el método de máxima verosimilitud , entonces el estadístico , si la hipótesis probada es verdadera, obedece a una distribución - con grados de libertad, donde es el número de parámetros estimados a partir de la muestra.
Si los parámetros se estiman a partir de la muestra no agrupada original , la distribución de la estadística no será una distribución [1] . Además, la distribución de los estadísticos cuando la hipótesis sea cierta dependerá del método de agrupación, es decir, de cómo se divida el dominio de definición en intervalos [2] .
Al estimar el método de máxima verosimilitud de los parámetros para una muestra no agrupada, puede usar criterios modificados como [3] [4] [5] [6] .
Cuando se utilizan criterios de bondad de ajuste, por regla general, no se establecen hipótesis en competencia: la muestra pertenece a una ley particular y, como hipótesis en competencia, se considera cualquier otra ley. Naturalmente, el criterio podrá distinguir de diferentes maneras de la ley correspondiente, leyes cercanas o lejanas a ella. Si especificamos una hipótesis en competencia y alguna ley en competencia correspondiente a ella , entonces ya podemos hablar de errores de dos tipos: no solo de un error del 1er tipo (rechazo de la hipótesis que se prueba cuando es verdadera) y la probabilidad de este error , sino también sobre un error de segundo tipo (no rechazo bajo equidad ) y la probabilidad de este error .
El poder del criterio en relación con la hipótesis en competencia se caracteriza por el valor . Cuanto mejor reconoce el criterio un par de hipótesis en competencia y mayor es su poder.
La potencia de la prueba de bondad de ajuste de Pearson depende significativamente del método de agrupación [7] [8] y del número de intervalos elegido [8] [9] .
Bajo el agrupamiento asintóticamente óptimo, que maximiza varios funcionales de la matriz de información de Fisher sobre los datos agrupados (minimiza las pérdidas asociadas con el agrupamiento), la prueba de bondad de ajuste de Pearson tiene la potencia máxima en relación con las hipótesis competidoras "(muy) cercanas" [ 10] [8] [9] .
Cuando se prueban hipótesis simples y se usa una agrupación asintóticamente óptima, la prueba de bondad de ajuste de Pearson tiene una ventaja en potencia sobre las pruebas de bondad de ajuste no paramétricas. Al probar hipótesis complejas, el poder de los criterios no paramétricos aumenta y no existe tal ventaja [11] [12] . Sin embargo, para cualquier par de hipótesis en competencia (leyes en competencia), al elegir el número de intervalos y el método de dividir el dominio de definición de una variable aleatoria en intervalos, es posible maximizar el poder del criterio [13] .