Análisis de variación

El análisis de varianza  es un método en estadística matemática destinado a encontrar dependencias en datos experimentales mediante el examen de la importancia de las diferencias en los valores promedio [1] [2] . A diferencia de la prueba t , te permite comparar las medias de tres o más grupos. Desarrollado por R. Fisher para analizar los resultados de estudios experimentales. La designación ANOVA (del inglés.  ANalysis Of VAriance ) [3] también se encuentra en la literatura .

Tipos de ANOVA

La esencia del análisis de varianza es estudiar la influencia de una o más variables independientes , generalmente denominadas factores, sobre la variable dependiente . Las variables dependientes están representadas por los valores de escalas absolutas (escala de razón). Las variables independientes son nominativas (escala de nombre), es decir, reflejan la pertenencia al grupo, y pueden tener dos o más valores (tipo, grado o nivel). Ejemplos de una variable independiente con dos valores serían género (femenino: , masculino: ) o tipo de grupo de tratamiento (control: , experimental: ). Las gradaciones correspondientes a muestras independientes de objetos se denominan intergrupo, y las gradaciones correspondientes a muestras dependientes se denominan intragrupo.

Dependiendo del tipo y número de variables, hay:

Modelo matemático de análisis de varianza

El modelo matemático de análisis de dispersión es un caso especial del modelo lineal básico . Que los métodos se utilicen para medir varios parámetros cuyos valores exactos son . En este caso, los resultados de las mediciones de varias cantidades por varios métodos se pueden representar como:

,

dónde:

Entonces las varianzas de las siguientes variables aleatorias: (donde:




)

se expresan como:

y satisfacer la identidad:

El procedimiento de análisis de varianza consiste en determinar la relación entre la varianza sistemática (entre grupos) y la varianza aleatoria (dentro del grupo) en los datos medidos. Como indicador de variabilidad, se utiliza la suma de los cuadrados de la desviación de los valores de los parámetros de la media: (del inglés Sum of Squares ). Se puede demostrar que la suma total de cuadrados se descompone en una suma de cuadrados intergrupo y una suma de cuadrados intragrupo :

Sea el valor exacto de cada parámetro su esperanza matemática igual a la media de la población . En ausencia de errores sistemáticos, la media del grupo y la media de la población son idénticas: . Entonces el error de medición aleatorio es la diferencia entre el resultado de la medición y la media del grupo: . Si el método tiene un efecto sistemático, entonces el error sistemático bajo la influencia de este factor es la diferencia entre la media del grupo y la media de la población: .

Entonces la ecuación se puede representar de la siguiente manera:

, o

.

Después

dónde

Como consecuencia

Los grados de libertad se descomponen de manera similar:

dónde

y es el tamaño de la muestra completa, y  es el número de grupos.

Luego, la varianza de cada parte, denominada en el modelo de análisis de varianza como el "cuadrado medio", o (del inglés Mean Square ), es la relación entre la suma de los cuadrados y el número de sus grados de libertad:

El cociente de las varianzas intergrupo e intragrupo tiene una distribución F ( distribución de Fischer ) y se determina utilizando el ( criterio F de Fisher ):

Principios y Aplicaciones

Los puntos de partida del análisis de varianza son

La hipótesis nula en el análisis de varianza es la afirmación sobre la igualdad de los valores medios:

Cuando se rechaza la hipótesis nula, se acepta la hipótesis alternativa de que no todas las medias son iguales, es decir, existen al menos dos grupos que difieren en las medias:

Si hay tres o más grupos, se utilizan pruebas t post-hoc o el método de contrastes para determinar las diferencias entre las medias .

Análisis de varianza unidireccional

El caso más simple de análisis de varianza es un análisis unidimensional de una vía para dos o más grupos independientes, cuando todos los grupos se combinan de acuerdo con un atributo. Durante el análisis se contrasta la hipótesis nula sobre la igualdad de las medias. Cuando se analizan dos grupos, el análisis de varianza es idéntico a la prueba t de Student de dos muestras para muestras independientes, y el valor del estadístico F es igual al cuadrado del estadístico t correspondiente .

Para confirmar la afirmación sobre la igualdad de las dispersiones, se suele utilizar la prueba de Levene . Si se rechaza la hipótesis de igualdad de varianzas, el análisis principal no es aplicable. Si las varianzas son iguales, se utiliza el criterio F de Fisher para evaluar la proporción de variabilidad intergrupal e intragrupo :

Si el estadístico F excede el valor crítico, entonces no se puede aceptar (rechazar) la hipótesis nula y se llega a una conclusión sobre la desigualdad de las medias. Al analizar los promedios de los dos grupos, los resultados pueden interpretarse inmediatamente después de aplicar la prueba de Fisher .

Si hay tres o más grupos, se requiere una comparación de medias por pares para identificar diferencias estadísticamente significativas entre ellos. El análisis a priori incluye el método de contrastes, en el que la suma de cuadrados intergrupal se divide en las sumas de cuadrados de los contrastes individuales:

donde hay un contraste entre las medias de los dos grupos, y luego usando la prueba de Fisher , se comprueba la relación del cuadrado medio de cada contraste con el cuadrado medio dentro del grupo:

El análisis a posteriori incluye pruebas t post-hoc utilizando los métodos de Bonferroni o Scheffe, así como una comparación de diferencias de medias utilizando el método de Tukey. Una característica de las pruebas post-hoc es el uso de un cuadrado medio intragrupo para evaluar cualquier par de medias. Las pruebas de Bonferroni y Scheffe son las más conservadoras ya que utilizan la región crítica más pequeña en un nivel de significación dado .

Además de estimar los promedios, el análisis de varianza incluye la determinación del coeficiente de determinación , mostrando qué proporción de la variabilidad total explica este factor:

Análisis de varianza multivariante

, dónde:

A diferencia del modelo univariante, donde hay una suma de cuadrados intergrupo, el modelo de análisis multivariante incluye las sumas de cuadrados para cada factor por separado y las sumas de cuadrados de todas las interacciones entre ellos. Así, en el modelo de dos factores, la suma de cuadrados intergrupo se descompone en la suma de cuadrados del factor , la suma de los cuadrados del factor y la suma de los cuadrados de la interacción de los factores y :

En consecuencia, el modelo de tres factores incluye la suma de los cuadrados del factor , la suma de los cuadrados del factor , la suma de los cuadrados del factor y la suma de los cuadrados de las interacciones de los factores y , y , y , así como las interacciones de los tres factores :

Los grados de libertad se expanden de manera similar:

dónde

y es el volumen de la muestra completa,  es el número de niveles (grupos) del factor y  es el número de niveles (grupos) del factor .

El análisis prueba varias hipótesis nulas :

Cada hipótesis se prueba utilizando el criterio de Fisher:

Al rechazar la hipótesis nula sobre la influencia de un solo factor, se acepta la afirmación de que existe un efecto principal del factor ( etc.). Al rechazar la hipótesis nula sobre la interacción de los factores, se acepta la afirmación de que la influencia del factor se manifiesta de manera diferente en los diferentes niveles del factor . Por lo general, en este caso, los resultados del análisis general se reconocen como inválidos y la influencia del factor se verifica por separado en cada nivel del factor mediante un análisis de varianza de una vía o prueba t .

Notas

  1. Análisis de varianza . Consultado el 15 de marzo de 2011. Archivado desde el original el 23 de mayo de 2012.
  2. Análisis de dispersión : artículo de la Gran Enciclopedia Soviética . Bolchevique, L.N.. 
  3. AD Nasledov. Métodos matemáticos de investigación psicológica. San Petersburgo, 2008. ISBN 5-9268-0275-X

Literatura