Correlación

Correlación (del latín  correlatio "ratio"), o dependencia de correlación  : una relación estadística de dos o más variables aleatorias (o variables que pueden considerarse como tales con cierto grado aceptable de precisión), mientras que los cambios en los valores de una o más más de estas cantidades van acompañadas de un cambio sistemático de valores de otra u otras cantidades [1] .

Una medida matemática de la correlación de dos variables aleatorias es el índice de correlación [2] o el coeficiente de correlación (o ) [1] . Si un cambio en una variable aleatoria no conduce a un cambio regular en otra variable aleatoria, pero conduce a un cambio en otra característica estadística de esta variable aleatoria, entonces tal relación no se considera una correlación, aunque es estadística [3] .

Por primera vez, el término correlación fue introducido en la circulación científica por el paleontólogo francés Georges Cuvier en el siglo XVIII. Desarrolló la "ley de correlación" de partes y órganos de seres vivos, con la ayuda de la cual es posible restaurar la apariencia de un animal fósil, teniendo a su disposición solo una parte de sus restos. En estadística, la palabra "correlación" fue utilizada por primera vez por el biólogo y estadístico inglés Francis Galton a finales del siglo XIX [4] .

Correlación e interconexión de cantidades

Una correlación significativa entre dos variables aleatorias es siempre evidencia de la existencia de alguna relación estadística en una muestra dada, pero esta relación no necesariamente tiene que ser observada para otra muestra y ser de naturaleza causal. La simplicidad a menudo tentadora de un estudio de correlación anima al investigador a sacar conclusiones intuitivas falsas sobre la presencia de una relación causal entre pares de rasgos, mientras que los coeficientes de correlación establecen sólo relaciones estadísticas. Por ejemplo, mirando los incendios en una ciudad en particular, uno puede encontrar una correlación muy alta entre el daño causado por el fuego y el número de bomberos involucrados en la extinción del fuego, y esta correlación será positiva. Esto, sin embargo, no lleva a la conclusión de que “un aumento en el número de bomberos conduce a un aumento en los daños causados”, y menos aún se intentará minimizar los daños por incendios mediante la eliminación de los cuerpos de bomberos [ 5] . La correlación de dos cantidades puede indicar la existencia de una causa común, aunque los fenómenos en sí mismos no interactúen directamente. Por ejemplo, la formación de hielo provoca tanto un aumento de las lesiones por caídas como un aumento de los accidentes entre vehículos. En este caso, dos cantidades (lesiones por caídas de peatones y accidentes de vehículos) estarán correlacionadas, aunque no están relacionadas causalmente entre sí, sino que solo tienen una tercera causa común: el hielo negro .

Al mismo tiempo, la ausencia de correlación entre dos cantidades no significa que no haya conexión entre ellas. Por ejemplo, la dependencia puede tener un carácter no lineal complejo, que la correlación no revela.

Algunos tipos de coeficientes de correlación pueden ser positivos o negativos. En el primer caso, se supone que podemos determinar únicamente la presencia o ausencia de una conexión, y en el segundo, también su dirección. Si se supone que los valores de las variables tienen una relación de orden estricto , entonces una correlación negativa  es una correlación en la que un aumento en una variable está asociado con una disminución en otra. En este caso, el coeficiente de correlación será negativo. Una correlación positiva bajo tales condiciones es aquella en la que un aumento en una variable está asociado con un aumento en otra variable. También es posible que no exista una relación estadística, por ejemplo, para variables aleatorias independientes .

Medidas de correlación

El método de cálculo del coeficiente de correlación depende del tipo de escala a la que se refieren las variables. Así, para medir variables con escalas de intervalo y cuantitativas, es necesario utilizar el coeficiente de correlación de Pearson (correlación de momentos producto ). Si al menos una de las dos variables tiene una escala ordinal, o no se distribuye normalmente , se debe usar la correlación de rango de Spearman o (tau) de Kendall. En el caso de que una de las dos variables sea dicotómica , se utiliza una correlación puntual de dos series, y si ambas variables son dicotómicas  , se utiliza una correlación de cuatro campos. El cálculo del coeficiente de correlación entre dos variables no dicotómicas sólo tiene sentido cuando la relación entre ellas es lineal (unidireccional).

Indicadores paramétricos de correlación

Covarianza

Una característica importante de la distribución conjunta de dos variables aleatorias es la covarianza (o momento de correlación ). La covarianza es un momento central conjunto de segundo orden [6] . La covarianza se define como la esperanza matemática del producto de las desviaciones de las variables aleatorias [7] :

,

donde  es la expectativa matemática (en la literatura en inglés, se acepta la designación de valor esperado ).

Propiedades de covarianza :

  • La covarianza de dos variables aleatorias independientes y es igual a cero [8] .
Prueba

Como y son variables aleatorias independientes, sus desviaciones y también lo son. Usando el hecho de que la expectativa matemática del producto de variables aleatorias independientes es igual al producto de las expectativas matemáticas de los factores, y la expectativa matemática de la desviación es cero, tenemos

  • El valor absoluto de la covarianza de dos variables aleatorias y no excede la media geométrica de sus dispersiones : [9] .
Prueba

Introduzcamos una variable aleatoria (donde es la desviación estándar ) y encontremos su varianza . Después de hacer los cálculos, obtenemos:

Cualquier varianza es no negativa, por lo que

De aquí

Al introducir una variable aleatoria , de manera similar

Combinando las desigualdades obtenidas, tenemos

O

Asi que,

  • La covarianza tiene una dimensión igual al producto de la dimensión de las variables aleatorias, es decir, la magnitud de la covarianza depende de las unidades de medida de las variables independientes. Esta característica de la covarianza dificulta su uso con fines de análisis de correlación [8] .
Coeficiente de correlación lineal

Para eliminar la falta de covarianza, se introdujo un coeficiente de correlación lineal (o coeficiente de correlación de Pearson ), que fue desarrollado por Karl Pearson , Francis Edgeworth y Raphael Weldon en los años 90 del siglo XIX. El coeficiente de correlación se calcula mediante la fórmula [10] [8] :

donde ,  es el valor medio de las muestras.

El coeficiente de correlación varía de menos uno a más uno [11] .

Prueba

Dividiendo ambas partes de la doble desigualdad por obtenemos

El coeficiente de correlación lineal está relacionado con el coeficiente de regresión en la forma de la siguiente dependencia: donde  es el coeficiente de regresión,  es la desviación estándar del atributo del factor correspondiente [12] . La relación entre el coeficiente de regresión y la desviación estándar Y no depende de las unidades de Y. Con una transformación lineal del conjunto de datos, el coeficiente de correlación lineal será igual a .

Medidas no paramétricas de correlación

Coeficiente de correlación de rangos de Kendall

Se utiliza para identificar la relación entre indicadores cuantitativos o cualitativos, si se pueden clasificar. Los valores del indicador X se establecen en orden ascendente y rangos asignados. Se ordenan los valores del indicador Y y se calcula el coeficiente de correlación de Kendall :

,

donde _

 es el número total de observaciones que siguen a las observaciones actuales con un gran valor de rangos Y.

 es el número total de observaciones que siguen a las observaciones actuales con rangos Y inferiores (¡los rangos iguales no se tienen en cuenta!)

Si los datos estudiados se repiten (tienen los mismos rangos), entonces se utiliza el coeficiente de correlación de Kendall ajustado en los cálculos:

 es el número de rangos relacionados en las series X e Y, respectivamente.

Coeficiente de correlación de rangos de Spearman

El grado de dependencia de dos variables aleatorias (características) y se puede caracterizar en base al análisis de los resultados obtenidos . A cada indicador se le asigna un rango. Los rangos de los valores están en orden natural . El rango se escribe como y corresponde al rango del par para el cual el rango es . Con base en los rangos obtenidos y se calculan sus diferencias y se calcula el coeficiente de correlación de Spearman :

El valor del coeficiente varía de −1 (las secuencias de rangos son completamente opuestas) a +1 (las secuencias de rangos son completamente iguales). Un valor de cero indica que las características son independientes.

Coeficiente de correlación del signo de Fechner

Se calcula el número de coincidencias y desajustes de signos de desviaciones de los valores de los indicadores de su valor promedio.

C es el número de pares para los que coinciden los signos de las desviaciones de los valores de sus medias.

H es el número de pares para los cuales los signos de las desviaciones de los valores de sus medias no coinciden.

Coeficiente de correlación múltiple Coeficiente de correlación de rango múltiple (concordancia)

 es el número de grupos que están clasificados.

 es el número de variables.

 es el rango del -factor de y -uno.

Significado:

, entonces se rechaza la hipótesis de no conexión.

En caso de rangos relacionados:

Propiedades del coeficiente de correlación

si tomamos la covarianza como el producto escalar de dos variables aleatorias , entonces la norma de la variable aleatoria será igual a , y la consecuencia de la desigualdad de Cauchy-Bunyakovsky será: .
  • El coeficiente de correlación es igual si y solo si y son linealmente dependientes (excluyendo eventos de probabilidad cero, cuando varios puntos "noquean" a la línea recta, lo que refleja la dependencia lineal de las variables aleatorias):
, donde _ Además, en este caso, los signos y coinciden: . Prueba

Considere las variables aleatorias X e Y con medias cero y varianzas iguales a y , respectivamente . Calculemos la varianza de la variable aleatoria :

Suponiendo que el coeficiente de correlación

entonces la expresión anterior se reescribirá en la forma

Dado que siempre puede elegir los números a y b de modo que (por ejemplo, si , entonces tomamos a y b arbitrariamente ), entonces para estos a y b la varianza es y, por lo tanto, es casi seguro. Pero esto significa una relación lineal entre X e Y. La demostración obviamente se generaliza al caso de X e Y con medias distintas de cero, solo que en los cálculos anteriores será necesario reemplazar X por e Y por .

  • Sean variables aleatorias tales que , . Entonces: , donde es la expectativa matemática condicional.
  • Si son variables aleatorias independientes , entonces . Lo contrario no es cierto en general.

Análisis de correlación

El análisis de correlación es un  método de procesamiento de datos estadísticos que mide la fuerza de la relación entre dos o más variables. El análisis de correlación está estrechamente relacionado con el análisis de regresión ( también se suele encontrar el término “ análisis de correlación-regresión ”, que es un concepto estadístico más general ), determina la necesidad de incluir ciertos factores en la ecuación de regresión múltiple y también evalúa la ecuación de regresión resultante para el cumplimiento de las relaciones identificadas (usando el coeficiente de determinación ) [1] [2] .

Limitaciones del análisis de correlación

  1. La aplicación es posible si hay suficientes observaciones para estudiar. En la práctica, se cree que el número de observaciones debe ser al menos 5-6 veces el número de factores (también se recomienda utilizar una proporción que sea al menos 10 veces el número de factores). Si el número de observaciones excede el número de factores por decenas de veces, entra en juego la ley de los grandes números , que asegura la cancelación mutua de las fluctuaciones aleatorias [13] .
  2. Es necesario que la totalidad de los valores de todas las características factoriales y efectivas obedezcan a la distribución normal multivariada . Si el volumen de la población es insuficiente para la prueba formal de la normalidad de la distribución, la ley de distribución se determina visualmente en función del campo de correlación . Si se observa una tendencia lineal en la ubicación de los puntos en este campo, entonces se puede suponer que el conjunto de datos iniciales obedece a la ley de distribución normal [14] .
  3. El conjunto inicial de valores debe ser cualitativamente homogéneo [13] .
  4. Por sí mismo, el hecho de la correlación no da pie para afirmar que una de las variables precede o es la causa de los cambios, o que las variables generalmente están relacionadas causalmente entre sí, y no se observa el efecto del tercer factor [5]. ] .

Alcance

Este método de procesamiento de datos estadísticos es muy popular en economía , astrofísica y ciencias sociales (en particular en psicología y sociología ), aunque el alcance de los coeficientes de correlación es extenso: control de calidad de productos industriales, metalurgia , química agrícola , hidrobiología , biometría y otros . . En varias industrias aplicadas, se aceptan diferentes límites de intervalos para evaluar la estanqueidad y la importancia de la conexión.

La popularidad del método se debe a dos puntos: los coeficientes de correlación son relativamente fáciles de calcular, su aplicación no requiere un entrenamiento matemático especial. Combinado con la facilidad de interpretación, la facilidad de aplicación del coeficiente ha llevado a su uso generalizado en el campo del análisis de datos estadísticos.

Véase también

Notas

  1. 1 2 3 Shmoylova, 2002 , pág. 272.
  2. 1 2 Eliseeva, Yuzbashev, 2002 , p. 232.
  3. Eliseeva, Yuzbashev, 2002 , pág. 228.
  4. Eliseeva, Yuzbashev, 2002 , pág. 228-229.
  5. 1 2 Eliseeva, Yuzbashev, 2002 , p. 229.
  6. Suslov, Ibragimov, Talysheva, Tsyplakov, 2005 , p. 141.
  7. Gmurman, 2004 , pág. 176-177.
  8. 1 2 3 Gmurman, 2004 , pág. 177.
  9. Gmurman, 2004 , pág. 178-179.
  10. Shmoylova, 2002 , pág. 300.
  11. Gmurman, 2004 , pág. 179.
  12. Shmoylova, 2002 , pág. 301.
  13. 1 2 Eliseeva, Yuzbashev, 2002 , p. 230.
  14. Shmoylova, 2002 , pág. 275.

Literatura

  • Gmurman V. E. Teoría de la probabilidad y estadística matemática: libro de texto para escuelas secundarias. - 10ª edición, estereotipada. - Moscú: Escuela Superior, 2004. - 479 p. —ISBN 5-06-004214-6.
  • Eliseeva I. I. , Yuzbashev M. M. Teoría general de la estadística: Libro de texto / Ed. I. I. Eliseeva. - 4ª edición, revisada y ampliada. - Moscú: Finanzas y Estadísticas, 2002. - 480 p. — ISBN 5-279-01956-9 .
  • Análisis de correlación  / A. V. Prokhorov // Gran Enciclopedia Rusa  : [en 35 volúmenes]  / cap. edición Yu. S. Osipov . - M.  : Gran Enciclopedia Rusa, 2004-2017.
  • Teoría General de la Estadística: Libro de Texto / Ed. R. A. Shmoylova . — 3ª edición, revisada. - Moscú: Finanzas y Estadísticas, 2002. - 560 p. — ISBN 5-279-01951-8 .
  • Suslov V. I., Ibragimov N. M., Talysheva L. P., Tsyplakov A. A. Econometría. - Novosibirsk: SO RAN, 2005. - 744 p. — ISBN 5-7692-0755-8 .

Enlaces