Correlación (del latín correlatio "ratio"), o dependencia de correlación : una relación estadística de dos o más variables aleatorias (o variables que pueden considerarse como tales con cierto grado aceptable de precisión), mientras que los cambios en los valores de una o más más de estas cantidades van acompañadas de un cambio sistemático de valores de otra u otras cantidades [1] .
Una medida matemática de la correlación de dos variables aleatorias es el índice de correlación [2] o el coeficiente de correlación (o ) [1] . Si un cambio en una variable aleatoria no conduce a un cambio regular en otra variable aleatoria, pero conduce a un cambio en otra característica estadística de esta variable aleatoria, entonces tal relación no se considera una correlación, aunque es estadística [3] .
Por primera vez, el término correlación fue introducido en la circulación científica por el paleontólogo francés Georges Cuvier en el siglo XVIII. Desarrolló la "ley de correlación" de partes y órganos de seres vivos, con la ayuda de la cual es posible restaurar la apariencia de un animal fósil, teniendo a su disposición solo una parte de sus restos. En estadística, la palabra "correlación" fue utilizada por primera vez por el biólogo y estadístico inglés Francis Galton a finales del siglo XIX [4] .
Una correlación significativa entre dos variables aleatorias es siempre evidencia de la existencia de alguna relación estadística en una muestra dada, pero esta relación no necesariamente tiene que ser observada para otra muestra y ser de naturaleza causal. La simplicidad a menudo tentadora de un estudio de correlación anima al investigador a sacar conclusiones intuitivas falsas sobre la presencia de una relación causal entre pares de rasgos, mientras que los coeficientes de correlación establecen sólo relaciones estadísticas. Por ejemplo, mirando los incendios en una ciudad en particular, uno puede encontrar una correlación muy alta entre el daño causado por el fuego y el número de bomberos involucrados en la extinción del fuego, y esta correlación será positiva. Esto, sin embargo, no lleva a la conclusión de que “un aumento en el número de bomberos conduce a un aumento en los daños causados”, y menos aún se intentará minimizar los daños por incendios mediante la eliminación de los cuerpos de bomberos [ 5] . La correlación de dos cantidades puede indicar la existencia de una causa común, aunque los fenómenos en sí mismos no interactúen directamente. Por ejemplo, la formación de hielo provoca tanto un aumento de las lesiones por caídas como un aumento de los accidentes entre vehículos. En este caso, dos cantidades (lesiones por caídas de peatones y accidentes de vehículos) estarán correlacionadas, aunque no están relacionadas causalmente entre sí, sino que solo tienen una tercera causa común: el hielo negro .
Al mismo tiempo, la ausencia de correlación entre dos cantidades no significa que no haya conexión entre ellas. Por ejemplo, la dependencia puede tener un carácter no lineal complejo, que la correlación no revela.
Algunos tipos de coeficientes de correlación pueden ser positivos o negativos. En el primer caso, se supone que podemos determinar únicamente la presencia o ausencia de una conexión, y en el segundo, también su dirección. Si se supone que los valores de las variables tienen una relación de orden estricto , entonces una correlación negativa es una correlación en la que un aumento en una variable está asociado con una disminución en otra. En este caso, el coeficiente de correlación será negativo. Una correlación positiva bajo tales condiciones es aquella en la que un aumento en una variable está asociado con un aumento en otra variable. También es posible que no exista una relación estadística, por ejemplo, para variables aleatorias independientes .
El método de cálculo del coeficiente de correlación depende del tipo de escala a la que se refieren las variables. Así, para medir variables con escalas de intervalo y cuantitativas, es necesario utilizar el coeficiente de correlación de Pearson (correlación de momentos producto ). Si al menos una de las dos variables tiene una escala ordinal, o no se distribuye normalmente , se debe usar la correlación de rango de Spearman o (tau) de Kendall. En el caso de que una de las dos variables sea dicotómica , se utiliza una correlación puntual de dos series, y si ambas variables son dicotómicas , se utiliza una correlación de cuatro campos. El cálculo del coeficiente de correlación entre dos variables no dicotómicas sólo tiene sentido cuando la relación entre ellas es lineal (unidireccional).
Una característica importante de la distribución conjunta de dos variables aleatorias es la covarianza (o momento de correlación ). La covarianza es un momento central conjunto de segundo orden [6] . La covarianza se define como la esperanza matemática del producto de las desviaciones de las variables aleatorias [7] :
,donde es la expectativa matemática (en la literatura en inglés, se acepta la designación de valor esperado ).
Propiedades de covarianza :
Como y son variables aleatorias independientes, sus desviaciones y también lo son. Usando el hecho de que la expectativa matemática del producto de variables aleatorias independientes es igual al producto de las expectativas matemáticas de los factores, y la expectativa matemática de la desviación es cero, tenemos
Introduzcamos una variable aleatoria (donde es la desviación estándar ) y encontremos su varianza . Después de hacer los cálculos, obtenemos:
Cualquier varianza es no negativa, por lo que
De aquí
Al introducir una variable aleatoria , de manera similar
Combinando las desigualdades obtenidas, tenemos
O
Asi que,
Para eliminar la falta de covarianza, se introdujo un coeficiente de correlación lineal (o coeficiente de correlación de Pearson ), que fue desarrollado por Karl Pearson , Francis Edgeworth y Raphael Weldon en los años 90 del siglo XIX. El coeficiente de correlación se calcula mediante la fórmula [10] [8] :
donde , es el valor medio de las muestras.
El coeficiente de correlación varía de menos uno a más uno [11] .
PruebaDividiendo ambas partes de la doble desigualdad por obtenemos
El coeficiente de correlación lineal está relacionado con el coeficiente de regresión en la forma de la siguiente dependencia: donde es el coeficiente de regresión, es la desviación estándar del atributo del factor correspondiente [12] . La relación entre el coeficiente de regresión y la desviación estándar Y no depende de las unidades de Y. Con una transformación lineal del conjunto de datos, el coeficiente de correlación lineal será igual a .
Se utiliza para identificar la relación entre indicadores cuantitativos o cualitativos, si se pueden clasificar. Los valores del indicador X se establecen en orden ascendente y rangos asignados. Se ordenan los valores del indicador Y y se calcula el coeficiente de correlación de Kendall :
,
donde _
es el número total de observaciones que siguen a las observaciones actuales con un gran valor de rangos Y.
es el número total de observaciones que siguen a las observaciones actuales con rangos Y inferiores (¡los rangos iguales no se tienen en cuenta!)
Si los datos estudiados se repiten (tienen los mismos rangos), entonces se utiliza el coeficiente de correlación de Kendall ajustado en los cálculos:
es el número de rangos relacionados en las series X e Y, respectivamente.
Coeficiente de correlación de rangos de SpearmanEl grado de dependencia de dos variables aleatorias (características) y se puede caracterizar en base al análisis de los resultados obtenidos . A cada indicador se le asigna un rango. Los rangos de los valores están en orden natural . El rango se escribe como y corresponde al rango del par para el cual el rango es . Con base en los rangos obtenidos y se calculan sus diferencias y se calcula el coeficiente de correlación de Spearman :
El valor del coeficiente varía de −1 (las secuencias de rangos son completamente opuestas) a +1 (las secuencias de rangos son completamente iguales). Un valor de cero indica que las características son independientes.
Coeficiente de correlación del signo de FechnerSe calcula el número de coincidencias y desajustes de signos de desviaciones de los valores de los indicadores de su valor promedio.
C es el número de pares para los que coinciden los signos de las desviaciones de los valores de sus medias.
H es el número de pares para los cuales los signos de las desviaciones de los valores de sus medias no coinciden.
Coeficiente de correlación múltiple Coeficiente de correlación de rango múltiple (concordancia)
es el número de grupos que están clasificados.
es el número de variables.
es el rango del -factor de y -uno.
Significado:
, entonces se rechaza la hipótesis de no conexión.
En caso de rangos relacionados:
Considere las variables aleatorias X e Y con medias cero y varianzas iguales a y , respectivamente . Calculemos la varianza de la variable aleatoria :
Suponiendo que el coeficiente de correlación
entonces la expresión anterior se reescribirá en la forma
Dado que siempre puede elegir los números a y b de modo que (por ejemplo, si , entonces tomamos a y b arbitrariamente ), entonces para estos a y b la varianza es y, por lo tanto, es casi seguro. Pero esto significa una relación lineal entre X e Y. La demostración obviamente se generaliza al caso de X e Y con medias distintas de cero, solo que en los cálculos anteriores será necesario reemplazar X por e Y por .
El análisis de correlación es un método de procesamiento de datos estadísticos que mide la fuerza de la relación entre dos o más variables. El análisis de correlación está estrechamente relacionado con el análisis de regresión ( también se suele encontrar el término “ análisis de correlación-regresión ”, que es un concepto estadístico más general ), determina la necesidad de incluir ciertos factores en la ecuación de regresión múltiple y también evalúa la ecuación de regresión resultante para el cumplimiento de las relaciones identificadas (usando el coeficiente de determinación ) [1] [2] .
Este método de procesamiento de datos estadísticos es muy popular en economía , astrofísica y ciencias sociales (en particular en psicología y sociología ), aunque el alcance de los coeficientes de correlación es extenso: control de calidad de productos industriales, metalurgia , química agrícola , hidrobiología , biometría y otros . . En varias industrias aplicadas, se aceptan diferentes límites de intervalos para evaluar la estanqueidad y la importancia de la conexión.
La popularidad del método se debe a dos puntos: los coeficientes de correlación son relativamente fáciles de calcular, su aplicación no requiere un entrenamiento matemático especial. Combinado con la facilidad de interpretación, la facilidad de aplicación del coeficiente ha llevado a su uso generalizado en el campo del análisis de datos estadísticos.
diccionarios y enciclopedias | |
---|---|
En catálogos bibliográficos |