La falsa dependencia o falsa correlación en estadística es una dependencia matemática en la que dos o más eventos o variables se relacionan, pero no causalmente , sino por coincidencia, o por la presencia de cierto tercer factor oculto , denominado “variable de respuesta común”. , " factor de confusión " o " variable oculta " [1] .
Se pueden encontrar ejemplos de relaciones espurias en la literatura de series temporales , donde una regresión espuria es una regresión que proporciona evidencia estadística engañosa de una relación lineal entre variables no estacionarias independientes [2] . De hecho, la no estacionariedad puede deberse a la presencia de una raíz unitaria en ambas variables [3] . En particular, es probable que dos variables económicas nominales cualesquiera estén correlacionadas entre sí, incluso si ninguna tiene un efecto causal sobre la otra, ya que cada una es igual a la variable real multiplicada por el nivel de precios , y la presencia general del nivel de precios en las dos series de datos les da correlación .
Otro ejemplo de una relación falsa puede verse al examinar la relación de las ventas de helados en una ciudad con el número de ahogamientos . Las ventas pueden ser más altas cuando el número de ahogamientos en piscinas urbanas es más alto. Afirmar que vender helado provoca ahogamiento, o viceversa, sería sugerir una conexión falsa entre los dos. De hecho, el calor podría causar ambos. El calor es un ejemplo de una variable de confusión oculta o invisible.
Otro ejemplo ampliamente conocido es un conjunto de estadísticas que muestra una correlación positiva entre la cantidad de cigüeñas que anidan en varias fuentes y la cantidad de bebés humanos nacidos en ese momento. Por supuesto, no había una relación causal ; se correlacionaron entre sí solo porque se correlacionaron con el clima nueve meses antes de las observaciones [4] . Sin embargo, los estudios han demostrado que la correlación fue más fuerte que las fluctuaciones climáticas. Aunque el número de nacimientos clínicos no se asoció con el crecimiento de la población de cigüeñas , los nacimientos comunitarios se correlacionaron con la población de cigüeñas [5] .
En casos raros, puede ocurrir una relación espuria entre dos variables completamente no relacionadas sin ninguna variable de confusión. Los ejemplos más famosos son la victoria del equipo de fútbol americano Washington Redskins en un juego específico antes de cada elección presidencial y el éxito del partido político del titular en esa elección [6] . Durante 16 elecciones consecutivas entre 1940 y 2000, la " Regla de los Redskins " predijo si el partido político del titular mantendría o perdería la presidencia. Esta regla finalmente se rompió poco después de que Elias Athletic Bureau encontrara la correlación en 2000; en 2004, 2012 y 2016, los resultados de las elecciones y el juego de los Redskins no coincidieron [7] .
Es común probar la hipótesis nula de que no hay correlación entre dos variables y decidir de antemano rechazar la hipótesis si la correlación calculada a partir de la muestra de datos ocurriría en menos del 5% de las muestras de datos si la hipótesis nula fuera verdadera. Mientras que una hipótesis nula verdadera se aceptará el 95% de las veces, el 5% restante de los casos tendrá una hipótesis nula verdadera sin correlación, la correlación nula se rechazará erróneamente, lo que conducirá a la aceptación de una correlación que es falsa (un evento conocido como error tipo I ). En este ejemplo, la correlación espuria en la muestra fue el resultado de una selección aleatoria de una muestra que no refleja las verdaderas propiedades de la población .
El término "relación falsa" se usa ampliamente en estadística y, en particular, en métodos de investigación experimental que intentan comprender y predecir relaciones causales directas (X → Y). Una correlación no causal puede ser creada falsamente por un antecedente que causa ambos (W → X y W → Y). Las variables proxy (X → W → Y), si no se encuentran, estiman el efecto general en lugar del efecto directo sin ajustar por la variable proxy M. Debido a esto, las correlaciones experimentales no representan relaciones causales a menos que se excluyan las falsas dependencias.
En los experimentos, a menudo se puede detectar una relación espuria al controlar otros factores , incluidos aquellos que se han identificado teóricamente como posibles factores de confusión. Por ejemplo, cuando un investigador está tratando de determinar si un nuevo medicamento mata bacterias ; aplica la droga a un cultivo bacteriano , la bacteria muere. Pero para eliminar la presencia de una variable de confusión, la otra cultura se coloca en condiciones lo más cercanas posible a las encontradas por la primera, pero la segunda cultura no se expone a la droga. Si un factor de interferencia invisible está presente en estas condiciones, este cultivo de control también morirá, por lo que no se puede sacar ninguna conclusión de los resultados del primer cultivo sobre la eficacia del fármaco. Por otro lado, si la cultura de control no muere, entonces el investigador no puede rechazar la hipótesis de que la droga es efectiva.
Las disciplinas cuyos datos son principalmente no experimentales, como la economía, suelen utilizar datos de observación para establecer relaciones causales. El conjunto de métodos estadísticos utilizados en economía se denomina econometría . El principal método estadístico en econometría es el análisis de regresión multivariable . Por lo general, se asume una relación lineal de la forma , donde es la variable dependiente , para j = 1, ...,k la variable independiente , y es el término de error (que contiene los efectos combinados de todas las demás variables causales, que no deberían correlacionarse con las variables independientes incluidas). Si hay motivos para creer que no se llama ninguno de los , se obtienen estimaciones de los coeficientes . Si la hipótesis nula es sobre lo que se rechaza, entonces no se puede rechazar la hipótesis alternativa que es equivalente a lo que determina . Por otro lado, si la hipótesis nula no se puede rechazar, entonces, de manera equivalente , no se puede rechazar la hipótesis de que no hay un efecto causal .
Si es verdadero , entonces el cambio provocará un cambio , a menos que alguna otra variable causal, ya sea incluida en la regresión o implícita en el término de error, cambie de tal manera que compense exactamente su efecto; por lo tanto, el cambio no es suficiente para cambiar . Asimismo, un cambio no es necesario para un cambio porque el cambio podría ser causado por algo implícito en el término de error (o alguna otra variable explicativa causal incluida en el modelo).
El análisis de regresión controla por otras variables relevantes , incluyéndolas como regresoras (variables explicativas). Esto ayuda a evitar la inferencia errónea de causalidad debido a la presencia de una tercera variable subyacente que afecta tanto a la variable potencialmente causante como a la variable potencialmente dependiente: su efecto sobre la variable potencialmente dependiente se captura al incluirla directamente en la regresión, de modo que el efecto no se percibiría como un efecto parásito de una variable de interés potencialmente causal. Además, el uso de la regresión multivariada ayuda a evitar la conclusión errónea de que un efecto indirecto de, por ejemplo, x1 (por ejemplo, x1 → x2 → y) es un efecto directo (x1 → y). Por lo tanto, un modelo de regresión múltiple debe controlar todos los factores de confusión, incluyéndolos como regresores. Si no hay ningún factor de confusión en la regresión, su efecto se captura de manera predeterminada en el término de error, y si el término de error resultante se correlaciona con uno o más de los regresores incluidos, entonces la regresión estimada puede estar sesgada o ser inconsistente .
Además del análisis de regresión, los datos pueden examinarse para la causalidad de Granger . La presencia de la causalidad de Granger indica que x precede a y y que x contiene información única sobre y.