Multicolinealidad ( multicolinealidad ) - en econometría ( análisis de regresión ) - la presencia de una relación lineal entre las variables explicativas (factores) del modelo de regresión . Al mismo tiempo, se distingue la colinealidad total , lo que significa la presencia de una dependencia lineal funcional (idéntica) y la multicolinealidad parcial o simplemente , la presencia de una fuerte correlación entre factores.
La colinealidad total conduce a la incertidumbre de los parámetros en un modelo de regresión lineal, independientemente de los métodos de estimación. Consideremos esto usando el ejemplo del siguiente modelo lineal
Sean los factores de este modelo idénticamente relacionados como sigue: . Luego considere el modelo lineal original, en el que agregamos un número arbitrario a al primer coeficiente y restamos el mismo número de los otros dos coeficientes. Entonces tenemos (sin un error aleatorio):
Así, a pesar del cambio relativamente arbitrario en los coeficientes del modelo, obtuvimos el mismo modelo. Tal modelo es fundamentalmente no identificable. La incertidumbre ya existe en el propio modelo. Si consideramos el espacio tridimensional de coeficientes, entonces en este espacio el vector de coeficientes verdaderos en este caso no es el único, ¡sino una línea recta completa! Cualquier punto de esta línea es un verdadero vector de coeficientes.
En este sentido, el problema de la colinealidad total de los factores ya se resuelve en la etapa de selección de variables en el modelado y, por lo tanto, no tiene nada que ver con el problema de la calidad de las estimaciones econométricas de los parámetros. En la práctica, a menudo surge otra situación: una fuerte correlación entre los factores.
Si la colinealidad completa conduce a la incertidumbre en los valores de los parámetros, la multicolinealidad parcial conduce a la inestabilidad de sus estimaciones . La inestabilidad se expresa en un aumento de la incertidumbre estadística: la varianza de las estimaciones. Esto significa que los resultados de una evaluación específica pueden variar mucho de una muestra a otra, aunque las muestras sean homogéneas.
Como se sabe, la matriz de covarianza de las estimaciones de los parámetros de regresión múltiple por el método de mínimos cuadrados es igual a . Así, cuanto más “pequeña” sea la matriz de covarianza (su determinante ), más “grande” será la matriz de covarianza de las estimaciones de los parámetros y, en particular, cuanto más grandes sean los elementos de la diagonal de esta matriz, es decir, la varianza de las estimaciones de los parámetros. Para mayor claridad, considere esto usando el ejemplo de un modelo de dos factores:
Entonces la varianza de la estimación del parámetro, por ejemplo, con el primer factor es:
donde es el coeficiente de correlación muestral entre los factores.
Aquí se ve claramente que cuanto mayor es el valor absoluto de la correlación entre los factores, mayor es la dispersión de las estimaciones de los parámetros. En (colinealidad total), la dispersión tiende al infinito, lo que corresponde a lo dicho anteriormente.
Por lo tanto, las estimaciones de los parámetros son imprecisas, lo que significa que será difícil interpretar la influencia de ciertos factores sobre la variable que se está explicando. Al mismo tiempo, la multicolinealidad no afecta la calidad del modelo en su conjunto: puede reconocerse como estadísticamente significativa , incluso cuando todos los coeficientes son insignificantes (este es uno de los signos de la multicolinealidad).
Los signos indirectos de multicolinealidad son errores estándar altos de las estimaciones de los parámetros del modelo, estadísticas t pequeñas (es decir, insignificancia de los coeficientes), signos incorrectos de las estimaciones, a pesar de que el modelo en su conjunto se reconoce como estadísticamente significativo (valor grande de F -Estadísticas). La multicolinealidad también puede indicarse mediante un fuerte cambio en las estimaciones de los parámetros a partir de la adición (o eliminación) de datos muestrales (si se cumplen los requisitos para una homogeneidad suficiente de la muestra).
Para detectar la multicolinealidad de los factores, se puede analizar directamente la matriz de correlación de los factores. Ya la presencia de valores de módulo grande (por encima de 0,7-0,8) de los coeficientes de correlación de pares indica posibles problemas con la calidad de las estimaciones obtenidas.
Sin embargo, el análisis de los coeficientes de correlación por pares es insuficiente. Es necesario analizar los coeficientes de determinación de regresiones de factores sobre otros factores ( ). Se recomienda calcular el indicador . Valores demasiado altos de este último significan la presencia de multicolinealidad.
La aplicación del método de componentes principales a los factores del modelo permite transformar los factores iniciales y obtener un conjunto de factores ortogonales (no correlacionados). Al mismo tiempo, la presencia de multicolinealidad nos permitirá limitarnos a un pequeño número de componentes principales. Sin embargo, puede haber un problema de interpretación significativa de los componentes principales.
La regresión de cresta o regresión de cresta implica estimar parámetros utilizando la siguiente fórmula:
Agregar un parámetro resuelve el problema del mal condicionamiento de la matriz . Estas estimaciones están sesgadas , en contraste con las estimaciones de MCO. Sin embargo, se ha demostrado que existe tal estimador para el cual estos estimadores son más eficientes que los estimadores LSM (los estimadores LSM son eficientes (tienen la varianza más pequeña) entre los estimadores lineales insesgados ). Sin embargo, no hay reglas claras para elegir este parámetro.