Multicolinealidad

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 11 de septiembre de 2016; las comprobaciones requieren 4 ediciones .

Multicolinealidad ( multicolinealidad ) - en econometría ( análisis de regresión ) - la presencia de una relación lineal entre las variables explicativas (factores) del modelo de regresión . Al mismo tiempo, se distingue la colinealidad total , lo que significa la presencia de una dependencia lineal funcional (idéntica) y la multicolinealidad parcial o simplemente , la presencia de una fuerte correlación entre factores.

La colinealidad total conduce a la incertidumbre de los parámetros en un modelo de regresión lineal, independientemente de los métodos de estimación. Consideremos esto usando el ejemplo del siguiente modelo lineal

$y=b_{1}x_{1}+b_{2}x_{2}+b_{3}x_{3}+\varepsilon$

Sean los factores de este modelo idénticamente relacionados como sigue: . Luego considere el modelo lineal original, en el que agregamos un número arbitrario a al primer coeficiente y restamos el mismo número de los otros dos coeficientes. Entonces tenemos (sin un error aleatorio): ${\ estilo de visualización x_{1}=x_{2}+x_{3))$

$y=(b_{1}+a)x_{1}+(b_{2}-a)x_{2}+(b_{3}-a)x_{3}=b_{1}x_{ 1}+b_{2}x_{2}+b_{3}x_{3}+a(x_{1}-x_{2}-x_{3})=b_{1}x_{1}+b_{ 2}x_{2}+b_{3}x_{3}$

Así, a pesar del cambio relativamente arbitrario en los coeficientes del modelo, obtuvimos el mismo modelo. Tal modelo es fundamentalmente no identificable. La incertidumbre ya existe en el propio modelo. Si consideramos el espacio tridimensional de coeficientes, entonces en este espacio el vector de coeficientes verdaderos en este caso no es el único, ¡sino una línea recta completa! Cualquier punto de esta línea es un verdadero vector de coeficientes.

En este sentido, el problema de la colinealidad total de los factores ya se resuelve en la etapa de selección de variables en el modelado y, por lo tanto, no tiene nada que ver con el problema de la calidad de las estimaciones econométricas de los parámetros. En la práctica, a menudo surge otra situación: una fuerte correlación entre los factores.

Consecuencias de la multicolinealidad

Si la colinealidad completa conduce a la incertidumbre en los valores de los parámetros, la multicolinealidad parcial conduce a la inestabilidad de sus estimaciones . La inestabilidad se expresa en un aumento de la incertidumbre estadística: la varianza de las estimaciones. Esto significa que los resultados de una evaluación específica pueden variar mucho de una muestra a otra, aunque las muestras sean homogéneas.

Como se sabe, la matriz de covarianza de las estimaciones de los parámetros de regresión múltiple por el método de mínimos cuadrados es igual a . Así, cuanto más “pequeña” sea la matriz de covarianza (su determinante ), más “grande” será la matriz de covarianza de las estimaciones de los parámetros y, en particular, cuanto más grandes sean los elementos de la diagonal de esta matriz, es decir, la varianza de las estimaciones de los parámetros. Para mayor claridad, considere esto usando el ejemplo de un modelo de dos factores: ${\frac {\sigma^{2}}{n}}V_{x}^{-1}$

$y=b_{0}+b_{1}x_{1}+b_{2}x_{2}+\varepsilon$

Entonces la varianza de la estimación del parámetro, por ejemplo, con el primer factor es:

$\sigma_{{\sombrero {b}}_{1}}^{2}={\frac {\sigma ^{2}}{n{\sombrero {\sigma}}_{x_{2 ))^{2}(1-{\sombrero {r}}^{2})}}$

donde es el coeficiente de correlación muestral entre los factores. ${\ estilo de visualización {\ sombrero {r}}}$

Aquí se ve claramente que cuanto mayor es el valor absoluto de la correlación entre los factores, mayor es la dispersión de las estimaciones de los parámetros. En (colinealidad total), la dispersión tiende al infinito, lo que corresponde a lo dicho anteriormente. ${\ estilo de visualización | r | \ flecha derecha 1}$

Por lo tanto, las estimaciones de los parámetros son imprecisas, lo que significa que será difícil interpretar la influencia de ciertos factores sobre la variable que se está explicando. Al mismo tiempo, la multicolinealidad no afecta la calidad del modelo en su conjunto: puede reconocerse como estadísticamente significativa , incluso cuando todos los coeficientes son insignificantes (este es uno de los signos de la multicolinealidad).

Detección de multicolinealidad

Los signos indirectos de multicolinealidad son errores estándar altos de las estimaciones de los parámetros del modelo, estadísticas t pequeñas (es decir, insignificancia de los coeficientes), signos incorrectos de las estimaciones, a pesar de que el modelo en su conjunto se reconoce como estadísticamente significativo (valor grande de F -Estadísticas). La multicolinealidad también puede indicarse mediante un fuerte cambio en las estimaciones de los parámetros a partir de la adición (o eliminación) de datos muestrales (si se cumplen los requisitos para una homogeneidad suficiente de la muestra).

Para detectar la multicolinealidad de los factores, se puede analizar directamente la matriz de correlación de los factores. Ya la presencia de valores de módulo grande (por encima de 0,7-0,8) de los coeficientes de correlación de pares indica posibles problemas con la calidad de las estimaciones obtenidas.

Sin embargo, el análisis de los coeficientes de correlación por pares es insuficiente. Es necesario analizar los coeficientes de determinación de regresiones de factores sobre otros factores ( ). Se recomienda calcular el indicador . Valores demasiado altos de este último significan la presencia de multicolinealidad. $R_{i}^{2}$ $VIF=1/(1-R_{j}^{2})$

Formas de resolver el problema de la multicolinealidad

Método de componentes principales

La aplicación del método de componentes principales a los factores del modelo permite transformar los factores iniciales y obtener un conjunto de factores ortogonales (no correlacionados). Al mismo tiempo, la presencia de multicolinealidad nos permitirá limitarnos a un pequeño número de componentes principales. Sin embargo, puede haber un problema de interpretación significativa de los componentes principales.

MCO recursivo

Regresión de cresta

La regresión de cresta o regresión de cresta implica estimar parámetros utilizando la siguiente fórmula:

${\sombrero {b}}=(X^{T}X+\lambda I)^{-1}X^{T}y$

Agregar un parámetro resuelve el problema del mal condicionamiento de la matriz . Estas estimaciones están sesgadas , en contraste con las estimaciones de MCO. Sin embargo, se ha demostrado que existe tal estimador para el cual estos estimadores son más eficientes que los estimadores LSM (los estimadores LSM son eficientes (tienen la varianza más pequeña) entre los estimadores lineales insesgados ). Sin embargo, no hay reglas claras para elegir este parámetro. $\lambda$ $X^{T}X$ $\lambda$