Sesgo debido a variables omitidas

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 21 de junio de 2018; la verificación requiere 1 edición .

El sesgo de variable omitida es un  fenómeno en el análisis de regresión asociado con la obtención de estimaciones sesgadas e inconsistentes de los coeficientes de regresión debido a una especificación incorrecta del modelo, es decir, la no inclusión en el modelo estimado de variables independientes que tienen un efecto causal en la variable dependiente . incapacidad de incluir alguna variable independiente no observada en él.

Derivación formal

Imagine que el verdadero modelo de regresión se ve así:

donde es el vector de respuesta, y son la matriz y el vector de variables independientes. Siempre que y , entonces las estimaciones y, respectivamente, serán estimaciones de mínimos cuadrados de la dependencia de regresión de la respuesta en variables independientes. En particular, (donde es la matriz combinada de variables independientes).

Para modelar el sesgo debido a las variables omitidas, omitimos el predictor incluyéndolo en la parte no correlacionada del modelo:

donde _

Entonces, las estimaciones de mínimos cuadrados de los coeficientes predictores serán inconsistentes en comparación con el coeficiente verdadero :

Dado que, de acuerdo con el supuesto del modelo original, , entonces , mientras que

de donde

Literatura