La regresión censurada es una regresión con una variable dependiente observada con una restricción (censura) de valores posibles. En este caso, el modelo puede estar censurado solo en un lado (derecho o izquierdo) o en ambos lados. La regresión censurada se diferencia de la regresión truncada en que los valores de los factores, a diferencia de la variable dependiente, se observan sin restricciones.
La regresión canónica censurada, censurada desde abajo por cero, se llama tobit (por analogía con probit , logit , etc.), en honor al ganador del Premio Nobel de economía James Tobin. El estudio real de los modelos censurados comenzó con el trabajo de J. Tobin en 1958, que examinó el gasto de los hogares en automóviles. Para estimar la elasticidad de la demanda de automóviles con respecto a los ingresos, es necesario estimar la dependencia del logaritmo de los gastos con el logaritmo de los ingresos. Sin embargo, como mostró Tobin, tal estimación será sesgada e insostenible, ya que para las familias con bajos ingresos (por debajo de cierto umbral), la cantidad de gastos es cero, independientemente de la cantidad específica de ingresos y otros factores. Tobin fue el primero en proponer un enfoque para estimar dichos modelos, lo que hace posible obtener estimaciones consistentes de los parámetros del modelo.
En el modelo censurado no es la variable dependiente en sí misma la que se observa, sino sus valores dentro de los límites de la censura. Es decir, se supone que existe una variable latente para la cual es válido el modelo de regresión habitual , pero en realidad se observa otra variable, que se define en el caso general de la siguiente manera:
Si , entonces tenemos un modelo canónico censurado (tobit):
Considere la expectativa matemática de la variable dependiente observada utilizando el ejemplo de un modelo tobit con un error distribuido normalmente:
Si es la densidad y es la función de distribución integral del error aleatorio, entonces
Por lo tanto, finalmente tenemos
Obviamente, esta expresión no es igual a , por lo que la construcción de la regresión habitual conducirá a estimaciones sesgadas e inconsistentes.
La estimación de parámetros se realiza por el método de máxima verosimilitud . La función logarítmica de verosimilitud del modelo censurado es:
donde son la densidad y la función de distribución integral del error aleatorio .
Maximizar esta función con respecto a parámetros desconocidos nos permite encontrar sus estimaciones.
El modelo de Tobin tiene un inconveniente. El hecho es que el valor y=0 puede significar la elección de "no participar" (en gastos de vacaciones, por ejemplo), y los valores pueden interpretarse como "intensidad de participación". En el modelo Tobit, tanto la elección de "participar-no participar" como la "intensidad de participación" están determinadas por los mismos factores y los factores actúan en la misma dirección. Un ejemplo clásico de factor y situación de influencia ambigua es el número de hijos como factor que influye en los gastos familiares. Obviamente, una gran cantidad de niños puede influir negativamente en la decisión de "desalojar o no" (debido a los altos costos), sin embargo, si se toma tal decisión, entonces el monto del gasto (intensidad de participación) en vacaciones depende directamente de la numero de niños.
Heckman propuso dividir el modelo en dos componentes: un modelo de elección binaria para la participación y un modelo lineal para la intensidad de la participación, y los factores de estos dos modelos generalmente pueden ser diferentes. Así, en el modelo de Heckman existen dos variables latentes que satisfacen los siguientes modelos:
Se supone que los errores aleatorios del modelo se distribuyen normalmente. La segunda variable latente determina la elección "participar/no participar" dentro del modelo estándar de elección binaria (por ejemplo, el modelo probit). El primer modelo es el modelo de intensidad de participación, sujeto a la opción "participar". Si se selecciona “no participar”, entonces no se observa (igual a cero).
Tal modelo se llama tobit II (en consecuencia, el modelo tobit original se llama tobit I ), a veces por analogía hekit (el modelo de Heckman). En la literatura en idioma inglés, también se encuentra el modelo de selección de muestras de nombres .
Considere la expectativa matemática de la variable dependiente observada (suponiendo ):
Suponiendo que los errores aleatorios de los modelos de variables latentes están correlacionados y relacionados por
Como consecuencia
donde está la llamada lambda de Heckman .
El modelo de Heckman también se estima utilizando el método de máxima verosimilitud; sin embargo, debido a la naturaleza no estándar de este problema, a menudo se utiliza un procedimiento de estimación simplificado de dos pasos propuesto por Heckman. En el primer paso, se evalúa el modelo de elección binaria y se determinan los parámetros de este modelo. En base a estos parámetros, se puede determinar la lambda de Heckman para cada observación. En el segundo paso, los mínimos cuadrados usuales estiman la regresión:
Las estimaciones resultantes son ineficientes, pero pueden usarse como valores iniciales en el método de máxima verosimilitud.